- 博客(13)
- 资源 (4)
- 收藏
- 关注
原创 Caffe源码解读:防止梯度爆炸的措施-梯度裁剪
梯度裁剪是一种在非常深度的网络(通常是循环神经网络)中用于防止梯度爆炸(exploding gradient)的技术。执行梯度裁剪的方法有很多,但常见的一种是当参数矢量的 L2 范数(L2 norm)超过一个特定阈值时对参数矢量的梯度进行标准化,这个特定阈值根据函数:新梯度=梯度 * 阈值 / 梯度L2范数 new_gradients =
2017-05-12 16:02:34 6082
转载 深度学习梯度下降的几种优化方式
转自:https://zhuanlan.zhihu.com/p/22252270前言(标题不能再中二了)本文仅对一些常见的优化方法进行直观介绍和简单的比较,各种优化方法的详细内容及公式只好去认真啃论文了,在此我就不赘述了。SGD此处的SGD指mini-batch gradient descent,关于batch gradient descent, stochasti
2017-05-12 15:40:41 741
原创 Caffe源码解读:dropout_layer的正向传播和反向传播
原理:参数:1,神经元被drop out的概率p,被激活的概率为1-p 2,scale_train_标志位(train过程中被激活的神经元是否乘 1/1-p)train过程: 前向传播过程中每个神经元以1-p的概率被激活 被激活的神经元根据scale_train_标志来确定是否变大1/1-p倍test过程
2017-05-10 16:46:36 978
原创 Caffe源码解读:BatchNormLayer原理
template void BatchNormLayer::LayerSetUp(const vector*>& bottom, const vector*>& top) { //获取BatchNormParameter参数列表 BatchNormParameter param = this->layer_param_.batch_norm_param(); //得到m
2017-05-10 11:41:30 709
原创 Caffe中权值初始化方法
caffe中权值初始化方式有如下几种:template Filler* GetFiller(const FillerParameter& param) { const std::string& type = param.type(); if (type == "constant") { return new ConstantFiller(param); } else if
2017-05-09 20:28:03 1250
原创 Caffe源码解读:lrn_layer层原理
LRN全称为Local Response Normalization,即局部响应归一化层,具体实现在CAFFE_ROOT/src/caffe/layers/lrn_layer.cpp和同一目录下lrn_layer.cu中。该层需要参数有:norm_region: 选择对相邻通道间归一化还是通道内空间区域归一化,默认为ACROSS_CHANNELS,即通道间归一化;
2017-05-09 19:50:00 793
原创 Caffe源码解读:pooling_layer的前向传播与反向传播
池化层分为最大池化和平均池化正向传播的原理就不说了。误差反向传播原理如下: 假设第l(小写的l,不要看成数字’1’了)层为卷积层,第l+1层为pooling层,且pooling层的误差敏感项为: ,卷积层的误差敏感项为: , 则两者的关系表达式为: 这里符号●表示的是矩阵的点积操作,即对应元素的乘积。卷积层和unsample()后的poo
2017-05-09 11:21:50 612
原创 Caffe源码解读:relu_layer前向传播和反向传播
relu_layer实际采用leaky_relu作为激活函数,普通relu优缺点如下:ReLU 的优点:Krizhevsky et al. 发现使用 ReLU 得到的SGD的收敛速度会比 sigmoid/tanh 快很多(看右图)。有人说这是因为它是linear,而且 non-saturating相比于 sigmoid/tanh,ReLU 只需要一个阈值就可以得到激
2017-05-08 20:17:36 1263
原创 Caffe源码解读:conv_layer的前向传播与反向传播
实现原理请见:https://zhuanlan.zhihu.com/p/22860936下面直接上conv_layer.cpp代码://前向传播template void ConvolutionLayer::Forward_cpu(const vector*>& bottom, const vector*>& top) { //blobs_[0]保存权值, blobs_
2017-05-08 19:44:49 717
转载 caffe常用的cblas函数
转自:http://www.cnblogs.com/huashiyiqike/p/3886670.htmlY=alpha * X +beta*Y template <>void caffe_cpu_axpbyfloat>(const int N, const float alpha, const float* X,
2017-05-08 11:43:12 618
原创 Caffe源码解读: Softmax_loss_Layer的前向与反向传播
1,前向传播分为两步:1,计算softmax概率prob_data,直接使用softmaxlayer的forward函数; 2,计算loss,采用交叉熵,即每个第i类数据的loss为-log(prob(i))。template void SoftmaxWithLossLayer::Forward_cpu( const vector*>& bo
2017-05-05 15:43:36 873
原创 Caffe源码解读: SoftmaxLayer的前向与反向传播
1.前向传播部分这部分直接参照softmax公式: template void SoftmaxLayer::Forward_cpu(const vector*>& bottom, const vector*>& top) { const Dtype* bottom_data = bottom[0]->cpu_data
2017-05-05 11:49:14 1241
转载 交叉熵代价函数
转自:http://blog.csdn.net/u012162613/article/details/442399191.从方差代价函数说起代价函数经常用方差代价函数(即采用均方误差MSE),比如对于一个神经元(单输入单输出,sigmoid函数),定义其代价函数为:其中y是我们期望的输出,a为神经元的实际输出【 a=σ(z), where z=wx+b 】。
2017-05-05 10:52:29 270
关于深度学习(DL)的9篇标志性文章
2015-09-14
深度学习经典论文(A fast learning algorithm for deep belief nets)
2015-09-09
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人