2017年05月_faithenXX

09月 08月 05月 04月 03月 02月 01月

原创 Caffe源码解读：防止梯度爆炸的措施-梯度裁剪

梯度裁剪是一种在非常深度的网络（通常是循环神经网络）中用于防止梯度爆炸（exploding gradient）的技术。执行梯度裁剪的方法有很多，但常见的一种是当参数矢量的 L2 范数（L2 norm）超过一个特定阈值时对参数矢量的梯度进行标准化，这个特定阈值根据函数：新梯度=梯度 * 阈值 / 梯度L2范数 new_gradients =

2017-05-12 16:02:34 6082

转载深度学习梯度下降的几种优化方式

转自：https://zhuanlan.zhihu.com/p/22252270前言（标题不能再中二了）本文仅对一些常见的优化方法进行直观介绍和简单的比较，各种优化方法的详细内容及公式只好去认真啃论文了，在此我就不赘述了。SGD此处的SGD指mini-batch gradient descent，关于batch gradient descent, stochasti

2017-05-12 15:40:41 741

原创 Caffe源码解读：dropout_layer的正向传播和反向传播

原理：参数：1，神经元被drop out的概率p，被激活的概率为1-p 2，scale_train_标志位（train过程中被激活的神经元是否乘 1/1-p）train过程：前向传播过程中每个神经元以1-p的概率被激活被激活的神经元根据scale_train_标志来确定是否变大1/1-p倍test过程

2017-05-10 16:46:36 978

原创 Caffe源码解读：BatchNormLayer原理

template void BatchNormLayer::LayerSetUp(const vector*>& bottom, const vector*>& top) { //获取BatchNormParameter参数列表 BatchNormParameter param = this->layer_param_.batch_norm_param(); //得到m

2017-05-10 11:41:30 709

原创 Caffe中权值初始化方法

caffe中权值初始化方式有如下几种：template Filler* GetFiller(const FillerParameter& param) { const std::string& type = param.type(); if (type == "constant") { return new ConstantFiller(param); } else if

2017-05-09 20:28:03 1250

原创 Caffe源码解读：lrn_layer层原理

LRN全称为Local Response Normalization，即局部响应归一化层，具体实现在CAFFE_ROOT/src/caffe/layers/lrn_layer.cpp和同一目录下lrn_layer.cu中。该层需要参数有：norm_region：选择对相邻通道间归一化还是通道内空间区域归一化，默认为ACROSS_CHANNELS，即通道间归一化；

2017-05-09 19:50:00 793

原创 Caffe源码解读：pooling_layer的前向传播与反向传播

池化层分为最大池化和平均池化正向传播的原理就不说了。误差反向传播原理如下：　　假设第l(小写的l，不要看成数字’1’了)层为卷积层，第l+1层为pooling层，且pooling层的误差敏感项为： ,卷积层的误差敏感项为： , 则两者的关系表达式为：　　　　这里符号●表示的是矩阵的点积操作，即对应元素的乘积。卷积层和unsample()后的poo

2017-05-09 11:21:50 612

原创 Caffe源码解读：relu_layer前向传播和反向传播

relu_layer实际采用leaky_relu作为激活函数，普通relu优缺点如下：ReLU 的优点：Krizhevsky et al. 发现使用 ReLU 得到的SGD的收敛速度会比 sigmoid/tanh 快很多(看右图)。有人说这是因为它是linear，而且 non-saturating相比于 sigmoid/tanh，ReLU 只需要一个阈值就可以得到激

2017-05-08 20:17:36 1263

原创 Caffe源码解读：conv_layer的前向传播与反向传播

实现原理请见：https://zhuanlan.zhihu.com/p/22860936下面直接上conv_layer.cpp代码://前向传播template void ConvolutionLayer::Forward_cpu(const vector*>& bottom, const vector*>& top) { //blobs_[0]保存权值, blobs_

2017-05-08 19:44:49 717

转载 caffe常用的cblas函数

转自：http://www.cnblogs.com/huashiyiqike/p/3886670.htmlY=alpha * X +beta*Y template <>void caffe_cpu_axpbyfloat>(const int N, const float alpha, const float* X,

2017-05-08 11:43:12 618

原创 Caffe源码解读: Softmax_loss_Layer的前向与反向传播

1,前向传播分为两步：1，计算softmax概率prob_data，直接使用softmaxlayer的forward函数； 2，计算loss，采用交叉熵，即每个第i类数据的loss为-log(prob(i))。template void SoftmaxWithLossLayer::Forward_cpu( const vector*>& bo

2017-05-05 15:43:36 873

原创 Caffe源码解读: SoftmaxLayer的前向与反向传播

1.前向传播部分这部分直接参照softmax公式： template void SoftmaxLayer::Forward_cpu(const vector*>& bottom, const vector*>& top) { const Dtype* bottom_data = bottom[0]->cpu_data

2017-05-05 11:49:14 1241

转载交叉熵代价函数

转自：http://blog.csdn.net/u012162613/article/details/442399191.从方差代价函数说起代价函数经常用方差代价函数（即采用均方误差MSE），比如对于一个神经元（单输入单输出，sigmoid函数）,定义其代价函数为：其中y是我们期望的输出，a为神经元的实际输出【 a=σ(z), where z=wx+b 】。

2017-05-05 10:52:29 270

deep learning 的一些标志性文章 A Fast Learning Algorithm for Deep Belief Nets (2006) - 首次提出layerwise greedy pretraining的方法，开创deep learning方向。 layerwise pretraining的Restricted Boltzmann Machine (RBM)堆叠起来构成 Deep Belief Network (DBN)，其中训练最高层的RBM时加入了label。之后对整个DBN进行fine-tuning。在 MNIST数据集上测试没有严重过拟合，得到了比Neural Network (NN)更低的test error。 Reducing the Dimensionality of Data with Neural Networks (2006) - 提出deep autoencoder，作为数据降维方法发在Science上。Autoencoder是一类通过最小化函数集对训练集数据的重构误差，自适应地编解码训练数据的算法。Deep autoencoder模型用Contrastive Divergence (CD)算法逐层训练重构输入数据的RBM，堆叠在一起fine-tuning最小化重构误差。作为非线性降维方法在图像和文本降维实验中明显优于传统方法。 Learning Deep Architectures for AI (2009) - Bengio关于deep learning的tutorial，从研究背景到RBM和CD再到数种deep learning算法都有详细介绍。还有丰富的reference。于是也有个缺点就是太长了。 A Practical Guide to Training Restricted Boltzmann Machines (2010) - 如果想要自己实现deep learning算法，这篇是不得不看的。我曾经试过自己写但是效果很不好，后来看到它才知道算法实现中还有很多重要的细节。对照网上的代码看也能更好地理解代码。 Greedy Layer-Wise Training of Deep Networks (2007) - 对DBN的一些扩展，比如应用于实值输入等。根据实验提出了对deep learning的performance的一种解释。 Why Does Unsupervised Pre-training Help Deep Learning? (2010) - 总结了对deep learning的pretraining作用的两种解释：regularization和help optimization。设计实验验证两种因素的作用。 Autoencoders, Unsupervised Learning, and Deep Architectures (2011) - 从理论角度对不同的Autoencoders作了统一分析的尝试。 On the Quantitative Analysis of Deep Belief Networks (2008) - 用annealed importance sampling (AIS)给出一种估计RBM的partition function的方法，从而能够估算p(x)以及比较不同的DBN。 Training Restricted Boltzmann Machines using Approximations to the Likelihood Gradient (2008) - 提出用persistent contrastive divergence (PCD)算法逼近 maximum likelihood estimation的目标，从而可以得到更好的generative model。传统CD算法并不是以最大化 p(x)为目标的，另有paper证明CD算法不对应任何优化目标函数

2015-09-14

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

zyf19930610的专栏