深度学习
dongapple
这个作者很懒,什么都没留下…
展开
-
caffe深度学习调参笔记+caffe训练时的问题+dropout/batch Normalization
一、深度学习中常用的调节参数本节为笔者上课笔记(CDA深度学习实战课程第一期)1、学习率步长的选择:你走的距离长短,越短当然不会错过,但是耗时间。步长的选择比较麻烦。步长越小,越容易得到局部最优化(到了比较大的山谷,就出不去了),而大了会全局最优一般来说,前1000步,很大,0.1;到了后面,迭代次数增高,下降0.01,再多,然后再小一些。 2、原创 2017-07-20 10:57:36 · 6521 阅读 · 1 评论 -
YOLO_V2的region_layer LOSS损失计算源码解读
region_layer.cbox get_region_box(float *x, float *biases, int n, int index, int i, int j, int w, int h, int stride){ box b; b.x = (i + x[index + 0*stride]) / w; b.y = (j + x[index + 1*st原创 2017-07-28 10:44:04 · 3113 阅读 · 3 评论 -
在神经网络中weight decay、momentum、batch normalization各自意义
一、weight decay(权值衰减)的使用目的是防止过拟合。在损失函数中,weight decay是放在正则项(regularization)前面的一个系数,正则项一般指示模型的复杂度,所以weight decay的作用是调节模型复杂度对损失函数的影响,若weight decay很大,则复杂的模型损失函数的值也就大。二、momentum是梯度下降法中一种常用的加速技术。对于一般的SGD,其原创 2017-07-26 10:43:07 · 5059 阅读 · 0 评论 -
深度网络中softmax_loss、Smooth L1 loss计算以及反向传播推导
传统欧式距离损失函数如下式所示: (f1) 它在 Logistic Regression 里其到的作用是讲线性预测值转化为类别概率:假设 (f2) 是第i 个类别的线性预测结果,带入Softmax 的结果其实就是先对每一个 取 exponential 变成非负,然后除以所有项之和进行归一化,现在每个 (f3)就可以解释翻译 2017-07-20 10:18:34 · 11548 阅读 · 1 评论 -
我理解的-随机失活dropout的意义
关于Dropout,文章中没有给出任何数学解释,Hintion的直观解释和理由如下: 1. 由于每次用输入网络的样本进行权值更新时,隐含节点都是以一定概率随机出现,因此不能保证每2个隐含节点每次都同时出现,这样权值的更新不再依赖于有固定关系隐含节点的共同作用,阻止了某些特征仅仅在其它特定特征下才有效果的情况。 2. 可以将dropout看作是模型平均的一种。对于每次输入到网络中原创 2017-08-04 10:08:05 · 3809 阅读 · 0 评论 -
Batch Normalization反方向传播求导
作者给出的批标准化的算法如下:算法中的ε是一个常量,为了保证数值的稳定性反向传播求梯度:因为:所以:因为:所以:因为:和所以:所以:对于BN变换是可微分的,随着网络的训练,网络层可以持续学到输入的分布。BN网络的训练和推断按照BN方法,输入数据原创 2017-08-04 10:48:56 · 3972 阅读 · 1 评论 -
Batch Normalization 的原理解读
1:motivation作者认为:网络训练过程中参数不断改变导致后续每一层输入的分布也发生变化,而学习的过程又要使每一层适应输入的分布,因此我们不得不降低学习率、小心地初始化。作者将分布发生变化称之为 internal covariate shift。对于深度学习这种包含很多隐层的网络结构,在训练过程中,因为各层参数老在变,所以每个隐层都会面临covariate s转载 2017-08-01 16:51:53 · 375 阅读 · 0 评论 -
LSTM原理图解析及入门学习
原文地址:http://blog.csdn.net/hjimce/article/details/51234311作者:hjimce 一、相关理论 本篇博文主要讲解LSTM、GRU的前向传导过程;因为我觉得反向求导,只要你根据公式按步骤求偏导数,那么只要学会复合函数的求导法则就可以反向推导出来了。除了CNN中的卷积层、池化层这种稍微比较奇葩的求导之外,深度学习的反向求转载 2017-08-25 10:13:52 · 3987 阅读 · 0 评论 -
Caffe中实现LSTM网络的思路以及LSTM网络层的接口使用方法。 本文描述了论文《Long-term recurrent convolutional networks fo
本文内容:本文描述了Caffe中实现LSTM网络的思路以及LSTM网络层的接口使用方法。本文描述了论文《Long-term recurrent convolutional networks for visual recognition and description》的算法实验本文不做LSTM原理介绍,不从数学角度推导反向传播,不进行Caffe详细代码分析本文基于对Caffe的代码及使用有转载 2017-09-07 21:52:25 · 3473 阅读 · 0 评论