2019/6/7CS231n课程笔记（激活函数、数据预处理、初始化权值）

最新推荐文章于 2022-12-10 19:53:12 发布

绿小油

最新推荐文章于 2022-12-10 19:53:12 发布

阅读量470

点赞数 1

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/html5baby/article/details/91127624

版权

目录

1、几种常见的激活函数

数据预处理

权值的初始化

激活函数

一个写的很全的整理文档（https://blog.csdn.net/u012347027/article/details/80639331）另一位博主写的。

激活函数可视化：

https://dashee87.github.io/deep%20learning/visualising-activation-functions-in-neural-networks/

1、几种常见的激活函数

图一

（1）sigmoid function

图二

优点：无论输入的X是多少，都将在输出的时候调整到[0,1]之间的数。

缺点：有的三点。首先饱和神经元会使得梯度消失，如图三所示。

图三

其次，非零中心的输出会为反向传播带来麻烦，如图四所示。当X都为正数的时候，我们的local 梯度是df/dw，即x，因此整体的梯度由上一层传下来，x恒为正，所以整体的梯度也会保持上一层的符号不发生变化。这就是为什么常采用零均值（既存在正值又存在负值）的数据。

图四

最后就是使用e的指数所带来了一定的计算问题。

（2）、tans function

优点：无论输入的X是多少，都将在输出的时候调整到[-1,1]之间的数。是零均值的。

缺点：还是会存在饱和神经元使得梯度消失的问题。

图五

（3）、relu function

优点：relu的收敛速度是tans和sigmoid的6倍，在x为正的时候不会出现梯度消失，因为只进行max操作，所以计算速度很高。

缺点：x为负的时候，还是会出现梯度消失，而且不是零均值。

图六

什么时候会出现梯度消失呢？1、初始化的权值太差；2、学习率太大，权值波动太大，relu单元被数据的多样性所淘汰（10%-20%的relu单元挂掉了，多半训练出了问题，这种情况时常发生，刚开始训练没有问题，后来就有问题了）；利用一些bias值来增大初始化的时候激活的可能性（这句话我没咋明白……）

（4）、Leaky Relu和PRelu

图七

（5）、ERelu

优点：有relu的所有优点，零均值的输出，建立了一个负饱和机制。对噪声的鲁棒性更强。

缺点：e指数引入的计算量的问题。

图八

（6）、Maxout单元

优点：是在泛化relu和leaky relu，取了两者中的最大值。不会出现神经元饱和不会梯度消失

缺点：参数是之前那些方法的2倍。

图九

总结：

使用relu的时候，要注意学习率，不合适的学习率会使得10%到20%的神经元被kill

根据不同的情况尝试使用leaky relu，maxout，Elu，看看会不会有较好的performance

tanh也是备选项之一，但不要给予厚望

sigmoid已经过时了……

图十

数据预处理

零均值处理。对整个训练数据集求平均值。

对于一般的图像，减去整张均值数值的图像、或是每个通道的均值。两者没有太大区别

图11

权值的初始化

（1）、所有权值是小的随机数

对于小的网络是OK的，深层网络不成

图12

增大α，变成1，那么将会导致梯度为0，权值就不更新了，不成。

图13

初始化的权值太小，网络崩溃；太大，神经元饱和。

（2）、Xaviar初始化

初始化W的公式：

图14

如果有少量的输入，将除以很小的值。从而得到大的权重；（少量的输入，每个输入乘以权值，也就需要很大的权重才能保证得到相同的输出方差；相反，大量的输入，只需要很小的权重就能保证其在输出中获得相同的传播）

想得到单位高斯的权值作为每层的输入，为了能够初始化单位高斯的权值，就使用Xaviar公式进行初始化。以上提及的初始化过程使用的是tanh激活函数，且处在tanh的有效的激活区域。但对于relu来说，有一半的神经元将被kill（因为当输入小于0的时候，输出为0），这使得方差减半了。如果还用之前的初始化方程，那得到的输入分布就如下图所示，将有越来越多的峰值（我理解的是输入的神经元）趋于零，神经元就失活了（图15所示），因此改变了方程式，添加了/2的操作（图16），这样输入还能保持很好的高斯分布（图17）。

图15

图16

图17

MSRA也是一种权值初始化方法。

绿小油 CSDN认证博客专家 CSDN认证企业博客

码龄10年

23: 原创

15万+: 周排名

75万+: 总排名

2万+: 访问

: 等级

472: 积分

8: 粉丝

39: 获赞

7: 评论

41: 收藏

私信

关注

最新评论

WPS公式编辑器
郑辉辉: 非常好的UI设计，是我的大脑停止旋转
2019/6/4CS231n课程笔记（反向传播和神经网络）
太气了准备莱万汀: 关于max的雅克比矩阵（行为y，列为被求导的x）为什么一定是对角阵，我的理解是对于任何一个x，max(0, x)的输出只会与这个x有关，也就是说任意一行/一列最多只会有x这一个元素与梯度计算有关；max(0, x)的梯度可能为0，也可能为x，因此我们也可以知道对角线上的梯度值可能为1（x>=0）或者为0(x<0）
M2Det的学习过程
Thecoastlines: 大佬牛批
pytorch环境numba安装包安装失败，llvmlite安装失败！
luma8442: 真是绝了太感谢了楼主了
2019/8/14Faster RCNN自学记录
石湖一叶: 请问博主有把faster rcnn的代码跑通一遍吗

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。