W,b的初始化和几种激活函数

最新推荐文章于 2022-10-20 00:51:13 发布

weixin_30872157

最新推荐文章于 2022-10-20 00:51:13 发布

阅读量353

点赞数

文章标签： python 人工智能

原文链接：http://www.cnblogs.com/Yintianhao/p/9157406.html

版权

权重W不能全部初始化为0，原因很简单，我们可以自己在本子上推导一下，假设现有一个含有一个隐藏层，隐藏层含有两个神经元初始输入为两个向量的网络，如果权重初始化全部为0，那么，第一层的输出，会和第二层的输出相等，这样我们反向传播更新权重的时候也会发现，两个W始终相等，所以这种初始化的方法行不通，另外再说b，这里得说一下的就是b是可以被初始化为0的，对训练效果并没有多少影响。那么，w,b到底怎样将他们初始化呢，其实可以用随机数的方法将他们初始化。用python来写就是像这样：

W_1 = np.random.randn((2,2))*0.01
b_1 = np.zero((2,1))
W_2 = np.random.randn((1,2))*0.01
b_2 = 0

第一行代码后面乘一个0.01的作用是在为了防止Z过大，而导致梯度下降得太慢，训练速度太慢。

这里牵扯到几种激活函数了

常见的激活函数有四种，我之前还只知道sigmoid。。

1，sigmoid

2，tanh

3,ReLU(线性整流函数)

4,Leaky RU

在知道这个之前，我一直以为sigmoid是最好用的，之后在看了资料之后才知道tanh其实效果比sigmoid好一点，因为依据他的图像，我们不难发现。他的取值范围在[-1,1],隐藏层的输出限定这之间，可以看成是在0值附近分布，均值为0，有归一的效果，所以作为隐藏层的激活函数的话，tanh比sigmoid好，输出的话，一般还是选sigmoid

但是，这两个函数，任何事都有两面，他们也有不好的时候，那就是在Z过大的时候，这两个函数的函数曲线变得很平稳，导致他们梯度下降的很慢，所以这里又来了后面那两个函数，一个是ReLU,他在Z大于0的时候，斜率都为1，这样就加快了梯度下降的速度，不过，他的缺点也很明显，他在z小于0时候，斜率恒为0，这是LeakyRU就出来了，他的另外一部分斜率不为0。

总结，一般分类问题中，我们用sigmoid，不过隐藏层一般用tanh，实际中，一般用后面两个，各有优势，具体用哪个，具体问题具体分析

转载于:https://www.cnblogs.com/Yintianhao/p/9157406.html

weixin_30872157

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
W,b的初始化和几种激活函数

权重W不能全部初始化为0，原因很简单，我们可以自己在本子上推导一下，假设现有一个含有一个隐藏层，隐藏层含有两个神经元初始输入为两个向量的网络，如果权重初始化全部为0，那么，第一层的输出，会和第二层的输出相等，这样我们反向传播更新权重的时候也会发现，两个W始终相等，所以这种初始化的方法行不通，另外再说b，这里得说一下的就是b是可以被初始化为0的，对训练效果并没有多少...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。