神经网络参数的各种初始化算法

最新推荐文章于 2024-07-28 03:54:21 发布

chiyustory

最新推荐文章于 2024-07-28 03:54:21 发布

阅读量4.7k

点赞数 3

分类专栏：机器学习文章标签：权重初始化

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/attitude_yu/article/details/81458172

版权

本文探讨了神经网络权重初始化的重要性，实验基于UCI鲍鱼年龄预测数据集，使用了包括正态分布、Xavier、MSRA等多种初始化方法。通过实验发现，Xavier初始化适合tanh激活函数，而MSRA初始化更适合relu激活函数，有效避免梯度消失问题。

摘要由CSDN通过智能技术生成

本文所采用的数据集为UCI 鲍鱼年龄预测数据集，网络模型为8层的全连接神经网络。

1. 实验步骤：

a. 基于不同的权重初始化方式初始化各层权重；

b. 以直方图的形式查看每层输入给激活函数(线性运算后)的数据分布;

2. 正态分布初始化权重

a. 权重更新

weight = np.random.randn(in_node, out_node)

使用默认的均值和方差

b. 实验结论

如图所示，随着网络层的加深，每层的激活函数值有较多的比例接近1和-1，这使得网络的更新梯度太小而无法更新参数。这是本人所使用此鲍鱼年龄预测数据集的实验，您也可以使用别的数据集进行测试，虽实验图像有所不同，但结论相同。

c. 原因分析

若输入和权重都服从均值为0，方差为1的正态分布时，则x*w也服从均值为0，方差为1的正态分布，想像其概率密度曲线，大部分的数据都在[-1,1]之间，这里是有一个比例的。

若x*w+x*w，则服从均值为0，方差为2的正态分布，此时概率密度曲线会变宽，大部分的数据都在[-2,2]之间。而神经网络的每层线性操作就是对正态分布方差的累加，即前层的神经元有多少个，则累加多少次，最终导致线性操作的结果的概率密度曲线非常宽，所以很容易进入激活函数饱和区。

4. Xavier初始化权重

a. 权重更新

weight = np.random.randn(in_node, out_node)/np.sqrt(in_node)

Tensorflow API:

tf.contrib.layers.xavier_initializer_conv2d

b. 实验结论

最低0.47元/天解锁文章

关注

3
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

chiyustory CSDN认证博客专家 CSDN认证企业博客

码龄6年

57: 原创

50万+: 周排名

137万+: 总排名

36万+: 访问

: 等级

3610: 积分

186: 粉丝

238: 获赞

47: 评论

1537: 收藏

私信

关注

分类专栏

C++ 5篇
OpenCV 3篇
迁移学习 8篇
Python 4篇
数据结构 7篇
随记 4篇
机器学习 10篇
计算机视觉 14篇
笔试&面试 2篇

最新评论

源领域和目标领域过程相似性分析
zhndsb: 我想请问一下，如果我有多个与目标域相似的源域，那么去度量不同源域与目标域之间的相似性从而选取源域，这一问题是否有价值
神经网络算法(基于Tensorflow、基于Python实现BP)
飞飞鱼_: 数据集在哪里呢？
计算不规则四边形(多边形)的面积
hfliu96: 你好，海伦公式部分有错，本人修正如下[code=python]# 基于海伦公式计算不规则四边形的面积 def helen_formula(coord): coord = np.array(coord).reshape((4, 2)) # 计算各边的欧式距离 dis_01 = cal_distance(coord[0], coord[1]) dis_12 = cal_distance(coord[1], coord[2]) dis_23 = cal_distance(coord[2], coord[3]) dis_30 = cal_distance(coord[3], coord[0]) dis_13 = cal_distance(coord[1], coord[3]) p1 = (dis_01 + dis_13 + dis_30) * 0.5 p2 = (dis_12 + dis_23 + dis_13) * 0.5 # 计算两个三角形的面积 area1 = np.sqrt(p1 * (p1 - dis_01) * (p1 - dis_13) * (p1 - dis_30)) area2 = np.sqrt(p2 * (p2 - dis_12) * (p2 - dis_23) * (p2 - dis_13)) return area1 + area2 [/code]
C++结构体的各种用法
WiserX: p point =&stu1;这句我的编译器报错
AdaBoost.M1算法
dreamfly844: 更新权重这里貌似应该更新正确分类的权重

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。