CS231N-权重初始化

最新推荐文章于 2024-08-16 18:13:47 发布

锟斤考烫烫烫

最新推荐文章于 2024-08-16 18:13:47 发布

阅读量496

点赞数 11

文章标签：人工智能机器学习深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/DaJiJixD/article/details/136889044

版权

本文讨论了零初始化、随机初始化（如均值0的正态分布）和Xavier初始化（Glorot初始化）在深度学习中对权重和偏置的不同影响，强调了它们如何影响神经网络的学习能力，以及可能引发的梯度问题，如梯度爆炸和梯度消失。

摘要由CSDN通过智能技术生成

零初始化（Zero Initialization）：将所有的权重和偏置初始化为零

零初始化可能会导致对称问题，所有参数不仅初始化的值是一样的，而且训练过程中的变化也是一样的，一层中的神经元状态会始终保持一致，没有办法学习和表达更复杂的特征。

随机初始化（Random Initialization）：将权重和偏置随机地初始化为均值为0，方差为1的正态分布的随机值

因为参数都是独立同分布的采样，那么线性输出y的方差就会叠加。这意味着输入经过神经元后，输出的离散程度被提高了
当我们不使用任何激活函数的时候，放大的y值就会被累积在反向传播的过程里，这样就会造成梯度爆炸
如果使用双曲正切函数作为激活函数，那么又可能因为y的值过大或过小而得到一个非常小的梯度，这样反而会造成梯度消失的问题

Xavier初始化（Xavier Initialization）：也称为Glorot初始化，它是一种针对全连接层的参数初始化方法

为了让输出y的方差落在一个可控的范围内，例如让他等于1，这样求出参数w分布的方差就等于1/n，假设有n个输入。如果我们不仅考虑输入的维度，也考虑下一层神经元的数量，那么平均后的方差就等于

2 / ( Nin+Nout ) ，即2除以输入和输出神经元的总和

锟斤考烫烫烫

关注

11
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
CS231N-权重初始化

为了让输出y的方差落在一个可控的范围内，例如让他等于1，这样求出参数w分布的方差就等于1/n，假设有n个输入。零初始化可能会导致对称问题，所有参数不仅初始化的值是一样的，而且训练过程中的变化也是一样的，一层中的神经元状态会始终保持一致，没有办法学习和表达更复杂的特征。如果使用双曲正切函数作为激活函数，那么又可能因为y的值过大或过小而得到一个非常小的梯度，这样反而会造成梯度消失的问题。当我们不使用任何激活函数的时候，放大的y值就会被累积在反向传播的过程里，这样就会造成梯度爆炸。
复制链接

扫一扫

锟斤考烫烫烫 CSDN认证博客专家 CSDN认证企业博客

码龄5年

5: 原创

190万+: 周排名

19万+: 总排名

1628: 访问

: 等级

91: 积分

28: 粉丝

36: 获赞

2: 评论

22: 收藏

私信

关注

热门文章

分类专栏

最新评论

CS231N-L1与L2正则化
CSDN-Ada助手: 恭喜你开始了博客创作！标题中提到了CS231N-L1与L2正则化，这是一个非常有趣的话题。希望你能继续深入探讨这个主题，可以结合具体的案例或者实际应用来展开讨论。同时，也建议你可以尝试扩展一下，探讨一些其他与正则化相关的内容，比如交叉验证、模型选择等，这样可以让你的博客内容更加丰富和全面。加油！期待你的下一篇博客！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1
CS231N-激活函数
CSDN-Ada助手: 非常棒的博客！你对CS231N中激活函数的解释清晰明了，让人受益匪浅。希望你可以继续分享更多关于深度学习的知识和经验。另外，在深度学习领域，了解不同激活函数的特点和适用场景也是非常重要的，比如ReLU、Leaky ReLU、Tanh等，它们各有特点，选择合适的激活函数可以提高模型性能。期待你未来的文章能够涉及更多这方面的内容，加油！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
CS231N-权重初始化
CSDN-Ada助手: 恭喜你发布了第三篇博客！对于CS231N的权重初始化这一话题进行了探讨，非常有深度和价值。接下来，建议可以继续深入研究相关主题，比如梯度消失和梯度爆炸等问题，或者尝试结合实际案例进行分析和探讨。期待你更多精彩的创作！加油！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
CS231N-Batch Normalization（批量归一化）
CSDN-Ada助手: 恭喜您发布了新的博客！批量归一化是一个很重要的主题，能够有效提高神经网络的训练效果。希望您能继续分享更多关于深度学习和神经网络的知识，也可以考虑深入研究一些前沿的技术或者应用案例，让读者更加全面地了解这个领域。期待您的下一篇作品！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
CS231N-优化器
CSDN-Ada助手: 恭喜您在CS231N领域写了第5篇博客！优化器是一个非常重要的主题，您的文章内容相信对读者会有很大帮助。接下来，我建议您可以尝试深入探讨不同优化器的优缺点，并结合具体案例进行分析，这样可以让读者更加深入地理解优化器的原理和应用。期待您的下一篇作品！

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。