3.30学习日志

最新推荐文章于 2024-07-13 20:38:58 发布

最爱是小麻花

最新推荐文章于 2024-07-13 20:38:58 发布

阅读量809

点赞数 14

文章标签：学习 python numpy

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2301_76247111/article/details/137174398

版权

数值稳定性

神经网络的梯度

t表示层，h^t是隐藏层，y是要优化的目标函数，不是预测还包括了损失函数

损失函数l关于参数Wt的梯度：由链式法则，损失函数l关于最后一层隐藏层求导*最后一层隐藏层对倒数第二层隐藏层求导*……

所有的h都是向量，向量关于向量的导数是矩阵，因此会出现（d-t）次矩阵乘法

这样的矩阵乘法会带来两个问题：梯度爆炸和梯度消失

举个例子：（梯度爆炸）

创建对角矩阵：当 diag 函数应用于一个向量时，它会生成一个以该向量为主对角线元素的对角矩阵，其他位置为零。

因为relu会出现0和1两种结果，所以一些元素会来自。。。

假设每个W的值都会大于1，累乘之后就会得到很大的值

e.g.梯度过大---学习率变化大，原参数-梯度乘学习率后，新的参数值会波动较大----如果参数更新过程中连续几次都以过大的步长更新，参数值可能会变得异常大，导致数值上的不稳定。这种“爆炸”效应可以迅速放大，使得参数值达到非常大的正值或负值-----如果网络中有大的参数值，它们在链式法则中相乘时会导致更大的梯度值

梯度消失：如果输入值大一些，sigmoid导数值就趋近于0，梯度计算就会变成极小数的累乘

对于底部尤为严重：梯度是反传的，顶部的梯度还会是正常，多层累乘过后，梯度就趋近于零

神经网络无法更深，和浅层神经网络无差别

总结：当数值（权重）过大或者过小都会导致问题

让训练更加稳定

梯度归一化：将梯度控制在均值为0，方差为1的正态分布里（控制范围）

梯度裁剪：强行把梯度减在一个范围里，比如如果梯度大于上限，就让梯度等于上限

合理的权重初始和激活函数

将每层的输出和梯度都看做随机变量，并且他们的均值和方差都保持一致，这样无论层数深度，数值都会在一定的范围内

权重初始化

在合理值区间内随机初始函数

如果在数值大的地方初始化数据，梯度就会很大

如果在最优解（较小）的地方，梯度会小

使用N（0,0.01）可能对小网络没问题，但不能保证深度神经网络

例子：MLP

假设权重是i.i.d 独立同分布

独立（Independent）：每个随机变量的取值不受其他随机变量取值的影响。也就是说，任意一个变量的出现都不会改变其他变量出现概率的大小。
同分布（Identically Distributed）：这些随机变量有着相同的概率分布。这意味着它们具有相同的概率密度函数（连续变量的情况）或概率质量函数（离散变量的情况），以及相同的期望值、方差等统计性质。

当前层的输入和当前层的权重也是独立的

假设要求输入的方差和输出的方差一致，就可以得到。。。

Xavier初始

n t-1是输入的维度，n t是输出的维度（个数），两者相等太过困难

Xavier就是折中一下取平均值为1

当输入和输出的维度有差别时，适配权重形状变换

假设线性的激活函数（理论分析，真正不可行）

式子1：已知输入h t-1的均值已经是0，输出的导数均值就是0，α*0=0，因此β=0

式子2：希望激活函数不改变输入和输出的方差，两者依然相等，因此α=1

反向同理

调整前的sigmoid的不符合零点

总结：合理的权重初始值和激活函数的选取可以提升数值稳定性

最爱是小麻花

关注

14
点赞
踩
18

收藏

觉得还不错? 一键收藏
0
评论
3.30学习日志

e.g.梯度过大---学习率变化大，原参数-梯度乘学习率后，新的参数值会波动较大----如果参数更新过程中连续几次都以过大的步长更新，参数值可能会变得异常大，导致数值上的不稳定。将每层的输出和梯度都看做随机变量，并且他们的均值和方差都保持一致，这样无论层数深度，数值都会在一定的范围内。式子1：已知输入h t-1的均值已经是0，输出的导数均值就是0，α*0=0，因此β=0。对于底部尤为严重：梯度是反传的，顶部的梯度还会是正常，多层累乘过后，梯度就趋近于零。假设要求输入的方差和输出的方差一致，就可以得到。
复制链接

扫一扫

最爱是小麻花 CSDN认证博客专家 CSDN认证企业博客

码龄2年

30: 原创

123万+: 周排名

6万+: 总排名

1万+: 访问

: 等级

535: 积分

164: 粉丝

234: 获赞

9: 评论

216: 收藏

私信

关注

热门文章

最新评论

11.1Python学习日志
HyperLink-Officials: 非常棒的学习日志！继续保持写作的热情，分享你的学习心得和经验对其他人也是非常有帮助的。除了你在标题和摘要中提到的内容，我认为你可以进一步探讨一些与Python学习相关的扩展知识和技能。例如，你可以介绍一些Python的内置函数和常用库，比如math库用于数学运算，datetime库用于日期和时间处理等等。此外，你还可以探索一些面向对象编程的基本概念和用法，如类、对象、继承和多态等。当然，这些只是我个人的建议，你可以根据自己的兴趣和学习进度来选择适合的内容。再次感谢你的分享，期待看到更多精彩的博文！加油！
11.27学习日志
CSDN-Ada助手: 恭喜您写了第19篇博客！您的学习日志一定对许多人都有所帮助。希望您能继续保持创作的热情，不断分享学习心得和经验。或许下一步可以尝试结合实际案例或者引用专家观点，来丰富您的内容，让读者能够更加深入地了解您的主题。期待看到更多精彩的作品！
11.16学习
CSDN-Ada助手: 恭喜你，第14篇博客"11.16学习"的发布！持续创作是非常难得的品质，你的努力和坚持值得称赞。通过你的博客，我可以感受到你对学习的热爱和执着，这非常令人鼓舞。在下一步的创作中，或许你可以更加深入地探讨11月16日的学习心得体会，或是分享一些学习方法和技巧，这样能够帮助到更多的读者。同时，你也可以考虑加入一些个人观点和见解，让你的博客更具独特性和深度。继续保持谦虚的态度，虚心倾听读者的反馈和建议，这样你的博客将不断进步，为读者带来更多的收获和启发。期待你未来更多精彩的创作！
11.15学习
CSDN-Ada助手: "恭喜你能够持续不断地创作博客，11.15学习这篇博客内容丰富，让人受益匪浅。希望你能够继续保持这样的创作热情，不断提升自己的写作水平。或许下一步可以尝试写一些与学习方法、心得体会相关的内容，这样可以让读者更加深入地了解你的学习经验。期待你的下一篇作品！"
11.14学习
CSDN-Ada助手: “恭喜你在11.14学习的博客已经写到了第12篇，真是不容易啊！继续保持创作的热情和努力，我觉得你可以尝试更多不同的学习方法和主题，或许可以让读者有更多的收获。加油！”

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。