Datawhale X 李宏毅苹果书 AI夏令营

2301_79482106

已于 2024-08-31 21:56:42 修改

阅读量648

点赞数 7

文章标签：机器学习深度学习

于 2024-08-31 16:29:58 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2301_79482106/article/details/141753337

版权

task2

3.3自适应学习率
3.4学习率调度
3.5优化总结
3.6分类
实践任务

task2主要是对自适应学习率的了解。在梯度较小，较为平缓时，学习率太小会影响学习速率；在梯度较大，较为陡峭时，学习率太大会使迭代结果不收敛。因此自适应学习率是非常有必要的。

3.3自适应学习率

AdaGrad

AdaGrad是典型的自适应学习率方法，其能够根据梯度大小自动调整学习率。AdaGrad 可以做到梯度比较大的时候，学习率就减小，梯度比较小的时候，学习率就放大。
这个算法每次更新的部分为学习率乘以当前梯度再除以之前每次更新的梯度的平均2-范数。

RMSDrop

RMSDrop大致与AdaGrad相同，唯一改动的地方是赋予了之前所有梯度和当前梯度不同的权重，通过调整这个权重，可以使更新的部分更偏向当前梯度或更偏向之前所有的梯度。

Adam

Adam即RMSDrop加上之前所讲的动量，能更好的摆脱鞍点。

3.4学习率调度

上面更多的是利用梯度对更新进行干预，这里是通过改动学习率这个超参数来干预更新的部分。例如退火方法：随着参数的更新，让学习率越来越小，可以让迭代更加平稳。

3.5优化总结

最终进化完全的更新迭代方式就是像下图一样，其中学习率随迭代变化，更新方向为之前梯度的加权和。
请添加图片描述

3.6分类

分类任务在最后输出结果时常用softmax函数转化结果，这样可以将输出的结果压缩在0到1之间，可用于判断分类准确的概率。
回归的损失常用均方差，而分类的损失更常用交叉熵。交叉熵可以表示两个不同分布之间的差异。

实践任务

请添加图片描述
在运行的过程中有报错，但是在没有修改的情况下关闭服务器再重新从头运行就没有再报错。经过查阅资料以及检索发现原代码确实没有问题。这样就初步了解了深度学习问题的基本流程。

关注

7
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。