Datawhale X 李宏毅苹果书 AI夏令营第五期深度学习（进阶班）Task02 笔记分享

NantongHHQ

于 2024-08-31 11:52:07 发布

阅读量454

点赞数 32

文章标签：人工智能深度学习笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/NantongHHQ/article/details/141750537

版权

文章目录

Task2-1：《深度学习详解》- 3.3&4&5 自适应学习率(9页+38分钟)

Part01：视频笔记

训练技巧：自适应学习率（Adaptive learning rate）：

通常人们认为训练卡住了是因为参数更新到一个临界值，梯度太小不更新了；
即使没有临界点（critical point），神经网络的训练也十分困难

Error surface 是一个凸函数（convex）
调整到较小的学习率：或许可以解决临界点的问题，但较小的学习率会导致训练无法逼近最终结果；

学习率应该为每一个参数特质化:

原来的参数更新公式 $\theta_i^{t+1} \leftarrow \theta_i^t - \eta g_i^t$
以及 $g_i^t = \frac{\partial L}{\partial \theta_i}|_{\theta=\theta^t}$
自适应学习率后： $\theta_i^{t+1} \leftarrow \theta_i^t - \frac{\eta}{\sigma_i^t} g_i^t$
$\sigma_i^t$ 不仅是取决于某个参数，还和iteration相关；

Root Mean Square（均方根）： $\sigma_i^t=\sqrt{\frac{1}{t+1}\sum_{i=0}^t(g_i^t)^2}$ （Adagrad）

梯度较大时，计算出 $\eta$ 值较小；梯度较小时，计算出 $\eta$ 较大；

动态调整学习率（RMSProp）： $\sigma_i^t =\sqrt{\alpha(\sigma_i^{t-1})^2+(1-\alpha)(g_i^t)^2}$ （ $0<\alpha<1$ ）

近的梯度相较于远的梯度有着更大的影响；

Learning Rate Scheduling：（让学习率与时间相关）

在这里插入图片描述

Learning rate decay：随着训练的进行，减小学习率；

Warm Up：先变大，后变小（超参数设置）；

Task2.2：《深度学习详解》- 3.6 分类(4页+19分钟)

分类（Classification）：

回归（Regression）：
在这里插入图片描述

先把label的class变成数字：如class1对应数字“1”，class2对应数字“2”……
将每一个class用one-hot vector（独热向量）来进行表示：解决了某些class关系密切（在树值上），而另一些关系疏远；

Softmax（归一化指数函数）函数：将 $\hat{y}$ 中的数值归一化到0,1之间；

$y_i'=\frac{exp(y_i)}{\sum_j exp(y_i)}$
Softmax函数的输入是：Logit

Cross-entropy： $e=-\sum_i \hat{y_i}lny_i'$ ：

最小化交叉熵（MInimizing cross-entropy）等价于最大化可能性（maximizing likelihood）；
MSE会在large loss的地方卡住，无法继续训练；

关注

32
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
Datawhale X 李宏毅苹果书 AI夏令营第五期深度学习（进阶班）Task02 笔记分享

（MInimizing cross-entropy）等价于最大化可能性（maximizing likelihood）；）来进行表示：解决了某些class关系密切（在树值上），而另一些关系疏远；即使没有临界点（critical point），神经网络的训练也十分困难。通常人们认为训练卡住了是因为参数更新到一个临界值，梯度太小不更新了；：如class1对应数字“1”，class2对应数字“2”……MSE会在large loss的地方卡住，无法继续训练；近的梯度相较于远的梯度有着更大的影响。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。