李宏毅机器学习笔记（3）—Gradient Descent

最新推荐文章于 2024-06-30 18:59:35 发布

Xcc_dd

最新推荐文章于 2024-06-30 18:59:35 发布

阅读量511

点赞数

分类专栏：机器学习课程

本文链接：https://blog.csdn.net/qq_37217397/article/details/104118420

版权

本文介绍了Gradient Descent的优化技巧，包括学习率调整、Stochastic Gradient Descent和Feature Scaling。通过理解学习率的重要性、Adagrad算法以及随机梯度下降的优势，可以提升模型的训练效率。特征缩放有助于更快收敛，通过标准化数据，确保各特征在同一尺度上。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Gradient Descent 的技巧

下图是对偏微分的书写形式的补充说明，可以用倒三角来表示偏微分组成的向量，也就是梯度。所以下图左侧的式子可以写成下图右侧的式子。这种使用某一字符代表向量的写法可以大大简化书写，倒三角表示偏微分向量也能够简化书写。
在这里插入图片描述

Tip 1: Tuning your learning rates

第一个技巧也就是改变 learning rates 的速率。可以预见的是过小的 learning rates 会让参数收敛的十分缓慢，过大的 learning rates 会让参数无法收敛或是说出现震荡现象。所以一个合理的想法就是我们应该去调整 learning rates。
以下图片描述的想法是，一开始我们应该让 learning rates 较大，为了快速收敛，但一段时间后为了不出现震荡，我们应该缩小 learning rates，所以就有了下图的 η/sqr（t+1），其中 t 是指迭代的次数。
在这里插入图片描述
但是这仅仅是一种十分简单粗暴的方法，肯定是不太能适用于一般情况。所以我们考虑给每个不同的参数不同的 learning rates 。
在下图中可以看到，为了让learning rates 有合适的变化，我们采用了一种叫Adagrad 的方式

最低0.47元/天解锁文章