李宏毅机器学习复习——第三章：梯度下降

最新推荐文章于 2023-08-01 18:03:37 发布

1静1一

最新推荐文章于 2023-08-01 18:03:37 发布

阅读量228

点赞数 1

分类专栏：数据分析文章标签：机器学习 python

本文链接：https://blog.csdn.net/m0_46365814/article/details/120008418

版权

数据分析专栏收录该内容

11 篇文章 0 订阅

订阅专栏

本文探讨了梯度下降法在模型优化中的关键，重点讲解了学习率的适当选择，如adagrad方法如何根据参数变化动态调整。特征缩放的重要性也被提及，有助于加速损失函数收敛。同时揭示了梯度下降的局限性，尤其是在局部最优解的问题上。

摘要由CSDN通过智能技术生成

概述

梯度下降是寻找最小的损失函数的一种方法。
选择合适的参数，可以更加顺利地降低损失函数，找到模型的最优解。

参数调整

在使用这个方法中，学习率这个参数很重要，学习率高，往往容易‘略过’最小的损失函数。学习率低，损失函数降低不明显。
adagrad方法是改变学习率的一种方式。主要通过损失函数参数变化程度来影响学习率。一个参数的一次微分 / 它自身的二次微分，用来消除参数之间变化的不同，对学习率的影响。
特征对损失函数的影响。降低特征的影响就可以使用特征缩放功能。feature scaling,特征缩放可以使损失函数更容易收敛。