以下内容学习来自台湾大学李弘毅的机器学习讲解,以及其他博客的理解。
1.梯度
梯度就是函数变化增加最快的地方,对多元函数的参数求∂偏导数,把求得的各个参数的偏导数以向量的形式写出来,就是梯度。
沿着梯度向量相反的方向,也就是 -(∂f/∂x0, ∂f/∂y0)T的方向,梯度减少最快,也就是更加容易找到函数的最小值。
一个比较简单的梯度下降的理解,来自博客https://blog.csdn.net/honghu110/article/details/55211228
2.梯度下降之adagrad
在机器学习算法中,在最小化损失函数时,可以通过梯度下降法来一步步的迭代求解,梯度下降不一定能够找到全局的最优解,有可能是一个局部最优解。

上面是gradient descent的推导,
下面是梯度下降的时候我们的学习率,我们需要改变学习率,下面是adagrad学习率梯度下降。


3.梯度下降之stochastic gradient desc

本文介绍了机器学习中的梯度下降方法,包括梯度的概念、Adagrad、Stochastic Gradient Descent (SGD) 和特征缩放的重要性。讨论了梯度下降的局限性,如可能陷入局部最优解,以及如何通过调整步长、初始化参数和归一化数据进行算法优化。还对比了批量梯度下降、随机梯度下降和小批量梯度下降的差异与应用场景。
最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



