李宏毅老师机器学习课程笔记_ML Lecture 3-1: Gradient Descent_机器学习损失收敛是在哪个集上-CSDN博客

本文链接：https://blog.csdn.net/leogoforit/article/details/105243069

本文是李宏毅老师机器学习课程的笔记，主要讲解梯度下降法及其应用。介绍了梯度的概念，解释了为何使用梯度下降法求损失函数最小值，讨论了学习率设定的影响，并对比了梯度下降法与随机梯度下降法。同时，强调了特征缩放对算法收敛速度的重要性。

摘要由CSDN通过智能技术生成

引言：

这个系列的笔记是台大李宏毅老师机器学习的课程笔记
视频链接（bilibili）：李宏毅机器学习(2017)
另外已经有有心的同学做了速记并更新在github上：李宏毅机器学习笔记(LeeML-Notes)

很久都没有用高数及线性代数的知识，很多都生疏了，这节课有很多的数学公式及概念，建议先看一下简书上的这篇介绍梯度及梯度下降法的文章深入浅出–梯度下降法及其实现，真的是深入浅出，好评如潮。

这里需要知道的是：

什么是梯度？
为什么要用梯度下降法？

一、什么是梯度

梯度是微积分中一个很重要的概念，梯度的意义在于：

在单变量的函数中，梯度其实就是函数的微分，代表着函数在某个给定点的切线的斜率
在多变量函数中，梯度是一个向量，向量有方向，梯度的方向就指出了函数在给定点的上升最快的方向

二、为什么要用梯度下降法？

机器学习的目的是根据现有数据集，预测未知数据的解。首先制定预测函数f*, 其次根据预测函数制定出合理的损失函数，损失函数的意义在于如果它的值取得最小值，那么认为原来的预测函数拟合训练集数据拟合的最好。所以求出损失函数的最小值就很关键。而根据上面梯度的概念，梯度的负方向是函数值下降的方向，沿着梯度下降的方向就可以找到损失函数取最小值的解。