（吴恩达机器学习）初识梯度下降算法

最新推荐文章于 2023-10-29 15:11:19 发布

STILLxjy

最新推荐文章于 2023-10-29 15:11:19 发布

阅读量944

点赞数 1

分类专栏：机器学习文章标签：梯度下降算法

本文链接：https://blog.csdn.net/STILLxjy/article/details/80328470

版权

机器学习专栏收录该内容

6 篇文章 2 订阅

订阅专栏

代价函数：
这里写图片描述

首先，我们来聊聊代价函数。如上图，上一篇博客已经讲解过代价函数（cost function）是用来描述参数θ（即假设函数）的准确性。我们通过最小化代价函数，来实现对参数θ的优化，代价函数值越小表示参数θ越优。

那么代价函数又是如何进行最小化的呢？代价函数是通过梯度下降算法来进行最小化的。
梯度下降算法：
这里写图片描述
如图所示，梯度下降算法的功能是，对于某一代价函数，我们想通过此算法来寻找到最优的参数θ，从而使得代价函数值最下。算法的步骤为：给参数θ赋予某一初始值，然后持续改变参数值从而减少代价函数值，直到代价函数值达到最小值。

假设代价函数如下图所示：
这里写图片描述
梯度下降算法的核心思想为：起初某人站在山上的某一处（初始化点），他想尽快的下山（达到最小值点），每次他的策略就是环顾四周，寻找向下的最陡的方向前进，直到达到最低点，过程如下图所示：

这里写图片描述
注意：对于有局部最小点的函数而言，初始化点不同可能最终达到的最小值点也不同，不过线性回归不存在这样的问题。

上面所提到的最陡的方向在算法中是如何实现的呢？
在一次函数中，就是沿斜率的方向前进，在多元函数中，就是按各个参数的偏导数方向前进，即可达到向最陡的方向前进的效果。所以梯度下降算法的核心步骤如下：直到函数值收敛，不然持续同时更新各参数值。
这里写图片描述
学习率α：
上述公式中，α为学习率，表示每次改变参数θ值的幅度大小，即每次下山的步伐有多大。
（1）若学习率α太小：会使得在达到最小值点之前，算法进行的迭代次数过大，影响算法的效率。
（1）若学习率α太大：可能是的代价函数无法收敛达到最小值点，甚至可能发散。