(吴恩达机器学习)初识梯度下降算法

代价函数:
这里写图片描述

首先,我们来聊聊代价函数。如上图,上一篇博客已经讲解过代价函数(cost function)是用来描述参数θ(即假设函数)的准确性。我们通过最小化代价函数,来实现对参数θ的优化,代价函数值越小表示参数θ越优。

那么代价函数又是如何进行最小化的呢?代价函数是通过梯度下降算法来进行最小化的。
梯度下降算法:
这里写图片描述
如图所示,梯度下降算法的功能是,对于某一代价函数,我们想通过此算法来寻找到最优的参数θ,从而使得代价函数值最下。算法的步骤为:给参数θ赋予某一初始值,然后持续改变参数值从而减少代价函数值,直到代价函数值达到最小值。

假设代价函数如下图所示:
这里写图片描述
梯度下降算法的核心思想为:起初某人站在山上的某一处(初始化点),他想尽快的下山(达到最小值点),每次他的策略就是环顾四周,寻找向下的最陡的方向前进,直到达到最低点,过程如下图所示:

这里写图片描述
注意:对于有局部最小点的函数而言,初始化点不同可能最终达到的最小值点也不同,不过线性回归不存在这样的问题。

上面所提到的最陡的方向在算法中是如何实现的呢?
在一次函数中,就是沿斜率的方向前进,在多元函数中,就是按各个参数的偏导数方向前进,即可达到向最陡的方向前进的效果。所以梯度下降算法的核心步骤如下:直到函数值收敛,不然持续同时更新各参数值
这里写图片描述
学习率α:
上述公式中,α为学习率,表示每次改变参数θ值的幅度大小,即每次下山的步伐有多大。
(1)若学习率α太小:会使得在达到最小值点之前,算法进行的迭代次数过大,影响算法的效率。
(1)若学习率α太大:可能是的代价函数无法收敛达到最小值点,甚至可能发散。

这里写图片描述
值得注意的是:只要学习率α足够小,即使在算法迭代的过程中学习率α一直保存不变,代价函数一定可以达到(局部)最优点,因为在优化的过程中斜率是在不断减小的,所以参数改变的幅度一定是在不断变小的,因此不用改变学习率α的值。

进过计算,梯度下降算法的具体详细公式如下:
这里写图片描述

迭代过程中,过程如下图所示:
这里写图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值