Machine Learning - Gradient Descent (梯度下降)

为了减少数学知识的引入,先默认有以下几个结论(具体证明可见多元函数微分学中的方向导数与梯度部分):

1. 方向导数是一种单向导数,而偏导数是一种双向导数,即ΔX取正或负时,方向导数变号,而偏导数不变号。

2. 对多元函数求偏导得到一个向量,这个向量在空间中表示的方向上的方向导数(即梯度所指方向)是所有方向上的方向导数的最大值,与这个方向相反方向上的方向导数取得最小值,两者绝对值相同,符号不同。

由以上两点基本可以得到,方向与梯度指向(可由偏导数组成的向量表示)相同时,方向导数取得最大值,即在该方向上,函数值的变化率正向最大(增加最多),在与该方向相反的方向上,函值变化率负向最大,所以当求出梯度后,我们将当前的自变量减去(加上)各自方向上的偏导数即可取得函数值变化负向最大/减少最多(正向最大/增加最多)。


梯度下降法中涉及到的符号,输入X(x1, x2, ... ... , xn),输出Y(y1, y2, ... ... , yn),xi表示第i个样本,是向量形式,由一组特征表示,。。。



在梯度下降法中,我们关注的是函数的参数,其余都是已知的,因此换个角度,将待估计的参数作为自变量,损失函数作为函数值,则此时的梯度即对各个参数求偏导,要使函数值(损失函数)减少最快,就要从当前点按照梯度方向移动,做移动,就相当于各个自变量分别减去对于自变量的偏导,而移动的步子大小,我们可以由一个参数α控制,因此梯度下降法的核心是使损失函数最小,而自变量应该移动的方向有各个点的梯度(偏导数)决定,移动大小由参数α决定,梯度的性质保证我们每次移动的方向都是损失函数值减少最多的方向。(未完待续。。。)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值