梯度下降法

在前面一篇文章我们介绍了logistic线性回归
预测值: y ^ \hat y y^= σ \sigma σ( w T w^T wT+b)
σ \sigma σ(z)= 1 1 + e − z \frac{1}{1+e^{-z}} 1+ez1
cost函数:J(w , b)= 1 m \frac{1}{m} m1 ∑ i = 1 m L ( y ^ ( i ) , y ( i ) ) \displaystyle\sum_{i=1}^{m} L(\hat y^{(i)},y^{(i)}) i=1mL(y^(i),y(i))
            =- 1 m \frac{1}{m} m1 ∑ i = 1 m [ y ( i ) log ⁡ y ^ ( i ) + ( 1 − y ( i ) ) log ⁡ 1 − y ^ ( i ) ] \displaystyle\sum_{i=1}^{m} [y^{(i)}\log^{\hat y^{(i)}}+(1-y^{(i)})\log^{1-\hat y^{(i)}}] i=1m[y(i)logy^(i)+(1y(i))log1y^(i)]
cost函数衡量参数w和b在训练集上的效果,因此我们需找到使J(w , b)尽可能小的wb
对于logistic回归而言,因为函数是凸的,无论初始化值是什么,最后都应该到达同一点或大致相同的点。

梯度下降法

梯度下降法所做的就是从初始点开始,朝最陡的方向走一步
如下图所示,红色箭头是该点斜率的方向,即该点最陡的方向,沿着该方向能最快到达最低点。
在这里插入图片描述
由此,我们可以得到

Repeat{
w:=w- α \alpha α d J ( w ) d w \frac{dJ(w)}{dw} dwdJ(w)
b:=b- α \alpha α d J ( b ) d b \frac{dJ(b)}{db} dbdJ(b)
}

其中, α \alpha α控制步长,这个步长既不能太大也不能太小。
太大有可能无法到达最小值;太小可能到达最小值的时间太长。
上面高亮文字中的倒数为偏导数,有兴趣的同学可以自己算,或在下方评论。
有不对的地方。欢迎指正!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值