DL_Notebook 8_梯度下降

批量梯度下降 BGD

一维梯度下降

沿负梯度方向移动可以减小函数值,证明过程自行搜索。主要利用泰勒展开:
f ( x + ϵ ) = f ( x ) + ϵ f ′ ( x ) + O ( ϵ 2 ) f(x+\epsilon)=f(x)+\epsilon f'(x)+\mathcal{O}(\epsilon ^2) f(x+ϵ)=f(x)+ϵf(x)+O(ϵ2)
假设坐标 x x x移动量为 η f ′ ( x ) \eta f'(x) ηf(x),则沿着负梯度方向就是 x − η f ′ ( x ) x-\eta f'(x) xηf(x),代入泰特展开式:
f ( x − η f ′ ( x ) ) = f ( x ) − η f ′ 2 ( x ) + O ( η 2 f ′ 2 ( x ) ) f(x-\eta f'(x))= f(x)-\eta f'^{2}(x)+\mathcal{O}(\eta^2f'^2(x)) f(xηf(x))=f(x)ηf2(x)+O(η2f2(x))
取合适的学习率 η \eta η(较小的时候),满足 η f ′ 2 ( x ) > O ( η 2 f ′ 2 ( x ) ) \eta f'^{2}(x)>\mathcal{O}(\eta^2f'^2(x)) ηf2(x)>O(η2f2(x)),则:
f ( x − η f ′ ( x ) ) ≲ f ( x ) x ← x − η f ′ ( x ) f(x-\eta f'(x)) \lesssim f(x)\\ x \leftarrow x-\eta f'(x) f(xηf(x))f(x)xxηf(x)
如果 η \eta η过大,是可能 η f ′ 2 ( x ) < O ( η 2 f ′ 2 ( x ) ) \eta f'^{2}(x)<\mathcal{O}(\eta^2f'^2(x)) ηf2(x)<O(η2f2(x))的,即 f ( x − η f ′ ( x ) ) = f ( x ) + f(x-\eta f'(x))= f(x)+ f(xηf(x))=f(x)+正数,变成梯度上升。

下面用学习率 η \eta η分别为0.2、0.05、1.1的例子来看这个问题,初始点都为x=10:
在这里插入图片描述在这里插入图片描述在这里插入图片描述
在最后一个图中从x=10开始,由于学习率过大,函数值越来越大,最后呈发散的情况。

多维梯度下降

∇ f ( x ) = [ ∂ f ( x ) x 1 , ∂ f ( x ) x 2 , … , ∂ f ( x ) x n ] T f ( x + ϵ ) = f ( x ) + ϵ T ∇ f ( x ) + O ( ∣ ∣ ϵ ∣ ∣ 2 ) x ← x − η ∇ f ( x ) \nabla f(\mathbf x)=\left[\frac{\partial f(\mathbf x)}{x_1},\frac{\partial f(\mathbf x)}{x_2},\dots,\frac{\partial f(\mathbf x)}{x_n}\right]^{T}\\ f(\mathbf x+\epsilon)=f(\mathbf x)+\epsilon ^T \nabla f(\mathbf x)+\mathcal O(||\epsilon||^2)\\ \mathbf x \leftarrow\mathbf x-\eta \nabla f(\mathbf x) f(x)=[x

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值