随机梯度下降SGD

随机梯度下降(SGD)在第k个训练迭代的更新

R e q u i r e : 学 习 率 ϵ k R e q u i r e : 初 始 参 数 θ w h i l e 停 止 准 则 为 满 足 d o 从 训 练 集 中 采 包 含 m 个 样 本 { x ( 1 ) , . . . , x ( m ) } 的 小 批 量 , 其 中 x ( i ) 对 应 目 标 为 y ( i ) 。 计 算 梯 度 估 计 : g ^ ← + 1 m ∇ θ ∑ i L ( f ( x ( i ) ; θ ) , y ( i ) ) 应 用 更 新 : θ ← θ − ϵ g ^ e n d    w h i l e \begin{aligned} Requ&ire:学习率\epsilon_k \\Requ&ire:初始参数\theta \\wh&ile 停止准则为满足 do \\&从训练集中采包含m个样本\{x^{(1)},...,x^{(m)}\}的小批量,其中x^{(i)}对应目标为y^{(i)}。 \\&计算梯度估计:\hat{g} \leftarrow + \tfrac{1}{m}\nabla_\theta\textstyle\sum_iL(f(x^{(i)};\theta),y^{(i)}) \\&应用更新:\theta\leftarrow\theta-\epsilon\hat{g} \\en&d \;while \end{aligned} RequRequwhenireϵkireθiledom{x(1),...,x(m)}x(i)y(i)g^+m1θiL(f(x(i);θ),y(i))θθϵg^dwhile
其中L表示损失函数, ∇ \nabla 表示梯度计算, f ( x ( i ) ; θ ) f(x^{(i)};\theta) f(x(i);θ)表示在 θ \theta θ的情况下,x的值,其实就是预测值
参考:https://zhuanlan.zhihu.com/p/36327151
https://zhuanlan.zhihu.com/p/31708783

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值