model优化方法及偏差与方差

目标: a r g m i n x f ( x ) arg min_{x} f(x) argminxf(x),其中, g ( x ) = ∇ f ( x ) , H ( x ) = ∇ ∇ f ( x ) g(x)=\nabla f(x), H(x)=\nabla \nabla f(x) g(x)=f(x),H(x)=f(x)

1.梯度下降(Gradient Descent):
x k + 1 ← x k − a . g ( x k ) x^{k+1} \leftarrow x^{k}-a.g(x^{k}) xk+1xka.g(xk)
随机梯度下降(Stochastic Gradient Descent)

2.牛顿法(Newton’s Method)
x k + 1 = x k − α H − 1 ( x k ) . g ( x k ) x^{k+1}=x^k-\alpha H^{-1}(x^{k}).g(x^k) xk+1=xkαH1(xk).g(xk)
拟牛顿法(Quasi-Newton Method):对 H ( x ) H(x) H(x)做近似

  • BFGS:对 H ( x ) H(x) H(x)做近似的一种比较好的方法,内存中需要放 H ( x ) H(x) H(x)
  • L -BFGS (L for Limited Memory):对BFGS的改进,内存不放 H ( x ) H(x) H(x),而是存放中间数据,需要 H ( x ) H(x) H(x)的时候利用中间数据还原 H ( x ) H(x) H(x),大大减小对内存的需要
  • OWLQN:对L1-Norm不可导的情况,引入虚梯度来解决。

3.coordinate Descent:
CDN
x i k + 1 ← a r g m i n y f ( x 1 k + 1 , . . . . . . . x i − 1 k + 1 , y , x i + 1 k . . . . , x n k ) x_i^{k+1}\leftarrow argmin_{y} f(x_1^{k+1},.......x_{i-1}^{k+1},y,x_{i+1}^{k}....,x_n^{k}) xik+1argminyf(x1k+1,.......xi1k+1,y,xi+1k....,xnk)
在这里插入图片描述
4.偏差与方差
1)偏差(Bias):几份不同的训练数据,训练处的权重的期望值与真实的权值差距。
2)方差(Variance):几份不同的训练数据,训练出来的权重彼此之间的差异。
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值