目标: a r g m i n x f ( x ) arg min_{x} f(x) argminxf(x),其中, g ( x ) = ∇ f ( x ) , H ( x ) = ∇ ∇ f ( x ) g(x)=\nabla f(x), H(x)=\nabla \nabla f(x) g(x)=∇f(x),H(x)=∇∇f(x)
1.梯度下降(Gradient Descent):
x
k
+
1
←
x
k
−
a
.
g
(
x
k
)
x^{k+1} \leftarrow x^{k}-a.g(x^{k})
xk+1←xk−a.g(xk)
随机梯度下降(Stochastic Gradient Descent)
2.牛顿法(Newton’s Method)
x
k
+
1
=
x
k
−
α
H
−
1
(
x
k
)
.
g
(
x
k
)
x^{k+1}=x^k-\alpha H^{-1}(x^{k}).g(x^k)
xk+1=xk−αH−1(xk).g(xk)
拟牛顿法(Quasi-Newton Method):对
H
(
x
)
H(x)
H(x)做近似
- BFGS:对 H ( x ) H(x) H(x)做近似的一种比较好的方法,内存中需要放 H ( x ) H(x) H(x)
- L -BFGS (L for Limited Memory):对BFGS的改进,内存不放 H ( x ) H(x) H(x),而是存放中间数据,需要 H ( x ) H(x) H(x)的时候利用中间数据还原 H ( x ) H(x) H(x),大大减小对内存的需要
- OWLQN:对L1-Norm不可导的情况,引入虚梯度来解决。
3.coordinate Descent:
CDN
x
i
k
+
1
←
a
r
g
m
i
n
y
f
(
x
1
k
+
1
,
.
.
.
.
.
.
.
x
i
−
1
k
+
1
,
y
,
x
i
+
1
k
.
.
.
.
,
x
n
k
)
x_i^{k+1}\leftarrow argmin_{y} f(x_1^{k+1},.......x_{i-1}^{k+1},y,x_{i+1}^{k}....,x_n^{k})
xik+1←argminyf(x1k+1,.......xi−1k+1,y,xi+1k....,xnk)
4.偏差与方差
1)偏差(Bias):几份不同的训练数据,训练处的权重的期望值与真实的权值差距。
2)方差(Variance):几份不同的训练数据,训练出来的权重彼此之间的差异。