问题
已知:
hW(X)=∑nj=1wjxj+wn+1=∑n+1j=1wjxj=X⊺W,
h
W
(
X
)
=
∑
j
=
1
n
w
j
x
j
+
w
n
+
1
=
∑
j
=
1
n
+
1
w
j
x
j
=
X
⊺
W
,
其中
W=⎛⎝⎜⎜⎜⎜w1⋮wnwn+1⎞⎠⎟⎟⎟⎟,X=⎛⎝⎜⎜⎜⎜x1⋮xn1⎞⎠⎟⎟⎟⎟
W
=
(
w
1
⋮
w
n
w
n
+
1
)
,
X
=
(
x
1
⋮
x
n
1
)
令
X=⎛⎝⎜⎜X⊺1⋮X⊺m⎞⎠⎟⎟,Y=⎛⎝⎜⎜y1⋮ym⎞⎠⎟⎟,
X
=
(
X
1
⊺
⋮
X
m
⊺
)
,
Y
=
(
y
1
⋮
y
m
)
,
L(W)=12∑mi=1[hW(Xi)−yi]2=12∑mi=1(X⊺iW−yi)2
L
(
W
)
=
1
2
∑
i
=
1
m
[
h
W
(
X
i
)
−
y
i
]
2
=
1
2
∑
i
=
1
m
(
X
i
⊺
W
−
y
i
)
2
=12∥XW−Y∥22=12(XW−Y)⊺(XW−Y)
=
1
2
‖
X
W
−
Y
‖
2
2
=
1
2
(
X
W
−
Y
)
⊺
(
X
W
−
Y
)
求
minL(W)
min
L
(
W
)
解
梯度下降法
dL(W)=d[12(XW−Y)⊺(XW−Y)]=(XW−Y)⊺d(XW−Y)=(XW−Y)⊺XdW
d
L
(
W
)
=
d
[
1
2
(
X
W
−
Y
)
⊺
(
X
W
−
Y
)
]
=
(
X
W
−
Y
)
⊺
d
(
X
W
−
Y
)
=
(
X
W
−
Y
)
⊺
X
d
W
因此
∇L(W)=[(XW−Y)⊺X]⊺=X⊺(XW−Y)=X⊺XW−X⊺Y
∇
L
(
W
)
=
[
(
X
W
−
Y
)
⊺
X
]
⊺
=
X
⊺
(
X
W
−
Y
)
=
X
⊺
X
W
−
X
⊺
Y
令
ΔW=−ϵ∇f(W0),
Δ
W
=
−
ϵ
∇
f
(
W
0
)
,
于是可取
W1=W0+ΔW=W0−ϵ∇f(W0)=W0−ϵ(X⊺XW0−X⊺Y)
W
1
=
W
0
+
Δ
W
=
W
0
−
ϵ
∇
f
(
W
0
)
=
W
0
−
ϵ
(
X
⊺
X
W
0
−
X
⊺
Y
)
牛顿法
d∇L(W)=d[X⊺XW−X⊺Y]=X⊺XdW
d
∇
L
(
W
)
=
d
[
X
⊺
X
W
−
X
⊺
Y
]
=
X
⊺
X
d
W
因此
HL(W)=X⊺X
H
L
(
W
)
=
X
⊺
X
令
g(ΔW)=f(W0+ΔW)=f(x0)+[∇f(W0)]⊺ΔW+12(ΔW)⊺Hf(W0)ΔW
g
(
Δ
W
)
=
f
(
W
0
+
Δ
W
)
=
f
(
x
0
)
+
[
∇
f
(
W
0
)
]
⊺
Δ
W
+
1
2
(
Δ
W
)
⊺
H
f
(
W
0
)
Δ
W
则
dg(ΔW)=[∇f(W0)]⊺d(ΔW)+(ΔW)⊺Hf(W0)d(ΔW)={[∇f(W0)]⊺+(ΔW)⊺Hf(W0)}d(ΔW)
d
g
(
Δ
W
)
=
[
∇
f
(
W
0
)
]
⊺
d
(
Δ
W
)
+
(
Δ
W
)
⊺
H
f
(
W
0
)
d
(
Δ
W
)
=
{
[
∇
f
(
W
0
)
]
⊺
+
(
Δ
W
)
⊺
H
f
(
W
0
)
}
d
(
Δ
W
)
因此
∇g(ΔW)=∇f(W0)+Hf(W0)ΔW
∇
g
(
Δ
W
)
=
∇
f
(
W
0
)
+
H
f
(
W
0
)
Δ
W
令
∇g(ΔW)=0⃗ ,
∇
g
(
Δ
W
)
=
0
→
,
则
ΔW=−(Hf(W0))−1∇f(W0)
Δ
W
=
−
(
H
f
(
W
0
)
)
−
1
∇
f
(
W
0
)
于是可取
W1=W0+ΔW=W0−(Hf(W0))−1∇f(W0)
W
1
=
W
0
+
Δ
W
=
W
0
−
(
H
f
(
W
0
)
)
−
1
∇
f
(
W
0
)
=W0−(X⊺X)−1(X⊺XW0−X⊺Y)=W0−W0+(X⊺X)−1X⊺Y
=
W
0
−
(
X
⊺
X
)
−
1
(
X
⊺
X
W
0
−
X
⊺
Y
)
=
W
0
−
W
0
+
(
X
⊺
X
)
−
1
X
⊺
Y
=(X⊺X)−1X⊺Y
=
(
X
⊺
X
)
−
1
X
⊺
Y
因此
minL(W)=L(W1)=X(X⊺X)−1X⊺Y−Y=(X(X⊺X)−1X⊺−I)Y
min
L
(
W
)
=
L
(
W
1
)
=
X
(
X
⊺
X
)
−
1
X
⊺
Y
−
Y
=
(
X
(
X
⊺
X
)
−
1
X
⊺
−
I
)
Y
梯度的另一种求法
由
L(W)=12∑mi=1[hW(Xi)−yi]2
L
(
W
)
=
1
2
∑
i
=
1
m
[
h
W
(
X
i
)
−
y
i
]
2
得
∂L∂wj=∑mi=1[hW(Xi)−yi]∂hW(Xi)∂wj=∑mi=1[hW(Xi)−yi]xij
∂
L
∂
w
j
=
∑
i
=
1
m
[
h
W
(
X
i
)
−
y
i
]
∂
h
W
(
X
i
)
∂
w
j
=
∑
i
=
1
m
[
h
W
(
X
i
)
−
y
i
]
x
i
j
=∑mi=1(X⊺iW−yi)xij=(XW−Y)⊺X:j
=
∑
i
=
1
m
(
X
i
⊺
W
−
y
i
)
x
i
j
=
(
X
W
−
Y
)
⊺
X
:
j
因此
∇L(W)=X⊺(XW−Y)=X⊺XW−X⊺Y
∇
L
(
W
)
=
X
⊺
(
X
W
−
Y
)
=
X
⊺
X
W
−
X
⊺
Y