J
=
m
i
n
W
∥
X
W
−
Y
∥
F
2
J = \underset{W}{min}{\Vert XW- Y\Vert}_F^2
J=Wmin∥XW−Y∥F2
where
X
=
[
x
1
,
.
.
.
,
x
N
]
T
∈
R
N
×
C
,
Y
=
[
y
1
,
.
.
.
,
y
N
]
T
∈
R
N
×
K
X = {\left[x_1,..., x_N\right]}^T\in\R^{N\times C}, Y = {\left[y_1,..., y_N\right]}^T\in\R^{N\times K}
X=[x1,...,xN]T∈RN×C,Y=[y1,...,yN]T∈RN×K
the gradients:
∥
X
W
−
Y
∥
F
2
=
<
X
W
−
Y
,
X
W
−
Y
>
=
<
X
W
,
X
W
>
+
<
Y
,
Y
>
−
<
X
W
,
Y
>
−
<
Y
,
X
W
>
=
(
X
W
)
T
X
W
+
Y
T
Y
−
(
X
W
)
T
Y
−
Y
T
X
W
=
W
T
X
T
X
W
+
Y
T
Y
−
W
T
X
T
Y
−
Y
T
X
W
d
J
d
W
=
2
A
T
A
W
−
2
A
T
Y
\begin{align} {\Vert XW- Y\Vert}_F^2 = &<XW- Y, XW- Y> \\ = & <XW,XW>+<Y,Y>-<XW,Y>-<Y,XW>\\ =& {(XW)}^TXW+ Y^TY-{(XW)}^TY-Y^TXW\\ =&W^TX^TXW+Y^TY-W^TX^TY-Y^TXW\\ \frac{dJ}{dW} =& 2A^TAW - 2A^TY\\ \end{align}
∥XW−Y∥F2====dWdJ=<XW−Y,XW−Y><XW,XW>+<Y,Y>−<XW,Y>−<Y,XW>(XW)TXW+YTY−(XW)TY−YTXWWTXTXW+YTY−WTXTY−YTXW2ATAW−2ATY
note,
d
W
T
A
W
d
W
=
A
W
+
A
T
W
\frac{dW^TAW}{dW} = AW + A^TW
dWdWTAW=AW+ATW
d
W
T
X
d
W
=
d
X
T
W
d
W
=
X
\frac{dW^TX}{dW} = \frac{dX^TW}{dW} = X
dWdWTX=dWdXTW=X
最小均方线性回归
最新推荐文章于 2024-09-29 16:46:50 发布