矩阵复习
矩阵导数定理
若A是一个如下矩阵:
A
=
[
a
11
a
12
a
21
a
22
]
A= \begin{bmatrix}a_{11}&a_{12}\\a_{21}&a_{22}\end{bmatrix}
A=[a11a21a12a22]
y是一个向量矩阵:
y
⃗
=
[
y
1
y
2
]
\vec{y}=\begin{bmatrix}y_1\\y_2\end{bmatrix}
y=[y1y2]
则可得 text 定理:
δ
A
∗
y
⃗
δ
y
⃗
=
A
T
\frac{δA*\vec{y}}{δ\vec{y}} = A^T
δyδA∗y=AT
δ
y
⃗
T
∗
A
δ
y
⃗
=
δ
A
T
∗
y
⃗
δ
y
⃗
=
A
\frac{δ\vec{y}^T*A}{δ\vec{y}} = \frac{δA^T*\vec{y}}{δ\vec{y}} = A
δyδyT∗A=δyδAT∗y=A
也就是对A*y的矩阵,求偏导y,结果为A的转置矩阵;
还可得另一个定理:
δ
y
⃗
T
∗
A
y
⃗
δ
y
⃗
=
A
y
⃗
+
A
T
y
⃗
\frac{δ\vec{y}^T*A\vec{y}}{δ\vec{y}} = A\vec{y}+ A^T\vec{y}
δyδyT∗Ay=Ay+ATy
若A是一个对称矩阵,也就是
A
T
=
A
A^T=A
AT=A,则上面的还会等于
2
A
y
⃗
2A\vec{y}
2Ay
δ符号表示求导, y ⃗ 表示一个向量 \vec{y}表示一个向量 y表示一个向量
这部分的推导过程可参考此篇视频
矩阵平方定理
若矩阵A满足相乘原则,则有定理:
A
2
=
A
T
∗
A
A^2 = A^T*A
A2=AT∗A
单位矩阵
是一种恒等矩阵,对角线上全为1,其余全为0,如下:
I
=
[
1
0
0
0
1
0
0
0
1
]
I = \begin{bmatrix}1&0&0\\0&1&0\\0&0&1\end{bmatrix}
I=
100010001
任何矩阵与单位矩阵相乘等于本身:
A
∗
I
=
I
∗
A
=
A
A*I = I * A = A
A∗I=I∗A=A
逆矩阵
注意逆矩阵不是转置矩阵,若两个矩阵A和B,n*n的方阵,且满足:
A
∗
B
=
I
A*B=I
A∗B=I
也就是矩阵相乘等于单位矩阵,也说明A就是B的逆矩阵,A是可逆的,记:B=A^-1
最小二乘法
若输入量为
x
1
,
x
2
.
.
.
x
n
x_1,x_2...x_n
x1,x2...xn,输出量为
y
1
,
y
2
.
.
.
y
n
y_1,y_2...y_n
y1,y2...yn,为了你和一条函数曲线,是的输入为
x
i
x_i
xi,输出为
y
i
y_i
yi,我们假定它是一个多项式函数如
y
i
=
a
x
i
2
+
b
x
i
+
c
y_i = ax_i^2 + bx_i + c
yi=axi2+bxi+c,x和y都有观察数据,求
a
,
b
,
c
a,b,c
a,b,c,因为数据又多组,带入矩阵中运算:
[
x
1
2
x
1
1
x
2
2
x
2
1
.
.
.
.
.
.
.
.
.
x
n
2
x
n
2
1
]
[
a
b
c
]
=
[
y
1
y
2
.
.
.
y
n
]
\begin{bmatrix}x_1^2 & x_1&1\\x_2^2&x_2&1\\...&...&...\\x_n^2&x_n^2&1\end{bmatrix}\begin{bmatrix}a\\b\\c\end{bmatrix}= \begin{bmatrix}y_1\\y_2\\...\\y_n\end{bmatrix}
x12x22...xn2x1x2...xn211...1
abc
=
y1y2...yn
进而用X,A,Y替换:
X
∗
A
=
Y
X*A=Y
X∗A=Y
A矩阵就是我们要求取的未知参数,往往信号观察是在由噪声的环境中的,假设噪声为V,且噪声的均值为0,也就是正和负噪声,则推导公式:
X
∗
A
=
Y
+
V
X*A=Y+V
X∗A=Y+V
为了使误差最小,使用最小二乘法,二乘差值平方,也就是:
(
Y
−
X
∗
A
)
2
=
(
Y
−
X
∗
A
)
T
(
Y
−
X
∗
A
)
(Y-X*A)^2 = (Y-X*A)^T(Y-X*A)
(Y−X∗A)2=(Y−X∗A)T(Y−X∗A)
对上面的式子A求偏导:
δ
(
Y
−
X
∗
A
)
T
(
Y
−
X
∗
A
)
δ
A
\frac{δ(Y-X*A)^T(Y-X*A)}{δA}
δAδ(Y−X∗A)T(Y−X∗A)
推导过程可参考此视频最小二乘法讲解,求出后领偏导函数等于0求极值,也就是误差最小值,得到定理:
A
=
(
X
T
X
)
−
1
X
T
Y
A = (X^TX)^{-1}X^TY
A=(XTX)−1XTY