逆矩阵及伪逆矩阵,最小二乘估计,最小范数估计
逆矩阵的概念
矩阵A的逆矩阵(matrix inversion)记作
A
−
1
A^{−1}
A−1,其定义的矩阵满足如下条件:
A
−
1
A
=
I
n
A^{−1}A=I_n
A−1A=In
我们为什么需要逆矩阵?
我们为什么需要逆矩阵?(从加减乘除的运算角度来解释)
因为矩阵没有被除的概念,矩阵的逆正好是被我们用来解决除法的问题。
例如我们知道矩阵A和矩阵B,并且想要找到矩阵X。
X
A
=
B
XA = B
XA=B
那最好的方法就是直接除以A(得到X = B / A),但事实上我们不能直接除以矩阵A。
但是我们却可以在公式两边都乘以
A
−
1
A^{-1}
A−1
用矩阵多项式来举例:
样本集X和标签Y,当样本集大小刚好等于X的维度时,可以直接用X的逆矩阵求出权重向量a。
伪逆矩阵和最小二乘估计
而在一般情况下,样本集大小N都会远大于维度n,那么
N
≠
n
N \neq n
N̸=n时,应该怎么求解a向量,这里引出最小二乘估计的概念:
m
i
n
∥
x
a
−
Y
∥
2
=
J
min\left \| xa-Y \right \|^2=J
min∥xa−Y∥2=J
对a求最小值:
∂
J
∂
a
=
x
T
(
x
a
−
Y
)
=
0
\frac{\partial J}{\partial a} = x^T(xa-Y)=0 \\
∂a∂J=xT(xa−Y)=0
x
T
x
a
=
x
T
Y
x^Txa=x^TY
xTxa=xTY 此时
x
T
x
x^Tx
xTx是否可逆?
a
=
(
x
T
x
)
−
1
x
T
Y
a=(x^Tx)^{-1}x^TY
a=(xTx)−1xTY 被称为a的伪逆矩阵
正则化求伪逆矩阵
当
N
<
n
N<n
N<n,
x
T
x
x^Tx
xTx不可逆时,需通过正则化求伪逆
因为
∣
x
T
x
+
λ
I
∣
>
0
\begin{vmatrix}x^Tx+\lambda I\end{vmatrix}>0
∣∣xTx+λI∣∣>0恒成立,故一定可逆
此时
λ
∥
a
∥
2
\lambda\left \| a \right \|^2
λ∥a∥2 求值的最小化及最小范数估计