本人由于在导师分配的论文阅读过程中,发现了深度学习的数学原理的重要性。之前一直吃灰的花书要重新捡起来了。。。
奇异值分解:
1. 奇异值分解的定义:
A = U D V T A=UDV^{T} A=UDVT
其中 A A A为 m ∗ n m*n m∗n的矩阵(未必为方阵), U U U为 m ∗ m m*m m∗m的正交矩阵, D D D为 m ∗ n m*n m∗n的矩阵, V V V是一个 n ∗ n n*n n∗n的正交矩阵。
2. 奇异值分解求解的方法:
求解 A A T AA^{T} AAT的特征值对应的特征向量为 U U U的列向量,求解 A T A A^{T}A ATA的特征值对应的特征向量为 V V V的列向量, D D D的对角线上的元素为 A A A的奇异值,对应 A A T AA^{T} AAT或 A T A A^{T}A ATA的特征值。
3. 奇异值分解的应用:
其中一个应用为拓展矩阵求逆到一般的矩阵上( m ≠ n m\neq n m=n)。
Moore-Penrose伪逆:
这个问题在机器学习在各领域应用的paper上大都会遇到,本人最近在找偏微分方程的一篇paper上遇到了矩阵求逆(非方阵),一直不懂如何求(包括在paper中遇到的病态条件和条件数),而花书第二章就将到了这个,再次证明了花书的意义。。。
A x = b Ax=b Ax=b
如果 A A A为方阵且可逆 x = A − 1 b x=A^{-1}b x=A−1b。
如果 A A A不为方阵或者 A A A为方阵但不可逆,我们如何表示 x x x的解那?
花书首先给出伪逆的定义为:
lim a → 0 ( A T A + a I ) − 1 A T \lim_{a\rightarrow0}(A^TA+aI)^{-1}A^T a→0lim(ATA+aI)−1AT
我们由定义可以发现上式与带有 L 2 L_2 L2正则项的最小二乘法的解形式是一样的,实际上,伪逆就是统计学家在解决最小二乘法问题时对 A T A A^TA ATA不可求逆,导致问题无法求解时而引入的概念。
考虑一般化的矩阵: A m ∗ n ( m ! = n ) A_{m*n}(m!=n) Am∗n(m!=n),设矩阵的秩为r,讨论以下几种情况。
- 列满秩: m > n 且 r = n m> n且r=n m>n且r=n, A x = 0 Ax=0 Ax=0只有0解。此时 A T A n ∗ n A^TA_{n*n} ATAn∗n为方阵并且满秩( A A T AA^T AAT未满秩),为非奇异矩阵。
左逆:我们定义 ( A T A ) − 1 A T (A^TA)^{-1}A^T (ATA)−1AT为 A A A的左逆,因为:
( A T A ) − 1 A T A = I (A^TA)^{-1}A^TA=I (A