数据分析、信号处理和机器学习中的矩阵方法
第05讲 正定矩阵和半正定矩阵
新MIT 线性代数|机器学习(中英机翻字幕)18.065 by Gilbert Strang_哔哩哔哩 (゜-゜)つロ 干杯~-bilibiliwww.bilibili.com我们五节课完成了对线性代数重点的复习。
今天介绍以下对称正定矩阵的性质,它们每一个都给出了正定矩阵的判据:
1)所有的特征值大于零;
2)能量表达式
3)
4)行列式(所有主子式行列式)>0;
5)所有主元>0
对称矩阵具有实特征值和正交的特征向量。正定矩阵是对称矩阵中最好的,它们是具有正特征值的对称矩阵,但正特征值不是一个简单的检验方法,希望有更简单的可以等同于正特征值的判定方法。以上五项判据中只需要任何一项成立即可。
例:对称矩阵S=
它不是正定的,尽管元素都是正数,但行列式的值小于0,而行列式的值是特征值的积,所以两个特征值一正一负。
调整部分元素,
观察消元得到的主元,
第二条判据即能量表达式,就是正定的定义。之所以引入“能量”一词,是因为动能等能量计算中的二次型。(听得不是很清楚,我猜的)对于本矩阵,算式为:
对函数作图,正定矩阵对应函数的整体效果是正的,图像是一个上升的碗型。
深度学习中,这可能是最小化损失函数,它可能取决于一万个或更多的变量,这可能是由于训练数据与所得到数字之差引起的误差,而损失就是这样的表达。我想说的是深度学习、神经网络机器学习之中的大型计算就是最小化能量表达式。现在当然最小值很容易找到,因为它是纯的二次项,而在实际过程会有线性项x转置乘以b和非线性项
回到我们的算式,这两个图像都是凸函数(convex,之前文章中提到过国外和我们对凹凸定义的问题)。凸意味着上升,但是它可能会扭曲,因为线性项,它不会是完美的二次型的图像。
从图像表面上的某个点开始,去寻找最低点,最自然的想法是计算导数。计算f关于x和y的一阶导数,找到下降最陡峭的方向。遵循梯度下降,
这是一般的思路,但它并不总能很好地工作。如果矩阵的特征值为1和一个很小的数,则图像是一个细长的碗,采取最陡下降,很容易在越过山谷然后爬升。若取非常小的步骤,则会很缓慢地向底部移动。因此如果有一个很小的特征值和一个很大的特征值,就需要一个新策略。如果特征值相等,函数图像是完美的圆形碗,则进行梯度下降将直接经过中心。
回到正定的主题做一些练习。假设有一个正定矩阵S和一个正定矩阵T,两矩阵相加,结果是否为正定?特征值和行列式都不好用,通过第二条易于判定:
正定矩阵S 的逆矩阵是否正定?它的特征值是S 的特征值的导数,所以逆矩阵是正定的。
正定矩阵S 乘另一个矩阵M,乘积是正定的吗?乘积矩阵可能不是对称的,这时答案是否定的。现在仅处理具有实特征值的对称矩阵。矩阵
介绍一下半正定。
半正定矩阵满足特征值大于等于零,
对称矩阵分解
则秩一矩阵