变量可以是矩阵吗_MIT 18.065—机器学习中的矩阵方法05 正定矩阵和半正定矩阵...-CSDN博客

本文链接：https://blog.csdn.net/weixin_34184682/article/details/112616720

数据分析、信号处理和机器学习中的矩阵方法

第05讲正定矩阵和半正定矩阵

新MIT 线性代数|机器学习（中英机翻字幕）18.065 by Gilbert Strang_哔哩哔哩 (゜-゜)つロ干杯~-bilibiliwww.bilibili.com

我们五节课完成了对线性代数重点的复习。

今天介绍以下对称正定矩阵的性质，它们每一个都给出了正定矩阵的判据：

1）所有的特征值大于零；

2）能量表达式

（

x=0除外）；

3）

（

A列向量线性无关）；

4）行列式（所有主子式行列式）>0；

5）所有主元>0

对称矩阵具有实特征值和正交的特征向量。正定矩阵是对称矩阵中最好的，它们是具有正特征值的对称矩阵，但正特征值不是一个简单的检验方法，希望有更简单的可以等同于正特征值的判定方法。以上五项判据中只需要任何一项成立即可。

例：对称矩阵S=

是不是正定的？

它不是正定的，尽管元素都是正数，但行列式的值小于0，而行列式的值是特征值的积，所以两个特征值一正一负。

调整部分元素，

，则矩阵变为正定。需要注意的是必须所有主子式行列式为正，例如

，1x1的子行列式不满足判据，矩阵不是正定的。必须检查左上角的n个子行列式，因为有n个特征值。

观察消元得到的主元，

。它和行列式的联系是，第二个主元=

。可以看到这几个测试是等价的。

第二条判据即能量表达式，就是正定的定义。之所以引入“能量”一词，是因为动能等能量计算中的二次型。（听得不是很清楚，我猜的）对于本矩阵，算式为：

。对角线元素给出函数表达式中平方项的参数，非对角线元素给出了交叉项的参数。

对函数作图，正定矩阵对应函数的整体效果是正的，图像是一个上升的碗型。

深度学习中，这可能是最小化损失函数，它可能取决于一万个或更多的变量，这可能是由于训练数据与所得到数字之差引起的误差，而损失就是这样的表达。我想说的是深度学习、神经网络机器学习之中的大型计算就是最小化能量表达式。现在当然最小值很容易找到，因为它是纯的二次项，而在实际过程会有线性项x转置乘以b和非线性项

。线性项的存在可以是某些数据的最小二乘问题。

的图像仍是碗，但被移动了，最小值现在可能低于0。极值点就是要求的解，它告诉我们神经网络中的权重。（目前仅提到这些词，后面很快就会给出含义。）如果加入非线性项来移动碗形图像，会使问题变得不那么容易。这是应用数学的一个重要部分，优化100,000个变量的复杂函数求极小值过程，是大型计算过程。

回到我们的算式，这两个图像都是凸函数（convex，之前文章中提到过国外和我们对凹凸定义的问题）。凸意味着上升，但是它可能会扭曲，因为线性项，它不会是完美的二次型的图像。

从图像表面上的某个点开始，去寻找最低点，最自然的想法是计算导数。计算f关于x和y的一阶导数，找到下降最陡峭的方向。遵循梯度下降，

称为梯度向量。我们不可能一下走到最低点，在达到第一个停止点后，需要重新计算梯度，从那一点找到最陡峭的路，然后到达一个新点，这就是梯度下降，是神经网络深度学习、机器学习以及优化的重要算法。注意，我们没有计算二阶导数，如果计算可能会有一个更好的公式可以解释这里的曲线。但是当有成千上万个变量时，计算二阶导数并不是一件很有趣的事情。因此，最有效的方法是，机器学习仅限于一阶导数即梯度。

这是一般的思路，但它并不总能很好地工作。如果矩阵的特征值为1和一个很小的数，则图像是一个细长的碗，采取最陡下降，很容易在越过山谷然后爬升。若取非常小的步骤，则会很缓慢地向底部移动。因此如果有一个很小的特征值和一个很大的特征值，就需要一个新策略。如果特征值相等，函数图像是完美的圆形碗，则进行梯度下降将直接经过中心。

回到正定的主题做一些练习。假设有一个正定矩阵S和一个正定矩阵T，两矩阵相加，结果是否为正定？特征值和行列式都不好用，通过第二条易于判定：

，这两项均大于零，其和也大于零，因此正定。

正定矩阵S 的逆矩阵是否正定？它的特征值是S 的特征值的导数，所以逆矩阵是正定的。

正定矩阵S 乘另一个矩阵M，乘积是正定的吗？乘积矩阵可能不是对称的，这时答案是否定的。现在仅处理具有实特征值的对称矩阵。矩阵

是正定的吗？这与

S 是相似的矩阵，具有相同的特征值，因此是正定矩阵。或者

，因此可以保证正定性。

介绍一下半正定。

不是正定的，而

是正定的，那么边界在哪里？边界在

，它是半正定的，行列式等于0，所以有一个特征值是0。而从矩阵的迹可知，另一个特征值为正的。如果正定矩阵是矩阵空间中的一个群组，那么正半定矩阵就是其边界。

是半正定的。矩阵的特征值是3,0,0 ，矩阵的秩为1，只有一个非零特征值，然后矩阵的迹告诉我们是3。