探寻《矩阵论》与AI的结合（二）

佟学强

已于 2024-07-18 18:53:04 修改

阅读量3k

点赞数 6

分类专栏： AI基础理论 nlp语义理解关系推理，图模型文章标签：人工智能

于 2019-01-23 22:26:46 首次发布

本文链接：https://blog.csdn.net/randy_01/article/details/86618044

版权

AI基础理论同时被 3 个专栏收录

22 篇文章 3 订阅

订阅专栏

nlp语义理解

18 篇文章 2 订阅

订阅专栏

关系推理，图模型

3 篇文章 0 订阅

订阅专栏

本文深入探讨了矩阵理论在AI中的应用，特别是矩阵的特征值在稳定性分析中的作用，以及如何应用于最小二乘法和损失函数。讨论了正定矩阵、投影矩阵和椭圆范数的数学概念，并将其与AI中的线性系统稳定性、正交投影和最小二乘法损失函数相联系。同时，文章指出，理论研究应注重方法论而非单纯的知识积累，强调创新意识的重要性。并指出矩阵论的学习对于提升AI研究人员的理论水平至关重要。

摘要由CSDN通过智能技术生成

总述：https://blog.csdn.net/randy_01/article/details/80616681 这篇博客主要论述了矩阵理论的一般性，接下来将进一步深入探讨特殊矩阵以及应用。国外翻译版的《矩阵论》主要教会从业人员一种研究矩阵的方法论。纵观整个篇幅基本可以发现，研究矩阵的方法不外乎以下几种：①feature value decomposition②矩阵相似性~的研究③矩阵分块理论。对矩阵的任何研究都离不开这三种方法，比如奇异值分解，矩阵的分解实际上是相似性和分块理论的融合。矩阵中最重要的元素是feature value,它是矩阵的灵魂。以feature value为核心的研究，包括线性变换，谱范数，feature value估计，矩阵的扰动问题，稳定性等等。矩阵的范数在AI中往往应用在结构化约束中，矩阵的范数还可以证明矩阵的收敛性，最小二乘法损失函数用矩阵可以解释为估计参数满足向量Y在预测值平面内的投影是预测值向量本身。包括在《实变函数与泛函数分析》和《凸优化》中都可以用矩阵来解释，比如泛函数分析中著名的乘积空间其实可以看成是矩阵空间，有界线性算子。《矩阵论》+《实变函数与泛函数分析》+《凸优化》+《统计学》是从事研究工作最基本的数学储备。而普通本科非数学专业的微积分和线代又是前面的基础。但是理论扎实和创新并不是一回事儿，比如国外的Ai研究员可以从生活常识中得到灵感，比如幼儿的抓阄，物理学中的弹簧系统的稳定性等等。建立创新意识比知识储备更重要，也就是增强自身的认知能力，而不只是停留在感知层面。比如有的公司或者研究人员认为扒论文复现很重要，认为本科生做不了。事实上如果中国的教育有质量保证的话，本科生完全可以胜任，因为扒论文复现并不是什么高深和光彩的事儿。

学习学科的目标并不是单纯为了积累知识，方法论才是最重要的。比如国内很多研究生很水，据观察国内很多高校根本不具备开设硕士专业的资格，导师水平不达标,有的甚至不是专业对口的导师，可想而知多么坑人。方法论在知识图谱中以及神经规则推理中更为重要，比如图模型推理的研究，基本思路是融合统计学派和图模型，然后用神经网路学习知识表示。再比如CNN的改进总体离不开以下3种方法：①输入层embedding的扩展，比如融合知识图谱的embedding表示②卷积算子的改进(数学中的卷积算子的研究和有界线性算子很相似)③最后池化层的改进。去年以色列特拉维夫大学和哈弗大学的一篇改进卷积算子(谱卷积算子的论文很不错，很前沿，这些都是工业界最具价值的研究)。目前国内的研究最大的问题是"唯论文论"的浮夸，部分博士不务实，以写论文为生。工业界的进步靠的是少数有价值的论文，而不是论文漫天纷。国内的研究总体上格局不大，有点儿小家子气，保守，习惯于在1的基础上小修小改。从0到1的过程是最具价值的，也是最消耗精力的，需要从基础抓起。比如有的人研究方向很可能不对思路(纯学术派的Ai研究员容易犯这样的错误)，从0到1的研究必须必须慢下来。比如很多工业界的码农学习Ai完全是蜻蜓点水，这是不恰当的，能够评估一篇论文的商业价值需要很强的学术能力和经验。再比如去年微软已经上线的core inferrence chain用cvt节点的图谱做2-hot以上的推理，metapath衡量语义相似度，论文有些人看了以后认为这仅仅是一篇paper而已，草率地认为实际上实现不了。国内确实没有上线的，这说明国内的Ai基础研究明显落后于美国。

基础学科《矩阵论》的学习，绝对会使Ai研究人员上升层次。本篇博客将重点论述AI和矩阵，AI部分主要论述统计学派和图模型以及神经网络的融合，分为以下几个部分：

一、矩阵的方法论研究(切入点为特殊矩阵的研究，从特殊到一般的归纳总结是人类研究自然世界的基本规律);

二、矩阵与AI(最小二乘法，损失函数的结构化约束) ，重要的矩阵：拉普拉斯矩阵，PageRank，无向图的卷积算子（谱卷积算子，相对于图卷积算子），图模型推理.

1.特殊的矩阵

1.1 正定矩阵与正稳定矩阵

矩阵的研究方法在总述中已经提到了，看下面的图：

利用以上结论可以得出：对于n阶Hermite正定矩阵A有，其中P为n阶非奇异矩阵，证明过程用到了第②条结论。这个结论可以直接证明向量的椭圆范数满足三角性。n阶Hermite正定矩阵毫无疑问是稳定的，他是判断线性系统稳定性的重要依据(依据特征值来判断，前面提到矩阵的特征值是矩阵的灵魂)。

1.2 投影矩阵

1.21 投影算子、投影矩阵和幂等矩阵的概念

注意：幂等矩阵是A^2=A的矩阵。

1.22 判断投影矩阵的条件

1.23 投影矩阵的表示

举例：

1.3 正交投影矩阵

L子空间的向量与M子空间的向量正交，M是L的正交补。

1.31 正交投影矩阵的表示

x在L上的投影为：

2. 矩阵的一般相似性定理

在第一篇博客已经提到了哈密特-凯莱定理，依据是任意n阶矩阵与三角阵相似。在《线性代数》中论述的是特殊的相似性：n阶非奇异矩阵与对角阵(特征值)相似。更特殊的是n阶对称矩阵的相似性，从特殊到一般的情况是《矩阵论》区别于《线性代数》的地方之一。

二，矩阵与AI

1.最小二乘法的研究

1.1 椭圆方程

1.11 标准椭圆方程

在二维平面内，一个标准的椭圆方程为x^2/a^2 + y^2/b^2 = 1，用矩阵表示为

在《线性代数》的二次型章节中，有标准的二次型矩阵表示，重新回顾一下：

标准的二次型就是这样的：

其中C是标准正交特征向量系组成的矩阵。所以以原点为中心的标准椭圆方程就是X^TAX，A为Hermite矩阵，X为椭圆参数。

那么椭圆中心不在原点的方程呢？比如

很明显此时的方程应该为：(X-X0)^TA(X-X0)

1.12 旋转后的椭圆方程

比如将原来的椭圆按原点顺时针旋转thelta度，旋转后的方程是什么样的呢？设原椭圆上的一点a(x1,x2)，旋转后为a`(x1`,x2`)。旋转矩阵为，标记为C，于是a` = Ca。变换一下，将a`逆时针旋转thelta度返回原来的a，此时的旋转矩阵为，替换掉原来的C。于是a = Ca`，带入原来的椭圆方程中得到：（初等旋转矩阵和初等反射矩阵在上一篇博客有论述），中心为X0(x10，x20)的椭圆方程为(X-X0)^T(C^TAC)(X-X0)。

1.2 最小二乘法损失函数

1.21 最小二乘法损失函数的由来

最小二乘法对于很多AI从业人员来说很熟悉，感觉没什么好说的，但是真要自己独立深入研究就需要功底了。运用数学知识自行研究AI需要方法论指导，首先写出最小二乘法的损失函数公式：

，

线性回归中的样本容量为n,标记Y为真实值，维度为n,YC^n空间，预测值 L(L为C^n的子空间）。

在《统计学》中我们知道，对于回归问题，真实值与预测值之间的误差遵循标准高斯分布，他的概率密度函数为高斯分布函数，因此利用最大似然函数估计得到：

让这个概率密度函数最大化等价于exp()里面的东东最小，于是就有了最小二乘法的损失函数。当然这个只是经验风险估计，还没有加上结构化约束，不能算最后的损失函数，后面将利用《凸优化》论述结构化约束。另外最小二乘法的损失函数属于凸函数，集合属于凸集，可以自己验证一下（两方面可以验证，一是变换成椭球公式，椭球属于典型的凸集，另一种方法求参数的二阶导函数>0）。

1.22 损失函数的椭圆范数表示

看到最小二乘的损失函数公式，如果数学功底扎实的话，马上能看出来它是两个相同向量的内积取均值，我们把这个向量表达出来就是Y-X*,其中X为样本组成的矩阵。于是损失函数可以表示为：①，②。我们将从这两个公式展开研究，先看公式②。把他展开看一下：

最后一项非常熟悉是标准椭圆方程，那么整个公式是不是椭圆呢？观察来看不是旋转后的椭圆，那就是中心不在原点的椭圆，来结合一下前面的公式：

对比这两个公式，发现如下规律：

于是损失函数为

进一步研究，中间的矩阵是n阶非奇异对称方阵，前后两项是非零向量，很明显这个公式是参数thelta的椭圆范数的平方，即：

这个意义很明显了，最小二乘的损失函数就是找到最优的参数thelta，使椭圆范数最小。这个椭圆是以理想的参数为中心，它的范数越小，训练的参数越接近于这个理想参数。所以它属于凸优化范畴。那么问题又来了，我们发现这个最后的公式里并没有Y，前面的公式①我们还没有论述，这两个公式之间存在着什么样的联系呢？换句话说我们找到了最优的参数thelta后，他对于公式①意味着什么？

1.22 损失函数的矩阵投影意义

前面我们提到，Y属于C^n空间，X*thelta属于L，L是C^n的子空间，M亦属于C^n的子空间并且，令Y-X*thelta=Z,得到Y=X*thelta+Z。要使损失函数①最小，也就是让Z向量的模最小，很明显只有满足以下关系才能是损失函数最小：

也就是说X*theltaY沿着M向L的投影，更确切地说是正交投影。我们来验证一下是否正确。公式Y=X*thelta+Z，按照《矩阵论》中投影的定义，Y分解为了两个子空间，这两个子空间直和是完整的C^n空间，所以X*thelta是Y的投影，符合要求。而且是正交投影，那么必有正交投影矩阵P满足以下关系：PY=X*thelta，P为Hermite幂等矩阵。那么至此最小二乘损失函数的意义就是：找到最优的参数thelta使损失函数的椭圆范数最小(最优椭圆)，根据这样的参数thelta能够得到Hermite幂等矩阵P使PY=X*thelta，即X*thelta是Y沿着M(M是L的正交补)的正交投影。X*thelta是对参数thelta的线性变换，把X进行奇异值分解后降维处理或者用PCA降维，X先是对thelta旋转变换，然后伸缩变换，最后再次旋转变换，此时的参数变成了L子空间。在实际工程训练中只能逼近这个理想结论，能否达到主要取决于结构化约束和参数优化方法。于是引出1.23节的论述，请看下文：

1.23 损失函数的结构化约束(lasso研究)

春节后更新……

2. 重要的矩阵：拉普拉斯矩阵，无向图卷积算子，谱卷积算子，从无向图到有向图的推理研究

2.1 拉普拉斯矩阵与PageRank算法

2.2 普通卷积算子，谱卷积算子，无向图推理

2.21 普通卷积算子

2.22 谱卷积算子

2.23 无向图推理

2.3 从无向图到有向图推理