探寻《矩阵论》与AI的结合(二)

本文深入探讨了矩阵理论在AI中的应用,特别是矩阵的特征值在稳定性分析中的作用,以及如何应用于最小二乘法和损失函数。讨论了正定矩阵、投影矩阵和椭圆范数的数学概念,并将其与AI中的线性系统稳定性、正交投影和最小二乘法损失函数相联系。同时,文章指出,理论研究应注重方法论而非单纯的知识积累,强调创新意识的重要性。并指出矩阵论的学习对于提升AI研究人员的理论水平至关重要。
摘要由CSDN通过智能技术生成

总述:https://blog.csdn.net/randy_01/article/details/80616681 这篇博客主要论述了矩阵理论的一般性,接下来将进一步深入探讨特殊矩阵以及应用。国外翻译版的《矩阵论》主要教会从业人员一种研究矩阵的方法论。纵观整个篇幅基本可以发现,研究矩阵的方法不外乎以下几种:①feature value decomposition②矩阵相似性~的研究③矩阵分块理论。对矩阵的任何研究都离不开这三种方法,比如奇异值分解,矩阵的分解实际上是相似性和分块理论的融合。矩阵中最重要的元素是feature value,它是矩阵的灵魂。以feature value为核心的研究,包括线性变换,谱范数,feature value估计,矩阵的扰动问题,稳定性等等。矩阵的范数在AI中往往应用在结构化约束中,矩阵的范数还可以证明矩阵的收敛性,最小二乘法损失函数用矩阵可以解释为估计参数满足向量Y在预测值平面内的投影是预测值向量本身。包括在《实变函数与泛函数分析》和《凸优化》中都可以用矩阵来解释,比如泛函数分析中著名的乘积空间其实可以看成是矩阵空间,有界线性算子。《矩阵论》+《实变函数与泛函数分析》+《凸优化》+《统计学》是从事研究工作最基本的数学储备。而普通本科非数学专业的微积分和线代又是前面的基础。但是理论扎实和创新并不是一回事儿,比如国外的Ai研究员可以从生活常识中得到灵感,比如幼儿的抓阄,物理学中的弹簧系统的稳定性等等。建立创新意识比知识储备更重要,也就是增强自身的认知能力,而不只是停留在感知层面。比如有的公司或者研究人员认为扒论文复现很重要,认为本科生做不了。事实上如果中国的教育有质量保证的话,本科生完全可以胜任,因为扒论文复现并不是什么高深和光彩的事儿。

学习学科的目标并不是单纯为了积累知识,方法论才是最重要的。比如国内很多研究生很水,据观察国内很多高校根本不具备开设硕士专业的资格,导师水平不达标,有的甚至不是专业对口的导师,可想而知多么坑人。方法论在知识图谱中以及神经规则推理中更为重要,比如图模型推理的研究,基本思路是融合统计学派和图模型,然后用神经网路学习知识表示。再比如CNN的改进总体离不开以下3种方法:①输入层embedding的扩展,比如融合知识图谱的embedding表示②卷积算子的改进(数学中的卷积算子的研究和有界线性算子很相似)③最后池化层的改进。去年以色列特拉维夫大学和哈弗大学的一篇改进卷积算子(谱卷积算子的论文很不错,很前沿,这些都是工业界最具价值的研究)。目前国内的研究最大的问题是"唯论文论"的浮夸,部分博士不务实,以写论文为生。工业界的进步靠的是少数有价值的论文,而不是论文漫天纷。国内的研究总体上格局不大,有点儿小家子气,保守,习惯于在1的基础上小修小改。从0到1的过程是最具价值的,也是最消耗精力的,需要从基础抓起。比如有的人研究方向很可能不对思路(纯学术派的Ai研究员容易犯这样的错误),从0到1的研究必须必须慢下来。比如很多工业界的码农学习Ai完全是蜻蜓点水,这是不恰当的,能够评估一篇论文的商业价值需要很强的学术能力和经验。再比如去年微软已经上线的core inferrence chain用cvt节点的图谱做2-hot以上的推理,metapath衡量语义相似度,论文有些人看了以后认为这仅仅是一篇paper而已,草率地认为实际上实现不了。国内确实没有上线的,这说明国内的Ai基础研究明显落后于美国。

基础学科《矩阵论》的学习,绝对会使Ai研究人员上升层次。本篇博客将重点论述AI和矩阵,AI部分主要论述统计学派和图模型以及神经网络的融合,分为以下几个部分:

一、矩阵的方法论研究(切入点为特殊矩阵的研究,从特殊到一般的归纳总结是人类研究自然世界的基本规律);

二、矩阵与AI(最小二乘法,损失函数的结构化约束) ,重要的矩阵:拉普拉斯矩阵,PageRank,无向图的卷积算子(谱卷积算子,相对于图卷积算子),图模型推理.

1.特殊的矩阵

1.1 正定矩阵与正稳定矩阵

矩阵的研究方法在总述中已经提到了,看下面的图:

9a7871c137d2d521971ad24403563d95.jpeg

 利用以上结论可以得出:对于n阶Hermite正定矩阵A有8bdfd9c9b7370da276f65de87c26e655.png,其中P为n阶非奇异矩阵,证明过程用到了第②条结论。这个结论可以直接证明向量的椭圆范数满足三角性。n阶Hermite正定矩阵毫无疑问是稳定的,他是判断线性系统稳定性的重要依据(依据特征值来判断,前面提到矩阵的特征值是矩阵的灵魂)。

1.2 投影矩阵

1.21 投影算子、投影矩阵和幂等矩阵的概念

f4e0129f9e5e8ba4dc6cf950d276516c.png

 2d16222ba488c760cf58ff44621a9461.png

 注意:幂等矩阵是A^2=A的矩阵。

 e9e74f2a8199330557f7dc211cfdc8d7.png

 0335f2fd28e11830b6dd3734b21d9fa7.png

 99d017e532e46c36688ccea90770ff3f.png

 1.22 判断投影矩阵的条件

f1b1da418307a2d201912add1dd9f64b.png

 e7a80a209344178931c629bb7fcd9d5e.png

b30ac197da4eb02b37f98425e97c0374.png

 1.23 投影矩阵的表示

cefeeb91e13f5f5641e56a6286483a2c.png

 9015c82bd184d03b1f4ea99ba96703c4.png

 举例:

ba2732ac8585a1cb55682b61183b7979.png

 fa50e33f1b182a37666fcc49d8bd9ee2.png

 1.3 正交投影矩阵

6d7257919ac91d0186b396bd1c53764f.png

 L子空间的向量与M子空间的向量正交,M是L的正交补。

1.31 正交投影矩阵的表示

12f7cedfeefb11ebdca91dda819f00bd.png

 3862725560ebd41c118a0dcb94b71739.png

 e5c33144690319c371b4ebbd7bb3bbd0.png

 x在L上的投影为:

 70a6caeabe41e2f9ebd8b5c2fed01bde.png

2. 矩阵的一般相似性定理

在第一篇博客已经提到了哈密特-凯莱定理,依据是任意n阶矩阵与三角阵相似。在《线性代数》中论述的是特殊的相似性:n阶非奇异矩阵与对角阵(特征值)相似。更特殊的是n阶对称矩阵的相似性,从特殊到一般的情况是《矩阵论》区别于《线性代数》的地方之一。

二,矩阵与AI

1.最小二乘法的研究

   1.1 椭圆方程

         1.11 标准椭圆方程

               在二维平面内,一个标准的椭圆方程为x^2/a^2 + y^2/b^2 = 1,用矩阵表示为

2bea6d068261122dca23e89e083eb1aa.png

在《线性代数》的二次型章节中,有标准的二次型矩阵表示,重新回顾一下:

393a9a3ca6da62213456d54b46c849ae.png

 5371e8173d3c5867d5909ad5ba258292.png

 9141378198dc51aba973c612a65e9e96.png

 d1ef2581b347785802ab4cf4d02bff38.png

 4f417086e32593e0f2e9d508f649ca65.png

  标准的二次型就是这样的:

df997811801fa414c27b54e7623429eb.png

 02ac3d5353ad29decbdeadb216171be3.png

 d93e314ca546c86c7bffb18cabcb830d.png

 其中C是标准正交特征向量系组成的矩阵。所以以原点为中心的标准椭圆方程就是X^TAX,A为Hermite矩阵,X为椭圆参数。

那么椭圆中心不在原点的方程呢?比如

e90431e62de5d296cfac1cd4b90e4706.png

 很明显此时的方程应该为:(X-X0)^TA(X-X0)

         1.12 旋转后的椭圆方程

                比如将原来的椭圆按原点顺时针旋转thelta度,旋转后的方程是什么样的呢?设原椭圆上的一点a(x1,x2),旋转后为a`(x1`,x2`)。旋转矩阵为97ceaf42dc5855c913115f0a63400790.png,标记为C,于是a` = Ca。变换一下,将a`逆时针旋转thelta度返回原来的a,此时的旋转矩阵为fe826af5606dd379fbedbbe177df4712.png,替换掉原来的C。于是a = Ca`,带入原来的椭圆方程中得到:54ade8c64c32f2b929e0d1364cb169ed.png (初等旋转矩阵和初等反射矩阵在上一篇博客有论述),中心为X0(x10,x20)的椭圆方程为(X-X0)^T(C^TAC)(X-X0)。

   1.2 最小二乘法损失函数

         1.21 最小二乘法损失函数的由来

                 最小二乘法对于很多AI从业人员来说很熟悉,感觉没什么好说的,但是真要自己独立深入研究就需要功底了。运用数学知识自行研究AI需要方法论指导,首先写出最小二乘法的损失函数公式:

e8dc7161b7f5779664668b6bf6d1ec56.png

线性回归中的样本容量为n,标记Y为真实值,维度为n,Y011e893a477558fca737baa45a7480c8.pngC^n空间,预测值5c124f7e1b31ebfb2e956f210846915a.png 011e893a477558fca737baa45a7480c8.png L(L为C^n的子空间)。

在《统计学》中我们知道,对于回归问题,真实值与预测值之间的误差遵循标准高斯分布c187f70365bcc979934431124ad4a520.png,他的概率密度函数为高斯分布函数,因此利用最大似然函数估计得到:

e187365e768b6d93a766a808cf48ab26.png

让这个概率密度函数最大化等价于exp()里面的东东最小,于是就有了最小二乘法的损失函数。当然这个只是经验风险估计,还没有加上结构化约束,不能算最后的损失函数,后面将利用《凸优化》论述结构化约束。另外最小二乘法的损失函数属于凸函数,集合属于凸集,可以自己验证一下(两方面可以验证,一是变换成椭球公式,椭球属于典型的凸集,另一种方法求参数的二阶导函数>0)。

         1.22 损失函数的椭圆范数表示

看到最小二乘的损失函数公式,如果数学功底扎实的话,马上能看出来它是两个相同向量的内积取均值,我们把这个向量表达出来就是Y-X*ff079145f42ab414cf73a158ed11b2d2.png,其中X为样本组成的矩阵。于是损失函数可以表示为:①65f1949fcdfa27ed4dfa90512acf2f8b.png,②5ad2a539726e8228a573ee2acdde78f5.png。我们将从这两个公式展开研究,先看公式②。把他展开看一下:

d9b73deabb25ac8153dac3ea8cf302ab.png

最后一项非常熟悉是标准椭圆方程,那么整个公式是不是椭圆呢?观察来看不是旋转后的椭圆,那就是中心不在原点的椭圆,来结合一下前面的公式:

6b7e2d8f84d7ef0bf402894da2929c08.png

 对比这两个公式,发现如下规律:

e123e7fed7172abfe5364adf044d45f6.png

 于是损失函数为

682ac0a219724634652992210c829df0.png

 进一步研究,中间的矩阵是n阶非奇异对称方阵,前后两项是非零向量,很明显这个公式是参数thelta的椭圆范数的平方,即:

9122ddd3d5a9ebd223bcdd4374ceb58b.png

 ed97851201de2ec2518a132dd040bee9.png

 这个意义很明显了,最小二乘的损失函数就是找到最优的参数thelta,使椭圆范数最小。这个椭圆是以理想的参数7dc5d2c57baa7c756f9900bbd6250d84.png为中心,它的范数越小,训练的参数越接近于这个理想参数。所以它属于凸优化范畴。那么问题又来了,我们发现这个最后的公式里并没有Y,前面的公式①我们还没有论述,这两个公式之间存在着什么样的联系呢?换句话说我们找到了最优的参数thelta后,他对于公式①意味着什么?

         1.22 损失函数的矩阵投影意义

                 前面我们提到,Y属于C^n空间,X*thelta属于L,L是C^n的子空间,M亦属于C^n的子空间并且eb05722962ad11bca9deb53b38d028dd.png,令Y-X*thelta=Z,得到Y=X*thelta+Z。要使损失函数①最小,也就是让Z向量的模最小,很明显只有满足以下关系才能是损失函数最小:

e3d70973d03e128408fe27405ea4a8a7.png

 也就是说X*theltaY沿着M向L的投影,更确切地说是正交投影。我们来验证一下是否正确。公式Y=X*thelta+Z,按照《矩阵论》中投影的定义,Y分解为了两个子空间,这两个子空间直和是完整的C^n空间,所以X*thelta是Y的投影,符合要求。而且是正交投影,那么必有正交投影矩阵P满足以下关系:PY=X*thelta,P为Hermite幂等矩阵。那么至此最小二乘损失函数的意义就是:找到最优的参数thelta使损失函数的椭圆范数最小(最优椭圆),根据这样的参数thelta能够得到Hermite幂等矩阵P使PY=X*thelta,即X*thelta是Y沿着M(M是L的正交补)的正交投影。X*thelta是对参数thelta的线性变换,把X进行奇异值分解后降维处理或者用PCA降维,X先是对thelta旋转变换,然后伸缩变换,最后再次旋转变换,此时的参数变成了L子空间。在实际工程训练中只能逼近这个理想结论,能否达到主要取决于结构化约束和参数优化方法。于是引出1.23节的论述,请看下文:

         1.23 损失函数的结构化约束(lasso研究)

                 春节后更新……

2. 重要的矩阵:拉普拉斯矩阵,无向图卷积算子,谱卷积算子,从无向图到有向图的推理研究

    2.1 拉普拉斯矩阵与PageRank算法

    2.2 普通卷积算子,谱卷积算子,无向图推理

          2.21 普通卷积算子

          2.22 谱卷积算子

          2.23 无向图推理

   2.3 从无向图到有向图推理

 

 

 

 

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

佟学强

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值