线性代数的直观理解 -- Intuition in Linear Algebra

最新推荐文章于 2024-08-23 23:27:22 发布

翾昱

最新推荐文章于 2024-08-23 23:27:22 发布

阅读量6.2k

点赞数 4

分类专栏： Machine Learning 文章标签：线性代数

本文链接：https://blog.csdn.net/majestyhao/article/details/44128277

版权

本文介绍了线性代数在统计学中的作用，强调其作为处理复杂数据的工具，通过将数表映射到线性空间，允许对数据进行分析。线性代数提供了对数据的抽象，超越了欧几里得空间的限制，通过矩阵运算处理方程组，并引入了逆矩阵和特征值的概念。文章通过实例解释了特征值和特征向量如何帮助揭示数据中的主要差异性，从而在高相关性的预测变量中找到降维的依据。

摘要由CSDN通过智能技术生成

受《理解线性代数》启发，结合自身学习的经验，直观的总结我对线性代数的理解。强调直观是因为在这里不纠缠于数学的严谨性，所以如果追求数学严谨性和证明的还是去看教材比较好。

统计的目标是对数表内各种数据进行挖掘从而找出隐含其中的关系，线性代数为统计提供了对数表的表达方式和对数表进行处理的工具。

在初等数学中我们学过函数，用来表示的数据之间一种确定的关系，给定x一定能算出唯一的y。但现实中我们遇到的数据可就没有那么明确的联系了，我们不知道谁和谁有联系，甚至不知道是不是存在联系。因此我们急需一种框架来帮助我们处理这些”不好看”的数据。统计就是为了处理数据而生的，它的目标即挖掘出数据之间的联系，从而抽象出数学模型来做解释或预测。

先来扯句题外话，我们知道数学的本质是抽象。那究竟什么是抽象？抽象就是从不同个体中找相同，这些相同也就是规律和关系。初等数学中学到的函数关系就是一种规律，无论x到底是什么值，它和y之间都存在这样的规律。这也是为什么说数学模型都是错的，但却是有用的原因。抽象忽略了个体差异，只留相同点，利用相同点我们能处理满足此相同点的任何差异个体。

言归正传。回忆下中学解析几何或者大学微积分时我们是如何处理数据的: 我们会把函数f(x)映射到欧几里得空间内笛卡尔坐标系做visualization。在代数上对函数的操作等价于对欧几里得空间中相应函数图像做操作。函数是确定的关系，欧式空间也只能处理三维的问题，那有没有办法把任意的数表映射到空间呢？线性代数给我们提供了解决方案，它可以把任意数表映射到线性空间。那究竟什么是空间？从而使得我们可以对数表解析几何把初等代数和欧几里得空间联系起来，线性代数把方程组和线性空间结合起来。我们生活在欧几里得几何空间，关于这个空间的一些公理和常见几何物体以及对那些几何物体的操作我们在初等数学时都学过。从中我们能看到空间的基本组成。简单来说空间即是一个集合，这个集合定义了空间的基本组成元素（如点）与基于元素之间关系（因此需要坐标系和点相对坐标系的位置坐标，在欧几里得空间里一般定义唯一的笛卡尔坐标系）以及（用点描述出来的）空间上物体的运动。线性空间中基本元素是向量，坐标系由线性无关的向量组组成，且在线性空间上的物体也由向量组表示，更神的是向量组本身又可以描述物体的运动。什么是向量？说白了就是一列数。向量组也就是矩阵，本质就是个数表。和我们把(x, y)值映射到笛卡尔二维坐标系的一个点一样，我们可以把一个长度为n的数列映射到n维的空间的一个点，而且我们可以人为的认为它是有方向的，即从原点指向数列所在位置点。总体来说，线性空间和欧几里得空间相通，不过我们所关注的不再现实生活中存在的几何体和它们具体长啥样，而是任意的数据。我们在线性空间上研究的物体不再像初等数学中研究的几何物体那么美，而是奇形怪状。线性代数处理对象更加general，关注的是数据本身。而且相比欧几里得空间里的绝对性(对笛卡尔坐标系), 线性空间强调的是相对性，不再局限the one axis，只要是线性无关的向量就可以作为坐标系，也就是一组基。或许你会问了，初等数学时”画图”是为了方便我们理解来做题，对于n维的我们根本画不出来为什么还要映射到空间? 这里就牵扯到思维的转换了，高等数学更加强调抽象。在初等数学中任何代数操作都可以反映到欧氏空间，如坐标轴笛卡尔坐标系，也就是说任何代数操作实际上都有一个相应的空间操作对应。那么我们为何不能把这个基本思想推广到n维呢？我们既然能画出二维三维的，理论上也能”画”出n维的。对一个n维的数据进行代数操作同样也会有对应的n维空间上的操作。所以这里引入的空间并不是为了方便我们人类做题，而是一种严格的大一统数学框架。

当我们把数表抽象成一个矩阵个体，那么我们就可以定义出以矩阵为单位的运算。和对单个数类似，对矩阵也有加减乘，也有相应的运算率。加减必须基于同型矩阵，因为对于两张数表我们不能随意跳出两项就相加减吧？必须苹果加苹果，梨加梨对吧。也就是必须要相对应的项才能加减。乘法分成两个，数乘和矩阵相乘。数乘是某个数（标量）乘到矩阵每个元素之上，可以表示成 $kA$ . 对应到现实中类似于单位换算，如一张以kg为单位的表统一换算成lbs。矩阵相乘是最重要也是最特殊的一种运算。在之前说过不但线性空间被操作的对象是矩阵，矩阵的运动也是用矩阵表示。在深入谈之前我们先说矩阵乘法引入的原因。矩阵最常用也是最基础的应用是解方程组。我们初中时就学过，我们可以对方程组内每个方程左右同乘以某个数，把方程组内方程顺序变换，和把某个方程乘以某个倍数再加或减到另一个方程上，都不会对方程组解发生变化。当我们把方程组系数形成的数表当作一个矩阵，把 $X$ 和等式右边的结果形成的数列作为向量，我们就可以把整个方程组用矩阵和向量相乘的方式表示出来 $AX = (\alpha_1, \alpha_2, ..., \alpha_n)x = b$ 。当 $b$ 为全0向量时，称作齐次线性方程组，否则就称作非齐次方程组。对于齐次，方程组个数决定了方程会有多少解。方程数量和自变量数目相同时，只存在零解；当方程数量小于变量数时，会有无数多个解。不是说方程数多就一定会有零解，当某个方程所含的信息可以用其它方程表示时，这个方程就是多余的。如 $x_1+ x_2 = 2$ 和 $2x_1 + 2x_2 = 4$ 虽然是两个方程，但第二个可以由第一个数乘得到，是冗余的方程。所以我们可以管有效方程叫做约束条件，约束条件的个数叫做方程组的秩，当秩等于自变量数量时，方程组只有零解，反之则说明约束条件无法约束全部变量，存在自由变量可以自由赋值，因此有无穷多解。秩的概念与统计中自由度(degree of freedoms)遥相呼应，更是连接了bias-variance tradeoff。扯远了。我们把方程组的秩引申到系数矩阵的秩，表示行向量中不能互相表示的向量数。不能互相表示用线性代数的行话来说即线性无关，也就是说其中任何一个向量都不能通过其余向量数乘和相加得到。矩阵的行秩和列秩相等，等于矩阵的秩（证明请翻阅高等代数教材）。也就是说矩阵的秩必定小于行数和列数。当我们回头看非齐次方程组 $(\alpha_1, \alpha_2, ..., \alpha_n)x = b$ 时，是不是有种灵光乍现的感觉。把向量 $x$ 代入，得到 $\alpha_1x_1 + \alpha_2x_2 +,..., + \alpha_nx_n= b$ 不就是说向量 $b$ 可以由 $(\alpha_1, ..., \alpha_n)$ 向量线性表示嘛。这也是为什么我们研究的叫做线性代数的原因，关系都是一次的，一一的。也就是说非齐次可以看作是齐次的特例，把