机器学习中的数学——特征向量、矩阵对角化

最新推荐文章于 2024-04-24 09:00:00 发布

小孩咋啦

最新推荐文章于 2024-04-24 09:00:00 发布

阅读量1k

点赞数

分类专栏：机器学习文章标签：机器学习深度学习线性代数

本文链接：https://blog.csdn.net/u010569001/article/details/104641542

版权

机器学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

文章目录

线性代数
向量,向量空间;矩阵, 线性变换;
特征值, 特征向量;奇异值, 奇异值分解
概率论与统计
随机事件;条件概率, 全概率,贝叶斯概率;
统计量, 常见分布; 基本原理
最优化理论
极限, 导数;线性逼近, 泰勒展开;
凸函数, jensen不等式;最小二乘法; 梯度, 梯度下降

矩阵和线性变换

方阵能描述任意线性变换, 线性变换保留了直线和平行线, 但原点没用移动.
$\pmb v = \begin{bmatrix} x\\ y\\ z\\ \end{bmatrix} =\begin{bmatrix} x\\ 0\\ 0\\ \end{bmatrix}+\begin{bmatrix} 0\\ y\\ 0\\ \end{bmatrix}+\begin{bmatrix} 0\\ 0\\ z\\ \end{bmatrix}$
$\pmb v =\begin{bmatrix} x\\ y\\ z\\ \end{bmatrix}=x\times \begin{bmatrix} 1\\ 0\\ 0\\ \end{bmatrix}+y\times \begin{bmatrix} 0\\ 1\\ 0\\ \end{bmatrix}+z\times \begin{bmatrix} 0\\ 0\\ 1\\ \end{bmatrix}$
向量的每一个坐标都表明了平行于相应坐标轴的有向位移.
如果把矩阵的行解释为坐标系的基向量，那么乘以该矩阵就相当于执行了一次坐标转换，如果 $a M = b$ ，我们就可以说， $M 将 a$ 转换到 $b$ 。
从这点看，术语“转换”和“乘法”是等价的。
坦率地说，矩阵并不神秘，它只是用一种紧凑的方式来表达坐标转换所需的数学运算。进一步，用线性代数操作矩阵，是一种进行简单转换或导出更复杂转换的简便方法.
我们可以不依赖于坐标系而沿任意方向进行缩放，设 $\vec{n}$ 为平行于缩放方向的单位向量，k为缩放因子,缩放沿穿过原点并平行于 $\vec{n}$ 的直线（2D中）或平面（3D中）进行。

$\vec{v} = \vec{v}_{||}+\vec{v}_{⊥}$
$\vec{v}_{||}=(\vec{v}\cdot \vec{n})\vec{n}$
$\vec{v}_{⊥}=\vec{v}-\vec{v}_{||}=\vec{v}-(\vec{v}\cdot \vec{n})\vec{n}$

$\vec{v}^{'}=\vec{v}_{||}^{'}+\vec{v}_{⊥}^{'}$
$\vec{v}_{⊥}^{'}=\vec{v}_{⊥}=\vec{v}-(\vec{v}\cdot\vec{n})\vec{n}$
$\vec{v}_{||}^{'}=k\cdot\vec{v}_{||}=k\cdot(\vec{v}\cdot\vec{n})\vec{n}$
$\vec{v}^{'}=\vec{v}_{⊥}=\vec{v}-(\vec{v}\cdot\vec{n})\vec{n}+k\cdot(\vec{v}\cdot\vec{n})\vec{n}=\vec{v}+(k-1)(\vec{n}\cdot\vec{v})\vec{n}$
（待补充）

特征值与特征向量

定义:$A $n 阶方阵, 对于$ \lambda $, 存在非零向量$ \vec v $, 使得$ \pmb A\vec v=\lambda\vec v $, 则 :$ \lambda$就叫特征值, $\vec v$ 就叫对应 $\lambda$ 的特征向量
特征值可以为0, 特征向量不能为0
$\pmb A\vec x =\lambda \vec x ~~~~ x\not= 0$
↓
$(\pmb A-\lambda \pmb E)\vec x = 0$
↓
$|\pmb A-\lambda\pmb E|=0$
其中 $\lambda$ 和 $x$ 为我们需要求得值

$\pmb Ax$ 代表向量的线性变换, $\lambda x$ 代表向量拉伸变换
特征向量的含义就在于使得哪些向量只发生拉伸变换
而特征值用于衡量相应的拉伸系数
特征值就是运动的速度, 特征向量就是运动的方向

注:只有方阵才能计算特征值和特征向量

例:
$\pmb A=\begin{bmatrix} 4&0\\ 3&-5\\ \end{bmatrix}$
求特征值:
$|\pmb A-\lambda \pmb E|$
$
=\begin{bmatrix}
4-\lambda&0\
3&-5-\lambda
\end{bmatrix}
$
$=(4-\lambda)(-5-\lambda)=0$
得: $\lambda_{1}=-5, \lambda_{2}=4$
针对特征值 $\lambda_{1}=-5$ , 计算特征向量 $\pmb X_{1}$
$\begin{bmatrix} 9&0\\ 3&0\\ \end{bmatrix}\cdot \vec x=0~~~\pmb X_{1}=\begin{bmatrix}0\\1\\\end{bmatrix}$
针对特征值 $\lambda_{2}=4$ , 计算特征向量 $\pmb X_{2}$
$\begin{bmatrix}0&0\\3&-9\\\end{bmatrix}\cdot\vec x=0~~~\pmb X_{2}=\begin{bmatrix}3\\1\\\end{bmatrix}$

例:
$\pmb A=\begin{bmatrix}4&-2\\3&-1\\\end{bmatrix}$
求特征值:
$|\pmb A-\lambda \vec x|=\begin{bmatrix}4-\lambda&-2\\3&-1-\lambda\end{bmatrix}=(4-\lambda)(-1-\lambda)+6=0$
得: $\lambda_{1}=1, \lambda_{2}=2$
针对特征值 $\lambda_{1}=1$ , 计算特征向量 $\pmb X_{1}$
$\begin{bmatrix}3&-2\\3&-2\end{bmatrix}\cdot\vec x=0~~~\pmb X_{1}=\begin{bmatrix}2\\3\\\end{bmatrix}$
针对特征值 $\lambda_{2}=2$ , 计算特征向量 $\pmb X_{2}$
$\begin{bmatrix}2&-2\\3&-3\\\end{bmatrix}\cdot \vec x=0~~~\pmb X_{2}=\begin{bmatrix}1\\1\\\end{bmatrix}$
另一种计算方式,首先将 $\vec x$ 表示成特征向量 $\begin{bmatrix}1\\1\\\end{bmatrix}$ 和 $\begin{bmatrix}2\\3\\\end{bmatrix}$ 的线性组合,即:
$\vec x=\begin{bmatrix}1\\2\\\end{bmatrix}=-1\cdot\begin{bmatrix}1\\1\\\end{bmatrix}+1\cdot\begin{bmatrix}2\\3\\\end{bmatrix}$
然后,将特征值与对应系数(特征值)相乘, 得到:
$\vec y = -1\cdot2\cdot\begin{bmatrix}1\\1\\\end{bmatrix}+1\cdot1\cdot\begin{bmatrix}2\\3\\\end{bmatrix}=\begin{bmatrix}0\\1\\\end{bmatrix}$
这与 $\vec y=\pmb A\vec x=\begin{bmatrix}0\\1\\\end{bmatrix}$ 相同,表示 $\pmb A$ 对向量 $\vec x$ 的线性变换相当于 $\pmb A$ 的特征值和特征向量与 $\vec x$ 的线性组合, 可以说在线性变换时, 矩阵的特征值和特征向量可以代表矩阵.
矩阵所充当的映射, 实际上就是对特征向量的缩放, 每个特征向量的缩放程度就是特征值.
将 $\vec x$ 向量表示特征向量的线性组合(相当于以特征向量为基),得到相应的特征向量的权重.然后,每个权重与特征值相乘, 就是这个映射最本质的缩放操作.

特征值求法

奇异方阵

相似矩阵

定义:若 $\pmb A$ 与 $\pmb B$ 均为n阶方阵, 若存在一个可逆矩阵 $\pmb P$ , 使 $\pmb P^{-1}\cdot A \cdot \pmb P=B$ , 则称 $\pmb A$ 与 $\pmb B$ 相似

对角化

定义及证明
定义:假设一个 $n\times n$ 阶的方阵 $\pmb A$ ,有 $n$ 个线性无关的特征向量 $v_1, v_2,\cdots, v_n$ , 所有的特征向量组成特征向量矩阵 $\pmb S$ , 则有 $\pmb S^{-1}\pmb A\pmb S=\Lambda$ , 其中 $\Lambda$ 为由 $\pmb S$ 对应的特征值组成的对角矩阵, 即:
$\pmb S^{-1}\pmb A\pmb S=\Lambda=\begin{bmatrix} \lambda_1\\ &\ddots\\ &&\lambda_n \end{bmatrix}$
证明:
$\pmb A\pmb S=\pmb A\begin{bmatrix}v_1&v_2&v_3&\cdots&v_n\end{bmatrix}=\begin{bmatrix}\lambda_1v_1&\lambda_2v_2&\lambda_3v_3&\cdots&\lambda_nv_n\end{bmatrix}=\pmb S\begin{bmatrix}\lambda_1\\&\ddots\\&&\lambda_n\end{bmatrix}=\pmb S\pmb{\Lambda}$