机器学习中的数学——特征向量、矩阵对角化

  1. 线性代数
    向量,向量空间;矩阵, 线性变换;
    特征值, 特征向量;奇异值, 奇异值分解
  2. 概率论与统计
    随机事件;条件概率, 全概率,贝叶斯概率;
    统计量, 常见分布; 基本原理
  3. 最优化理论
    极限, 导数;线性逼近, 泰勒展开;
    凸函数, jensen不等式;最小二乘法; 梯度, 梯度下降

矩阵和线性变换

方阵能描述任意线性变换, 线性变换保留了直线和平行线, 但原点没用移动.
v = [ x y z ] = [ x 0 0 ] + [ 0 y 0 ] + [ 0 0 z ] \pmb v = \begin{bmatrix} x\\ y\\ z\\ \end{bmatrix} =\begin{bmatrix} x\\ 0\\ 0\\ \end{bmatrix}+\begin{bmatrix} 0\\ y\\ 0\\ \end{bmatrix}+\begin{bmatrix} 0\\ 0\\ z\\ \end{bmatrix} vvv=xyz=x00+0y0+00z
v = [ x y z ] = x × [ 1 0 0 ] + y × [ 0 1 0 ] + z × [ 0 0 1 ] \pmb v =\begin{bmatrix} x\\ y\\ z\\ \end{bmatrix}=x\times \begin{bmatrix} 1\\ 0\\ 0\\ \end{bmatrix}+y\times \begin{bmatrix} 0\\ 1\\ 0\\ \end{bmatrix}+z\times \begin{bmatrix} 0\\ 0\\ 1\\ \end{bmatrix} vvv=xyz=x×100+y×010+z×001
向量的每一个坐标都表明了平行于相应坐标轴的有向位移.
如果把矩阵的行解释为坐标系的基向量,那么乘以该矩阵就相当于执行了一次坐标转换,如果 a M = b aM=b aM=b,我们就可以说, M 将 a M将a Ma转换 b b b
从这点看,术语“转换”和“乘法”是等价的。
坦率地说,矩阵并不神秘,它只是用一种紧凑的方式来表达坐标转换所需的数学运算。进一步,用线性代数操作矩阵,是一种进行简单转换或导出更复杂转换的简便方法.
我们可以不依赖于坐标系而沿任意方向进行缩放,设 n ⃗ \vec{n} n 为平行于缩放方向的单位向量,k为缩放因子,缩放沿穿过原点并平行于 n ⃗ \vec{n} n 的直线(2D中)或平面(3D中)进行。

v ⃗ = v ⃗ ∣ ∣ + v ⃗ ⊥ \vec{v} = \vec{v}_{||}+\vec{v}_{⊥} v =v +v
v ⃗ ∣ ∣ = ( v ⃗ ⋅ n ⃗ ) n ⃗ \vec{v}_{||}=(\vec{v}\cdot \vec{n})\vec{n} v =(v n )n
v ⃗ ⊥ = v ⃗ − v ⃗ ∣ ∣ = v ⃗ − ( v ⃗ ⋅ n ⃗ ) n ⃗ \vec{v}_{⊥}=\vec{v}-\vec{v}_{||}=\vec{v}-(\vec{v}\cdot \vec{n})\vec{n} v =v v =v (v n )n

v ⃗ ′ = v ⃗ ∣ ∣ ′ + v ⃗ ⊥ ′ \vec{v}^{'}=\vec{v}_{||}^{'}+\vec{v}_{⊥}^{'} v =v +v
v ⃗ ⊥ ′ = v ⃗ ⊥ = v ⃗ − ( v ⃗ ⋅ n ⃗ ) n ⃗ \vec{v}_{⊥}^{'}=\vec{v}_{⊥}=\vec{v}-(\vec{v}\cdot\vec{n})\vec{n} v =v =v (v n )n
v ⃗ ∣ ∣ ′ = k ⋅ v ⃗ ∣ ∣ = k ⋅ ( v ⃗ ⋅ n ⃗ ) n ⃗ \vec{v}_{||}^{'}=k\cdot\vec{v}_{||}=k\cdot(\vec{v}\cdot\vec{n})\vec{n} v =kv =k(v n )n
v ⃗ ′ = v ⃗ ⊥ = v ⃗ − ( v ⃗ ⋅ n ⃗ ) n ⃗ + k ⋅ ( v ⃗ ⋅ n ⃗ ) n ⃗ = v ⃗ + ( k − 1 ) ( n ⃗ ⋅ v ⃗ ) n ⃗ \vec{v}^{'}=\vec{v}_{⊥}=\vec{v}-(\vec{v}\cdot\vec{n})\vec{n}+k\cdot(\vec{v}\cdot\vec{n})\vec{n}=\vec{v}+(k-1)(\vec{n}\cdot\vec{v})\vec{n} v =v =v (v n )n +k(v n )n =v +(k1)(n v )n
(待补充)

特征值与特征向量

定义:$A n 阶 方 阵 , 对 于 n阶方阵, 对于 n,\lambda , 存 在 非 零 向 量 , 存在非零向量 ,\vec v , 使 得 , 使得 ,使\pmb A\vec v=\lambda\vec v , 则 : ,则: ,:\lambda$就叫特征值, v ⃗ \vec v v 就叫对应 λ \lambda λ的特征向量
特征值可以为0, 特征向量不能为0

A x ⃗ = λ x ⃗      x ≠ 0 \pmb A\vec x =\lambda \vec x ~~~~ x\not= 0 AAAx =λx     x=0

( A − λ E ) x ⃗ = 0 (\pmb A-\lambda \pmb E)\vec x = 0 (AAAλEEE)x =0

∣ A − λ E ∣ = 0 |\pmb A-\lambda\pmb E|=0 AAAλEEE=0
其中 λ \lambda λ x x x为我们需要求得值

  • A x \pmb Ax AAAx代表向量的线性变换, λ x \lambda x λx代表向量拉伸变换
  • 特征向量的含义就在于使得哪些向量只发生拉伸变换
  • 而特征值用于衡量相应的拉伸系数
  • 特征值就是运动的速度, 特征向量就是运动的方向

注:只有方阵才能计算特征值和特征向量


例:
A = [ 4 0 3 − 5 ] \pmb A=\begin{bmatrix} 4&0\\ 3&-5\\ \end{bmatrix} AAA=[4305]
求特征值:
∣ A − λ E ∣ |\pmb A-\lambda \pmb E| AAAλEEE
$
=\begin{bmatrix}
4-\lambda&0\
3&-5-\lambda
\end{bmatrix}
$
= ( 4 − λ ) ( − 5 − λ ) = 0 =(4-\lambda)(-5-\lambda)=0 =(4λ)(5λ)=0
得: λ 1 = − 5 , λ 2 = 4 \lambda_{1}=-5, \lambda_{2}=4 λ1=5,λ2=4
针对特征值 λ 1 = − 5 \lambda_{1}=-5 λ1=5, 计算特征向量 X 1 \pmb X_{1} XXX1
[ 9 0 3 0 ] ⋅ x ⃗ = 0     X 1 = [ 0 1 ] \begin{bmatrix} 9&0\\ 3&0\\ \end{bmatrix}\cdot \vec x=0~~~\pmb X_{1}=\begin{bmatrix}0\\1\\\end{bmatrix} [9300]x =0   XXX1=[01]
针对特征值 λ 2 = 4 \lambda_{2}=4 λ2=4, 计算特征向量 X 2 \pmb X_{2} XXX2
[ 0 0 3 − 9 ] ⋅ x ⃗ = 0     X 2 = [ 3 1 ] \begin{bmatrix}0&0\\3&-9\\\end{bmatrix}\cdot\vec x=0~~~\pmb X_{2}=\begin{bmatrix}3\\1\\\end{bmatrix} [0309]x =0   XXX2=[31]

例:
A = [ 4 − 2 3 − 1 ] \pmb A=\begin{bmatrix}4&-2\\3&-1\\\end{bmatrix} AAA=[4321]
求特征值:
∣ A − λ x ⃗ ∣ = [ 4 − λ − 2 3 − 1 − λ ] = ( 4 − λ ) ( − 1 − λ ) + 6 = 0 |\pmb A-\lambda \vec x|=\begin{bmatrix}4-\lambda&-2\\3&-1-\lambda\end{bmatrix}=(4-\lambda)(-1-\lambda)+6=0 AAAλx =[4λ321λ]=(4λ)(1λ)+6=0
得: λ 1 = 1 , λ 2 = 2 \lambda_{1}=1, \lambda_{2}=2 λ1=1,λ2=2
针对特征值 λ 1 = 1 \lambda_{1}=1 λ1=1, 计算特征向量 X 1 \pmb X_{1} XXX1
[ 3 − 2 3 − 2 ] ⋅ x ⃗ = 0     X 1 = [ 2 3 ] \begin{bmatrix}3&-2\\3&-2\end{bmatrix}\cdot\vec x=0~~~\pmb X_{1}=\begin{bmatrix}2\\3\\\end{bmatrix} [3322]x =0   XXX1=[23]
针对特征值 λ 2 = 2 \lambda_{2}=2 λ2=2, 计算特征向量 X 2 \pmb X_{2} XXX2
[ 2 − 2 3 − 3 ] ⋅ x ⃗ = 0     X 2 = [ 1 1 ] \begin{bmatrix}2&-2\\3&-3\\\end{bmatrix}\cdot \vec x=0~~~\pmb X_{2}=\begin{bmatrix}1\\1\\\end{bmatrix} [2323]x =0   XXX2=[11]
另一种计算方式,首先将 x ⃗ \vec x x 表示成特征向量 [ 1 1 ] \begin{bmatrix}1\\1\\\end{bmatrix} [11] [ 2 3 ] \begin{bmatrix}2\\3\\\end{bmatrix} [23]的线性组合,即:
x ⃗ = [ 1 2 ] = − 1 ⋅ [ 1 1 ] + 1 ⋅ [ 2 3 ] \vec x=\begin{bmatrix}1\\2\\\end{bmatrix}=-1\cdot\begin{bmatrix}1\\1\\\end{bmatrix}+1\cdot\begin{bmatrix}2\\3\\\end{bmatrix} x =[12]=1[11]+1[23]
然后,将特征值与对应系数(特征值)相乘, 得到:
y ⃗ = − 1 ⋅ 2 ⋅ [ 1 1 ] + 1 ⋅ 1 ⋅ [ 2 3 ] = [ 0 1 ] \vec y = -1\cdot2\cdot\begin{bmatrix}1\\1\\\end{bmatrix}+1\cdot1\cdot\begin{bmatrix}2\\3\\\end{bmatrix}=\begin{bmatrix}0\\1\\\end{bmatrix} y =12[11]+11[23]=[01]
这与 y ⃗ = A x ⃗ = [ 0 1 ] \vec y=\pmb A\vec x=\begin{bmatrix}0\\1\\\end{bmatrix} y =AAAx =[01]相同,表示 A \pmb A AAA对向量 x ⃗ \vec x x 的线性变换相当于 A \pmb A AAA的特征值和特征向量与 x ⃗ \vec x x 的线性组合, 可以说在线性变换时, 矩阵的特征值和特征向量可以代表矩阵.
矩阵所充当的映射, 实际上就是对特征向量的缩放, 每个特征向量的缩放程度就是特征值.
x ⃗ \vec x x 向量表示特征向量的线性组合(相当于以特征向量为基),得到相应的特征向量的权重.然后,每个权重与特征值相乘, 就是这个映射最本质的缩放操作.


特征值求法

奇异方阵

相似矩阵

定义:若 A \pmb A AAA B \pmb B BBB均为n阶方阵, 若存在一个可逆矩阵 P \pmb P PPP, 使 P − 1 ⋅ A ⋅ P = B \pmb P^{-1}\cdot A \cdot \pmb P=B PPP1APPP=B, 则称 A \pmb A AAA B \pmb B BBB相似

对角化


定义及证明
定义:假设一个 n × n n\times n n×n阶的方阵 A \pmb A AAA,有 n n n个线性无关的特征向量 v 1 , v 2 , ⋯   , v n v_1, v_2,\cdots, v_n v1,v2,,vn, 所有的特征向量组成特征向量矩阵 S \pmb S SSS, 则有 S − 1 A S = Λ \pmb S^{-1}\pmb A\pmb S=\Lambda SSS1AAASSS=Λ, 其中 Λ \Lambda Λ为由 S \pmb S SSS对应的特征值组成的对角矩阵, 即:
S − 1 A S = Λ = [ λ 1 ⋱ λ n ] \pmb S^{-1}\pmb A\pmb S=\Lambda=\begin{bmatrix} \lambda_1\\ &\ddots\\ &&\lambda_n \end{bmatrix} SSS1AAASSS=Λ=λ1λn
证明:
A S = A [ v 1 v 2 v 3 ⋯ v n ] = [ λ 1 v 1 λ 2 v 2 λ 3 v 3 ⋯ λ n v n ] = S [ λ 1 ⋱ λ n ] = S Λ \pmb A\pmb S=\pmb A\begin{bmatrix}v_1&v_2&v_3&\cdots&v_n\end{bmatrix}=\begin{bmatrix}\lambda_1v_1&\lambda_2v_2&\lambda_3v_3&\cdots&\lambda_nv_n\end{bmatrix}=\pmb S\begin{bmatrix}\lambda_1\\&\ddots\\&&\lambda_n\end{bmatrix}=\pmb S\pmb{\Lambda} AAASSS=AAA[v1v2v3vn]=[λ1v1λ2v2λ3v3λnvn]=SSSλ1λn=SSSΛΛΛ

S − 1 A S = S − 1 S Λ = Λ \pmb S^{-1}\pmb A\pmb S=\pmb S^{-1}\pmb S\pmb{\Lambda}=\pmb{\Lambda} SSS1AAASSS=SSS1SSSΛΛΛ=ΛΛΛ

A = S Λ S − 1 \pmb A=\pmb S\pmb {\Lambda}\pmb S^{-1} AAA=SSSΛΛΛSSS1(矩阵对角化)


例:
A = [ − 3 2 − 10 6 ] \pmb A=\begin{bmatrix} -3&2\\-10&6\\\end{bmatrix} AAA=[31026]
对角化 A \pmb A AAA.

解:
A − λ E = [ − 3 − λ 2 − 10 6 − λ ] \pmb A-\lambda\pmb E=\begin{bmatrix}-3-\lambda&2\\-10&6-\lambda\end{bmatrix} AAAλEEE=[3λ1026λ]

( − 3 − λ ) ( 6 − λ ) + 20 = 0 (-3-\lambda)(6-\lambda)+20=0 (3λ)(6λ)+20=0

λ 1 = 1 ,     λ 2 = 2 \lambda_1=1, ~~~\lambda_2=2 λ1=1,   λ2=2

对应 λ 1 \lambda_1 λ1的特征向量 v 1 v_1 v1:

[ − 4 2 − 10 5 ] ⋅ v 1 = 0 ,     v 1 = [ 1 2 ] \begin{bmatrix}-4&2\\-10&5\end{bmatrix}\cdot v_1=0, ~~~v_1=\begin{bmatrix}1\\2\end{bmatrix} [41025]v1=0,   v1=[12]

对应 λ 2 \lambda_2 λ2的特征向量 v 2 v_2 v2:

[ − 5 2 − 10 4 ] ⋅ v 2 = 0 ,     v 2 = [ 2 5 ] \begin{bmatrix}-5&2\\-10&4\end{bmatrix}\cdot v_2=0, ~~~v_2=\begin{bmatrix}2\\5\end{bmatrix} [51024]v2=0,   v2=[25]

P = [ v ⃗ 1 v ⃗ 2 ] = [ 1 2 2 5 ] \pmb P=\begin{bmatrix}\vec v_1&\vec v_2\end{bmatrix}=\begin{bmatrix}1&2\\2&5\\\end{bmatrix} PPP=[v 1v 2]=[1225]

P − 1 = [ 5 − 2 − 3 1 ] \pmb P^{-1}=\begin{bmatrix}5&-2\\-3&1\end{bmatrix} PPP1=[5321](二阶时, 主对角线对换, 负对角线变号/det( P ))


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值