最近正好看到了PCA,用到了协方差矩阵的一些知识,正好复习一下大学学过的矩阵相关的知识,说起矩阵正好也聊聊本次的主题特征值和特征向量.
数学期望
定义 设X是离散的随机变量,其分布律为 P ( X = x i ) = p i P(X=x_i)=p_i P(X=xi)=pi, i = 1 , 2 , . . . . i=1,2,.... i=1,2,....如果级数 ∑ i = 1 ∞ x i p i \sum_{i=1}^{\infty}x_ip_i ∑i=1∞xipi绝对收敛,则称 E ( X ) = ∑ i = 1 ∞ x i p i E(X)=\sum_{i=1}^{\infty}x_ip_i E(X)=i=1∑∞xipi为离散型随机变量X的数学期望,也称作期望或均值.
- 这里就不给出连续型的随机变量的期望,只不过是把求和变成求积分.
假如某一个商场,看哪家店的日营业额高,这时可以用数学期望来表示,求每一天的数学期望.
方差
定义 设X是一个随机变量,如果E{[X-E(X)]^2}存在,则称 D ( X ) = E [ X − E ( X ) ] 2 = E ( X 2 ) − E ( X ) 2 D(X)=E{[X-E(X)]^2}=E(X^2)-E(X)^2 D(X)=E[X−E(X)]2=E(X2)−E(X)2为随机变量X的方差,方差的算数平方根为标准差.
公式推导如下: D ( X ) = E [ X − E ( X ) ] 2 = E [ X 2 − 2 X E ( X ) + E ( X ) 2 ] D(X)=E{[X-E(X)]^2}=E[X^2-2XE(X)+E(X)^2] D(X)=E[X−E(X)]2=E[X2−2XE(X)+E(X)2] = E ( X 2 ) − E ( 2 X E ( X ) ) + E ( E ( X ) 2 ) =E(X^2)-E(2XE(X))+E(E(X)^2) =E(X2)−E(2XE(X))+E(E(X)2) = E ( X 2 ) − 2 E ( X ) E ( X ) + E ( X ) 2 =E(X^2)-2E(X)E(X)+E(X)^2 =E(X2)−2E(X)E(X)+E(X)2 = E ( X 2 ) − E ( X ) 2 =E(X^2)-E(X)^2 =E(X2)−E(X)2
- 注意方差是针对一维数据,如果二维怎么办,这时引入新的定义协方差
例如店铺营业额一样,这时想看看那家店铺波动不是特别大,这时候可以看方差.
协方差
定义 设(X,Y)是二维随机变量,如果 E [ [ X − E ( X ) ] [ Y − E ( Y ) ] ] E[[X-E(X)][Y-E(Y)]] E[[X−E(X)][Y−E(Y)]]存在,则称为随机变量X和Y的协方差.经常用 c o v ( X , Y ) = E ( X Y ) − E ( X ) E ( Y ) cov(X,Y)=E(XY)-E(X)E(Y) cov(X,Y)=E(XY)−E(X)E(Y)表示.
公式推导如下: c o v ( X , Y ) = E [ [ X − E ( X ) ] [ Y − E ( Y ) ] ] = E [ X Y − X E ( Y ) − Y E ( X ) + E ( X ) E ( Y ) ] cov(X,Y)=E[[X-E(X)][Y-E(Y)]]=E[XY-XE(Y)-YE(X)+E(X)E(Y)] cov(X,Y)=E[[X−E(X)][Y−E(Y)]]=E[XY−XE(Y)−YE(X)+E(X)E(Y)] = E ( X Y ) − E ( X E ( Y ) ) − E ( Y E ( X ) ) + E ( E ( X ) E ( Y ) ) =E(XY)-E(XE(Y))-E(YE(X))+E(E(X)E(Y)) =E(XY)−E(XE(Y))−E(YE(X))+E(E(X)E(Y)) = E ( X Y ) − E ( X ) E ( Y ) − E ( Y ) E ( X ) + E ( X ) E ( Y ) =E(XY)-E(X)E(Y)-E(Y)E(X)+E(X)E(Y) =E(XY)−E(X)E(Y)−E(Y)E(X)+E(X)E(Y) = E ( X Y ) − E ( X ) E ( Y ) =E(XY)-E(X)E(Y) =E(XY)−E(X)E(Y)
- 注意由于X,Y量纲不同导致,可能受一个变量影响特别大.所以引用了
相关系数
,协方差除以各自的标准差
多维随机变量的协方差矩阵
对多维随机变量
X
=
[
X
1
,
X
2
,
X
3
,
.
.
.
,
X
n
]
T
X=[X1,X2,X3,...,Xn]^T
X=[X1,X2,X3,...,Xn]T,我们往往需要计算各维度两两之间的协方差,这样各协方差组成了一个n×n的矩阵,称为协方差矩阵。协方差矩阵是个对称矩阵,对角线上的元素是各维度上随机变量的方差。我们定义协方差矩阵为Σ,这个符号与求和∑相同,需要根据上下文区分。矩阵内的元素Σij为
Σ
i
j
=
c
o
v
(
X
i
,
X
j
)
=
E
[
(
X
i
−
E
[
X
i
]
)
(
X
j
−
E
[
X
j
]
)
]
Σ_{ij}=cov(Xi,Xj)=E[(Xi−E[Xi])(Xj−E[Xj])]
Σij=cov(Xi,Xj)=E[(Xi−E[Xi])(Xj−E[Xj])]
这样这个矩阵为 Σ = E [ ( X − E [ X ] ) ( X − E [ X ] ) T ] Σ=E[(X−E[X])(X−E[X])^T] Σ=E[(X−E[X])(X−E[X])T]
= [ c o v ( X 1 , X 1 ) c o v ( X 2 , X 1 ) . . . c o v ( X n , X 1 ) c o v ( X 1 , X 2 ) c o v ( X 2 , X 2 ) . . . c o v ( X n , X 2 ) ⋯ ⋯ ⋯ ⋯ c o v ( X 1 , X n ) c o v ( X 2 , X n ) . . . c o v ( X n , X n ) ] = \left[ \begin{matrix}cov(X1,X1) & cov(X2,X1)& ...&cov(Xn,X1)\\ cov(X1,X2)&cov(X2,X2)&...&cov(Xn,X2)\\⋯&⋯&⋯&⋯\\cov(X1,Xn)&cov(X2,Xn)&...&cov(Xn,Xn) \end{matrix} \right] =⎣⎢⎢⎡cov(X1,X1)cov(X1,X2)⋯cov(X1,Xn)cov(X2,X1)cov(X2,X2)⋯cov(X2,Xn)......⋯...cov(Xn,X1)cov(Xn,X2)⋯cov(Xn,Xn)⎦⎥⎥⎤
= [ E [ ( X 1 − E [ X 1 ] ) ( X 1 − E [ X 1 ] ) ] E [ ( X 2 − E [ X 2 ] ) ( X 1 − E [ X 1 ] ) ] . . . E [ ( X n − E [ X n ] ) ( X 1 − E [ X 1 ] ) ] E [ ( X 1 − E [ X 1 ] ) ( X 2 − E [ X 2 ] ) ] E [ ( X 2 − E [ X 2 ] ) ( X 2 − E [ X 2 ] ) ] . . . E [ ( X n − E [ X n ] ) ( X 2 − E [ X 2 ] ) ] . . . . . . . . . E [ ( X 1 − E [ X 1 ] ) ( X n − E [ X n ] ) ] E [ ( X 2 − E [ X 2 ] ) ( X n − E [ X n ] ) ] . . . E [ ( X n − E [ X n ] ) ( X n − E [ X n ] ) ] ] =\left[ \begin{matrix}E[(X1−E[X1])(X1−E[X1])]&E[(X2−E[X2])(X1−E[X1])]&...&E[(Xn−E[Xn])(X1−E[X1])]\\ E[(X1−E[X1])(X2−E[X2])]&E[(X2−E[X2])(X2−E[X2])]&...&E[(Xn−E[Xn])(X2−E[X2])]\\...&...&...\\ E[(X1−E[X1])(Xn−E[Xn])]&E[(X2−E[X2])(Xn−E[Xn])]&...&E[(Xn−E[Xn])(Xn−E[Xn])] \end{matrix} \right] =⎣⎢⎢⎡E[(X1−E[X1])(X1−E[X1])]E[(X1−E[X1])(X2−E[X2])]...E[(X1−E[X1])(Xn−E[Xn])]E[(X2−E[X2])(X1−E[X1])]E[(X2−E[X2])(X2−E[X2])]...E[(X2−E[X2])(Xn−E[Xn])]............E[(Xn−E[Xn])(X1−E[X1])]E[(Xn−E[Xn])(X2−E[X2])]E[(Xn−E[Xn])(Xn−E[Xn])]⎦⎥⎥⎤
- 协方差矩阵能处理多维问题
- 协方差矩阵是对称矩阵,对角线是各个维度的方差
- 协方差矩阵是计算样本中不同维度之间的协方差
- 如果样本矩阵中,列代表的是不同的维度,那么计算协方差时,按照列计算均值
特征值与特征向量
这里引用此博主的博客
特征值和特征向量的几何意义
看到硬生生的定义,模友估计会感到有点迷糊,那超模君就再从几何角度来讲一下它们到底是什么东西:
我们以一个恋爱故事为栗子:
二维公园(坐标轴)里的椅子上有一个孤独的向量v(-2,2),一个忠心(不变)的矩阵A试图从左边搭讪向量v,于是他们坐在一起得到向量Av
他们就开始上谈天文,下聊地理。秀外慧中的向量v彻底迷住了矩阵A,待到离别时,A心里始终放不下v,当v去一个地方的时候,Av(A心里有着v,不是单纯的A)也陪着她去,就这样经历漫长的约会和成长(即下图中的向量v从左边移到右边),终于……
向量v和Av结婚了(共线)!结婚后的向量v多了一份名义,叫做特征向量。而且向量Av的责任也变多了(上图是向量Av相对向量v来说伸长了)。也就是说,向量v与矩阵A的结婚后,向量Av保持忠心(方向)不变,责任变多了或什么东西变少了(进行比例为λ的伸缩)。
那么我们也许会问:什么东西会变少呢?在恋爱中,向量v喜欢去爬山,向量Av喜欢玩游戏,他们一起度过许多美好时光。
结婚后,向量Av的责任变多了,要撑起这一个家,把更多心思花在孩子教育上,兴趣爱好变少了(上图中容易看出这时候向量Av相对向量v来说“缩短”了)。责任对应的特征值大于1(伸长),兴趣爱好对应的特征值小于1(缩短)。
随着时间的流逝(上下移动v)我们还发现,有两条直线上有着v和Av的所有踪迹,这就是他们的生活空间(特征空间)。换句话说,特征空间包含所有的特征向量。
下面的一个类比可以帮助我们更好的理解特征值和特征向量:
如果把矩阵看作是运动,那么特征值就是运动的速度,特征向量就是运动的方向。
特征向量在一个矩阵的作用下作伸缩运动,伸缩的幅度由特征值确定。特征值大于1,所有属于此特征值的特征向量变长;特征值大于0小于1,特征向量缩短;特征值小于0,特征向量缩过了界,反方向到原点那边去了。
为了让模友们看清楚它们的变化,超模君做了几个动图,我们来感受一下吧:
(1)首先,我们通过改变向量v的位置,看看向量Av有什么变化(矩阵A不动噢)
(2)然后,我们不要动向量v,改变矩阵A每一列(通过移动a1和a2),再看看向量Av有什么变化
(3)接下来是见证奇迹的时刻!看看超模君的金手指怎么移动向量v使它变成特征向量吧!(不好意思,在上移的时候手抖了一下)
(4)最后,我们改变矩阵A(通过移动a1和a2),重点看看特征空间(S1和S2)是怎么变化(特征值也会发生变化哟)
3
特征值和特征向量的应用
说了这么多,可能有模友会问:到底特征值和特征向量有什么用呢?不会仅仅用来考试吧!
其实,特征值和特征向量在我们的生活中都是非常普遍的。
(1)可以用在研究物理、化学领域的微分方程、连续的或离散的动力系统中。例如,在力学中,惯量的特征向量定义了刚体的主轴。惯量是决定刚体围绕质心转动的关键数据;
(2)数学生态学家用来预测原始森林遭到何种程度的砍伐,会造成猫头鹰的种群灭亡;
(3)著名的图像处理中的PCA方法,选取特征值最高的k个特征向量来表示一个矩阵,从而达到降维分析+特征显示的方法,还有图像压缩的K-L变换。再比如很多人脸识别,数据流模式挖掘分析等方面。
(4)在谱系图论中,一个图的特征值定义为图的邻接矩阵A的特征值,或者(更多的是)图的拉普拉斯算子矩阵,Google的PageRank算法就是一个例子。
有一句话说得好:“只要有振动就有特征值,即振动的自然频率”。如果你曾经弹过吉他,你已经求解了一个特征值问题。。。
那么,超模君讲了这么多,你们都看懂了吗?