基础统计知识补充:
三者关系图
叙述
方差:一维:
Cov(X,X)=Var(X)=∑(Xi−X¯)(Xi−X¯)n−1
协方差:二维:
Cov(X,Y)=∑(Xi−X¯)(Yi−Y¯)n−1
X和Y代表两个维度,i=1,2,…,n代表n个样本
协方差体现了两个维度正负相关性,值的大小一定程度上体现其程度(受量纲影响)。
协方差阵:p维度数据,得P*P的对称矩阵,对称原因:
Cov(X,Y)=Cov(Y,X)
相关系数矩阵:标准化后的协方差阵,消量纲。理解如下:
Cor(X,Y)=Cov(X,Y)D(X)−−−−−√D(Y)−−−−−√
分解:
Cor(X,Y)=1n−1∑Xi−X¯¯¯D(X)−−−−−√∗Yi−Y¯¯¯D(Y)−−−−−√
每个数都除以 D(X)−−−−−√ 即均方差距离 , 消除量纲影响。将其变换在0-1之间。
因协方差能够反映两变量之间的线性相关性(正相关,负相关,不相关)。
所以消除量纲后,则能反映两变量的相关程度。
一般判断:r < 0.4 低度线性相关;0.4 < r < 0.7中度线性相关;r > 0.9高度线性相关。
与协方差相关算法(不定期更)
马氏距离(距离判别):
D2(x,y)=(x−y)′∑−1(x−y)
其中x,y为样本
主成分分析,条件:主成分之间协方差为0.线性不相关。