意义:协方差是一种用来度量两个随机变量关系的统计量
扩展:协方差矩阵计算的是不同维度之间的协方差
方差是表示样本点到均值点的距离的平方,表示其离散度
方差的公式为:
协方差就可以模仿方差公式得到
所以得到协方差公式:
假设数据集有三个维度x,y,z,则协方差矩阵为
如果结果为正值,则说明两者是正相关的;负值则为负相关。
常用:PCA降维中需要计算相关系数矩阵(即协方差矩阵)
获得协方差矩阵方法:cov是numpy库中计算协方差的函数,可直接调用获得协方差矩阵
data_zs_cov = np.cov(data_zs .T)#cov默认每一行为一个数据属性,所以需要数据转置T函数
或者MATLAB里的库
cov(testData)
可使用python里sklearn.preprocessing的StandardScaler将数据标准差标准化,再求协方差矩阵
data_zs = StandardScaler().fit_transform(data)#处理后数据符合标准正态分布,即均值为0,标准差为1
标准化后的矩阵的协方差矩阵 即为 原始数据的方差矩阵(相关系数矩阵)