最近写统计学习的作业,要用到降维方法,一股脑把 机器学习实战 上的代码敲上去就好了,要求中还要尝试其他降维方法,查了好多发现LDA可以,但是LDA要用到计算协方差矩阵,这玩意我之前就糊里糊涂的,协方差是变量之间的,还是样本之间的,百度了numpy里的资料,又看了很多博文,这才清楚。
1.协方差定义
多维随机变量:,注意是列向量,其有n个属性(或者n个变量variable、n个特征、n维),可不是n个样本!
通常我们会有一些样本,每个样本可以看成一个多维随机变量的样本点,
我们需要分析任意两个维度之间的线性关系,也就是计算各维度两两之间的协方差,
这样各协方差组成了一个n×n的矩阵,称为协方差矩阵,所以协方差矩阵的维数和样本的个数没关系!
多个样本中 ,协方差矩阵的第i行第j列元素表示第i维特征与第j维特征的协方差: