在网上查了好久,自己写一个吧。
课本上说协方差阵对角线上是各个变量的方差,然而在numpy中通过np.cov(X)得到的协方差矩阵,其对角线线上的值不是np.var()计算出来的值。根本原因在于,np.cov(X)是在数理统计背景下计算的,得到的方差是样本方差,而不是平常意义下的方差。
嗯,不准确的讲,均值、方差、协方差。在数理统计中,除了均值的计算方式不变之外,其余的两个都是除以
,而不是
。这样就可以解释出现上面问题的原因了。
两个随机变量
,现在有两个观测数据
。每个随机变量可以看作一个特征,因此有
,数据矩阵如下
样本均值的定义及python实现
数学定义:
,
是随机变量
的