使用Python计算方差,协方差和相关系数
[TOC]
数学定义
期望
设随机变量\(X\)只取有限个可能值\(a_i (i=0, 1, ..., m)\),其概率分布为\(P (X = a_i) = p_i\). 则\(X\)的数学期望,记为\(E(X)\)或\(EX\),定义为:
\[E(X) = \sum\limits_ia_ip_i\]
方差
设\(X\)为随机变量,分布为\(F\),则
\[Var(X) = E(X-EX)^2 \]
称为\(X\)(或分布\(F\))的方差,其平方根\(\sqrt{Var(X)}\)称为\(X\)(或分布\(F\))的标准差.
方差和标准差是刻画随机变量在其中心位置附近散布程度的数字特征。
注意:样本方差和总体方差的区别
统计学上对于样本方差的无偏估计使用如下公式计算:
\[s^2 = \frac{1}{n-1} \sum\limits_{i=1}^n(x_i -\bar{x})^2 \]
前面有一个系数\(\frac{1}{n-1}\),当时当样本数量很大的时候,\(\frac{n}{n-1}\)近似为1,可以直接使用总体方差公式进行计算。
协方差
协方差用来刻画两个随机变量\(X, Y\)之间的相关性,定义为
\[Cov(X, Y) = E[(X - EX)(Y-EY)]\]
如果协方差为正,说明X,Y同向变化,协方差越大说明同向程度越高;如果协方差为负,说明X,Y反向运动,协方差