1.协方差
1.1 均值、标准差、方差
均值: X ˉ = E ( X ) = 1 n ∑ i = 1 n X i \bar{X} = E(X) = \frac{1}{n}\sum_{i=1}^{n}X_i Xˉ=E(X)=n1∑i=1nXi
方差: s 2 = D ( X ) = 1 n − 1 ∑ i = 1 n ( X i − X ˉ ) 2 s^2=D(X)=\frac{1}{n-1}\sum_{i=1}^{n}(X_i-\bar{X})^2 s2=D(X)=n−11∑i=1n(Xi−Xˉ)2
标准差: s = D ( X ) = 1 n − 1 ∑ i = 1 n ( X i − X ˉ ) 2 s=\sqrt{D(X)}=\sqrt{ \frac{1}{n-1}\sum_{i=1}^{n}(X_i-\bar{X})^2} s=D(X)=n−11∑i=1n(Xi−Xˉ)2
均值描述样本集合的中间点,标准差描述样本集合的各个样本点到均值的距离之平均。
除以n-1而不是除以n,是因为这样能使我们以较小的样本集更好的逼近总体的标准差,即“无偏估计”。
1.2 协方差
标准差和方差一般是用来描述一维数据的,协方差是用来度量两个随机变量关系的统计量。
协方差: c o v ( X , Y ) = 1 n − 1 ∑ i = 1 n ( X − X i ˉ ) ( Y − Y i ˉ ) cov(X,Y)=\frac{1}{n-1}\sum_{i=1}^{n}(X-\bar{X_i})(Y-\bar{Y_i}) cov(X,Y)=n−11∑i=1n(X−Xiˉ)(Y−Yiˉ)
上式是求 ( X − X i ˉ ) ( Y − Y i ˉ ) (X-\bar{X_i})(Y-\bar{Y_i}) (X−Xiˉ)(Y−Yiˉ)的均值,所以还可以写做:
c o v ( X , Y ) = E [ ( X − E ( X ) ) ( Y − E ( Y ) ) ] = E ( X Y ) − E ( X ) E ( Y ) cov(X,Y)=E[(X-E(X))(Y-E(Y))]=E(XY)-E(X)E(Y) cov(X,Y)=E[(X−E(X))(Y−E(Y))]=E(XY)−E(X)E(Y)
协方差的性质:
- c o v ( X , X ) = v a r ( X ) cov(X,X)=var(X) cov(X,X)=var(X)
- c o v ( X , Y ) = c o v ( Y , X ) cov(X,Y)=cov(Y,X) cov(X,Y)=cov(Y,X)
- c o v ( X , Y ) = c o v ( Y , X ) cov(X,Y)=cov(Y,X) cov(X,Y)=cov(Y,X)
- c o v ( A X + C , B Y ) = A B c o v ( X , Y ) cov(AX+C,BY)=ABcov(X,Y) c