期望即均值,表示随机变量平均取值的大小。用E(x)E(x)E(x)表示。
在x离散情况下,设x=[x1,x2,⋯ ,xk]x=[x_1, x_2,\cdots, x_k]x=[x1,x2,⋯,xk],x出现的概率为p(x)p(x)p(x),则
E(x)=∑i=1kxip(xi)E(x)=\sum_{i=1}^k x_i p(x_i) E(x)=i=1∑kxip(xi)
在x连续的情况下,设x对应的概率密度函数为f(x)f(x)f(x),则
E(x)=∫−∞+∞xf(x)dxE(x)=\int_{- \infty}^{+\infty}xf(x)dxE(x)=∫−∞+∞xf(x)dx
方差是用来衡量一组数据的离散程度。用varvarvar表示,计算公式为:
var(x)=∑i=1k(xi−E(x))2k var(x) =\dfrac{\sum_{i=1}^k(x_i-E(x))^2}{k}var(x)=k∑i=1k(xi−E(x))2
协方差是对两个随机变量联合分布线性相关程度的一种度量。当协方差的值大于0时,表示两个变量成正相关;当协方差的值小于0时,表示两个变量成负相关;当协方差的值为0时,两个变量线性无关。用公式表示为:
conv(X,Y)=E((X−E(X))(Y−E(Y)))conv(X,Y)=E((X-E(X))(Y-E(Y)))conv(X,Y)=E((X−E(X))(Y−E(Y)))
由于随机变量取值范围不同,所以两个协方差之间没有可比性。假设X、Y和ZX、Y和ZX、Y和Z分别为三个随机变量,我们无法直接通过conv(X,Y)和conv(X,Z)conv(X,Y)和conv(X,Z)conv(X,Y)和conv(X,Z)来衡量变量X与谁相关性更强,因此定义了相关系数η\etaη,即对协方差除以标准差,进行标准化:
η=conv(X,Y)var(X)⋅var(Y)\eta=\dfrac{conv(X,Y)}{\sqrt{var(X)}\cdot\sqrt{var(Y)}}η=var(X)⋅var(Y)