方差
(variance)是在概率论和统计方差衡量随机变量或一组数据时离散程度的度量。概率论中方差用来度量随机变量和其数学期望(即均值)之间的偏离程度。统计中的方差(样本方差)是每个样本值与全体样本值的平均数之差的平方值的平均数。在许多实际问题中,研究方差即偏离程度有着重要意义。
方差的定义
方差在统计描述和概率分布中各有不同的定义,并有不同的公式。
在统计描述中,方差用来计算每一个变量(观察值)与总体均数之间的差异。为避免出现离均差总和为零,离均差平方和受样本含量的影响,统计学采用平均离均差平方和来描述变量的变异程度。总体方差计算公式:
实际工作中,总体均数难以得到时,应用样本统计量代替总体参数,经校正后,样本方差计算公式:
S^2= ∑(X-
) ^2 / (n-1)
S^2为样本方差,X为变量,
为样本均值,n为样本例数。
S^2为样本方差,X为变量,
在概率分布中,设X是一个离散型
随机变量,若E{[X-E(X)]^2}存在,则称E{[X-E(X)]^2}为X的方差,记为D(X),Var(X)或DX,其中E(X)是X的期望值,X是变量值,公式中的E是期望值expected value的缩写,意为“变量值与其期望值之差的平方和”的期望值。离散型随机变量方差计算公式:
D(X)=E{[X-E(X)]^2}=E(X^2) - [ E(X)]^2
当D(X)=E{[X-E(X)]^2}称为变量X的方差,而
称为标准差
(或
均方差
)。它与X有相同的量纲。标准差是用来衡量一组数据的离散程度的
统计量
对于连续型随机变量X,若其定义域为(a,b),概率密度函数为f(x),连续型随机变量X方差计算公式:
对于连续型随机变量X,若其定义域为(a,b),概率密度函数为f(x),连续型随机变量X方差计算公式:
若X的取值比较集中,则方差D(X)较小,若X的取值比较分散,则方差D(X)较大。
因此,D(X)是刻画X取值分散程度的一个量,它是衡量取值分散程度的一个尺度。
可以使用numpy库来实现(std() 和var()分别计算数组的标准差和方差)
a = nr.normal(0,2.0,(10000,10))//首先产生一个标准差为2.0,方差为4.0的正态分布的随机数组,假设从总体样本中抽取10个样本(上述操作执行10000次)
v1 = np.var(0,axis = 1,ddof=0)//偏样本方差
v2 = np.var(0,axis = 1,ddof=1)//无偏样本方差