一、样本和总体
符号表示:
μ代表总体均值
x拔代表样本均值
注意:均值不一定能很好地表示数据,虽然它是衡量数据集中趋势的一种方式,但并不能很好的表示所有数据。如下图所示,虽然两个总体的均值都是2.5,但是第一个总体的数据都是接近2.5,而第二个总体的数据却都是远离2.5的。
为了解决上述问题,可以采用方差来描述。
总体方差:σ²代表方差 σ²=∑(x-均值)²/所有总体数据个数
样本方差:s²=Σ(x-均值)²/样本(取样出来的)数据个数。
但是有时候样本方差可能会造成一个问题。当选的样本都远离总体的均值,那么根据样本点得到的方差即使小,也不满足实际的需要,无法根据样本推测总体。也就是说,用上面计算方差的公式有可能会导致误差,低估总体方差。
有一个更好的公式叫做总体方差的无偏估计或者叫无偏样本方差。公式如下:
S²=s²=Σ(x-均值)²/样本(取样出来的)数据个数-1
二、随机变量
随机变量分为离散型随机变量和连续型随机变量
离散型随机变量举例如下:
明天是否会下雨用X表示:X={1,下雨