1. 总体、个体、样本
总体是在进行统计分析时,研究对象的全部;
个体是组成总体的每个研究对象;
样本是从总体 X X X中按一定的规则抽出的个体的全部,用 X 1 , X 2 , … , X n X_1,X_2,…,X_n X1,X2,…,Xn表示;
样本中所含个体的个数称为样本容量,用 n n n表示。
就好比要研究一个班的平均身高:
这个班的所有同学的身高就是总体;
A同学的身高就是1个个体;
按一定的规律抽出20个同学的身高研究,这20个同学的身高就是样本;
20就是样本容量,即n=20。
2. 如何用样本估计总体?
(1)选用正确的抽样方法
因为很多时候我们无法选择所有数据进行调查,这时候一般采用从整体中抽取样本进行调研。
抽样方法:简单随机抽样、分层抽样、整群抽样、系统抽样等。
(2)利用样本平均值约等于总体平均值(中心极限定理)
(3)利用总体标准差估计
3. 样本均值、总体均值
1、定义不同
样本均值是指在总体中的样本数据的均值。而总体均值又称为总体的数学期望或简称期望,是描述随机变量取值平均状况的数字特征。包括离散型随机变量的总体均值和连续型随机变量的总体均值。
2、计算依据不同
样本均值的计算依据是样本个数,总体均值的计算依据是总体的个数。一般情况下样本个数小于等于总体个数。
3、代表意义不同
样本均值代表着所抽取的样本的集中趋势,而总体均值代表着全体个体的集中趋势。样本来自总体,但是样本只是总体的一部分,两者不可能完全相等,一般有差异。
4. 方差(variance)
在统计描述中,方差用来计算每一个变量(观察值)与总体均数之间的差异。为避免出现离均差总和为零,离均差平方和受样本含量的影响,统计学采用平均离均差平方和来描述变量的变异程度。
总体方差计算公式:
σ
2
=
∑
(
X
−
μ
)
2
N
\sigma^2=\frac{\sum(X-\mu)^2}{N}
σ2=N∑(X−μ)2
σ
2
\sigma^2
σ2 为总体方差,
X
X
X为变量,
μ
\mu
μ为总体均值,
N
N
N为总体例数。
问题:
为什么要每个数与平均相减再取平方?取它们的差的绝对值不也是可以吗?
答:
比如一组数据:7.5,7.5,10,10,10
另一组数据:6,9,10,10,10
两组数据的平均数显然都是9
他们与平均数的差的绝对值都为6
但,第一组数据的方差=7.5,第二组数据的方差=12
不相等了吧,方差把数据中数值的拨动给扩大了,使得一些很难从其他数据中看到的给显示了出来。
5. 标准差(Std Dev,Standard Deviation)
标准差也被称为标准偏差,它是方差的算术平方根,用 σ σ σ表示。
σ = ∑ ( X − μ ) 2 N \sigma=\sqrt{\frac{\sum(X-\mu)^2}{N}} σ=N∑(X−μ)2
方差和标准差都是衡量一个数据集波动大小的量,方差或标准差越大,数据的波动就越大。
那么问题来了,既然有了方差来描述变量与均值的偏离程度,那又搞出来个标准差干什么呢?
原因是:
方差与我们要处理的数据的量纲是不一致的,虽然能很好的描述数据与均值的偏离程度,但是处理结果是不符合我们的直观思维的。
举个例子:
一个班级里有60个学生,平均成绩是70分,标准差是9,方差是81,成绩服从正态分布,那么我们通过方差不能直观的确定班级学生与均值到底偏离了多少分,通过标准差我们就很直观的得到学生成绩分布在[61,79]范围的概率为0.6826,即约等于下图中的34.2%*2
3σ准则:
在正态分布中 σ σ σ 代表标准差, μ μ μ代表均值, x = μ x=μ x=μ即为图像的对称轴
数值分布在 ( μ − σ , μ + σ ) (μ-σ,μ+σ) (μ−σ,μ+σ)中的概率为0.6827
数值分布在 ( μ − 2 σ , μ + 2 σ ) (μ-2σ,μ+2σ) (μ−2σ,μ+2σ)中的概率为0.9545
数值分布在 ( μ − 3 σ , μ + 3 σ ) (μ-3σ,μ+3σ) (μ−3σ,μ+3σ)中的概率为0.9973
可以认为, Y Y Y的取值几乎全部集中在 ( μ − 3 σ , μ + 3 σ ) (μ-3σ,μ+3σ) (μ−3σ,μ+3σ)区间内,超出这个范围的可能性仅占不到0.3%.
6. 样本方差、总体方差
总体方差有有限总体和无限总体,有自己的真实参数,这个均值是实实在在的真值,在计算总体方差的时候,除以的是N。
样本方差是总体里随机抽出来的部分,用来估计总体(总体一般很难知道),由样本可以得到很多种类的统计量。
疑问:为什么样本方差要除以(n-1)而不是除以n?
答:
样本方差之所以要除以(n-1)是因为这样的方差估计量才是关于总体方差的无偏估计量
1.无偏估计
无偏估计是用样本统计量来估计总体参数时的一种无偏推断。估计量的数学期望等于被估计参数的真实值,则称此估计量为被估计参数的无偏估计,即具有无偏性,是一种用于评价估计量优良性的准则。无偏估计的意义是:在多次重复下,它们的平均数接近所估计的参数真值。
2.有偏估计