中心极限定理
样本均值的抽样分布:随着样本容量的增大,样本组均值、样本和的频率呈现正态分布(在具有良好定义的均值和标准差时)
正峰态:宽
负峰态:窄
随着样本容量n增大,样本均值的分布发生变化:
当n越大,分布越接近标准正态分布,标准差更小,峰度、偏度更接近零
均值标准误差:常用于样本数据估计总体时
σ
‾
x
‾
2
=
σ
2
n
\overline \sigma^2_{\overline x}=\frac{\sigma^2}{n}
σx2=nσ2
σ ‾ x ‾ = σ n \overline \sigma_{\overline x} = \frac{\sigma}{\sqrt n} σx=nσ
样本均值抽样
样本均值抽样分布的均值等于原分布的均值
S S S :样本标准差,对 σ \sigma σ 的最好估计
伯努力分布
伯努力分布的均值和方差:
μ
=
(
1
−
p
)
∗
0
+
p
∗
1
σ
2
=
(
1
−
p
)
∗
(
0
−
p
)
2
+
p
∗
(
1
−
p
)
2
=
(
1
−
p
)
∗
p
2
+
p
∗
(
1
−
p
)
2
=
p
−
p
2
=
p
(
1
−
p
)
\mu= (1-p)*0+p*1\\ \sigma^2= (1-p)*(0-p)^2+p*(1-p)^2\\= (1-p)*p^2+p*(1-p)^2\\= p-p^2\\= p^(1-p)
μ=(1−p)∗0+p∗1σ2=(1−p)∗(0−p)2+p∗(1−p)2=(1−p)∗p2+p∗(1−p)2=p−p2=p(1−p)
已知样本均值、样本方差、样本数,结合z-score、正态分布表、t分布表可以对总计进行估计
置信区间
增加样本容量,可以在保证置信度的情况下,缩小置信区间
当样本量n很小时,如果使用正态分布进行估计通常结果很差。(一般要n大于30)这时可以通过t分布完成对小样本容量的估计