confidence intervals
1.基本概念
1.1 统计推断 statistical inferences
估计
- 点估计 point estimation
- 区间估计 interval estimation
假设检验
1.2 估计量和估计
估计量 estimator
- 估计器是用于估计未知参数值的任何统计量;它为随机变量。
估计 estimate
- 估计值是来自特定样本的估计值的数值;它提供了未知参数值的最佳猜测;它是固定的,而不是随机的
1.3进行统计推断所需估计器的随机3个主要元素
估计器的期望值
估计器的标准误差
估计器的抽样分布
2.参数估计
2.1 点估计 Point Estimation
是用样本统计量来估计总体参数,因为样本统计量为数轴上某一点值,估计的结果也以一个点的数值表示,所以称为点估计。点估计虽然给出了未知参数的估计值,但是未给出估计值的可靠程度,即估计值偏离未知参数真实值的程度。
2.2 区间估计 Interval Estimation
给定置信水平,根据估计值确定真实值可能出现的区间范围,该区间通常以估计值为中心,该区间则为置信区间。。
▪所有区间估计量的一般公式为:Point estimator ± error bound
2.3 术语
Target parameter
- 是我们想要估计的未知总体参数
Confidence coefficient (1 – 𝜶)
- 一个区间估计包含总体参数估计量是否重复使用一个非常大的次数
Confidence level: 100(1 – 𝜶)%
- 置信系数用百分比表示
- 典型值是90%,95%,99%
𝜶
- 目标参数不在区间内的概率
Error bound / margin of error
- 是我们愿意容忍的抽样误差
3.置信区间
“我们有95%的信心认为眼前这个样本统计值(可以是平均值、回归系数或净回归系数)的置信区间包含总体参数”
- 如果我们采用同一个抽样程序,从一个总体中抽到样本量相同的无数个样本,每个样本中得到一个样本统计值,每个样本统计值有一个置信区间,假设这无数个置信区间是百分之百,那么其中95%包括总体参数,我们有95%的信心认为眼前这个置信区间包括总体参数,也就是说,我们有95%的信心认为眼前这个置信区间包括总体参数是那95%中的一个。
3.1 z-interval
假设σ已知或总体呈正态分布
μ的Interval estimat:μ的区间估计值
μ的Interval estimator:
X
ˉ
±
Z
α
/
2
σ
n
\bar{X}\pm Z_{\alpha/2}\frac{\sigma}{\sqrt{n}}
Xˉ±Zα/2nσ
影响间隔宽度的因素-精度
L =置信区间的下界,U =置信区间的上界。
E =误差范围/误差范围
W =置信区间宽度
(U + L2)/2 =点估计量
(U - L2)/2= E,其中E为误差界
W = 2E
•标准差越大,W越大
•样本量越大,W越小
•置信水平越大,W越大
3.2 t interval
假设σ未知或总体呈正态分布
Interval estimator of μ:
X
ˉ
±
t
α
/
2
s
n
\bar{X}\pm t_{\alpha/2}\frac{s}{\sqrt{n}}
Xˉ±tα/2ns其中自由度df=n-1
student’s t table
学生t分布的特征
▪它是基于这样的假设:感兴趣的人群是正常的,或接近正态的
▪它是连续分布和钟形对称的
▪没有一个t分布,而是一个t分布的“族”。都有相同的均值0;即,E(t) = 0。但其标准差随样本容量n的不同而不同。
▪确切的t分布的形状取决于一个参数称为自由度,𝜈
▪Var(t) =v/(v−2)> 1,因此t分布在中心比标准正态分布更加分散和平坦。但随着n的增加,表示t分布的曲线趋于标准正态分布;即t∞= z
评估常态
▪正常分位数图/ QQ图:如果曲线是一条直线,那么它表示正常状态。
▪柱状图或茎叶图:检查柱状图是否有一个对称的钟形。
▪四分位范围应接近标准差的1.34898倍,即IQR≈1.34898s
3.3 p的的z区间:
假设满足二项式条件:
- 样本数据是计数的结果。
- 只有两种可能的结果。
- 每次试验成功的概率都是一样的
- 试验是独立的。
样本容量足够大;即n > 25, np > 5, nq > 5。这个条件允许我们调用中心极限定理,并使用标准正态分布,即z,来完成置信区间
interval estimator of p:
p
^
±
Z
α
/
2
p
^
q
^
/
n
\hat{p}\pm Z_{\alpha/2}\sqrt{\hat{p}\hat{q}/{n}}
p^±Zα/2p^q^/n
4.Determining Sample Size
4.1determining sample size - μ
为了确定所需的样本量,我们必须知道:
- 所需的水平的信任度(1 -α),这决定了临界值,Zα/ 2
- 误差范围(或误差限制)E
- 标准偏差σ
- 如果σ是未知的,可以通过选择一个实验样本,用样本标准差s估计σ
σ=range/4
E = Z α / 2 σ n ⟹ n = ( Z α / 2 σ E ) 2 E=Z_{\alpha/2}\frac{\sigma}{\sqrt n} \Longrightarrow n=({\frac{Z_{\alpha/2}\sigma}{E}})^2 E=Zα/2nσ⟹n=(EZα/2σ)2
4.2determining sample size - p
要确定p所需的样本量,你必须知道:
▪所需的水平的信心(1 -α),这决定了临界值,Zα/ 2
▪误差范围(或误差限制
▪感兴趣事件的真实比例,p
如果p是未知的,可以选择试验样品和估计与样本比例p或0.5
E
=
Z
α
/
2
p
q
n
⟹
n
=
p
q
(
Z
α
/
2
E
)
2
E=Z_{\alpha/2}\sqrt{\frac{pq}{n}} \Longrightarrow n=pq({\frac{Z_{\alpha/2}}{E}})^2
E=Zα/2npq⟹n=pq(EZα/2)2