统计基础（七）置信区间

最新推荐文章于 2024-08-23 00:14:15 发布

数据民媛

最新推荐文章于 2024-08-23 00:14:15 发布

阅读量1.7w

点赞数 2

分类专栏： GC of Data Science introduction of statistic 文章标签：统计学

本文链接：https://blog.csdn.net/HoWingjan/article/details/112799810

版权

GC of Data Science 同时被 2 个专栏收录

18 篇文章

订阅专栏

introduction of statistic

8 篇文章

订阅专栏

confidence intervals

1.基本概念
2.参数估计
3.置信区间
4.Determining Sample Size
- 4.1determining sample size - μ
- 4.2determining sample size - p

1.基本概念

在这里插入图片描述

1.1 统计推断 statistical inferences

估计

点估计 point estimation
区间估计 interval estimation

假设检验

1.2 估计量和估计

估计量 estimator

估计器是用于估计未知参数值的任何统计量;它为随机变量。

估计 estimate

估计值是来自特定样本的估计值的数值;它提供了未知参数值的最佳猜测;它是固定的，而不是随机的

1.3进行统计推断所需估计器的随机3个主要元素

估计器的期望值
估计器的标准误差
估计器的抽样分布
在这里插入图片描述

2.参数估计

2.1 点估计 Point Estimation

是用样本统计量来估计总体参数，因为样本统计量为数轴上某一点值，估计的结果也以一个点的数值表示，所以称为点估计。点估计虽然给出了未知参数的估计值，但是未给出估计值的可靠程度，即估计值偏离未知参数真实值的程度。

2.2 区间估计 Interval Estimation

给定置信水平，根据估计值确定真实值可能出现的区间范围，该区间通常以估计值为中心，该区间则为置信区间。。
▪所有区间估计量的一般公式为：Point estimator ± error bound
在这里插入图片描述

2.3 术语

Target parameter

是我们想要估计的未知总体参数

Confidence coefficient (1 – 𝜶)

一个区间估计包含总体参数估计量是否重复使用一个非常大的次数

Confidence level: 100(1 – 𝜶)%

置信系数用百分比表示
典型值是90%，95%，99%

𝜶

目标参数不在区间内的概率

Error bound / margin of error

是我们愿意容忍的抽样误差

3.置信区间

“我们有95%的信心认为眼前这个样本统计值（可以是平均值、回归系数或净回归系数）的置信区间包含总体参数”

如果我们采用同一个抽样程序，从一个总体中抽到样本量相同的无数个样本，每个样本中得到一个样本统计值，每个样本统计值有一个置信区间，假设这无数个置信区间是百分之百，那么其中95%包括总体参数，我们有95%的信心认为眼前这个置信区间包括总体参数，也就是说，我们有95%的信心认为眼前这个置信区间包括总体参数是那95%中的一个。

3.1 z-interval

假设σ已知或总体呈正态分布
μ的Interval estimat：μ的区间估计值
μ的Interval estimator： $\bar{X}\pm Z_{\alpha/2}\frac{\sigma}{\sqrt{n}}$

影响间隔宽度的因素-精度
L =置信区间的下界，U =置信区间的上界。
E =误差范围/误差范围
W =置信区间宽度

(U + L2)/2 =点估计量
(U - L2)/2= E，其中E为误差界
W = 2E

•标准差越大，W越大
•样本量越大，W越小
•置信水平越大，W越大
在这里插入图片描述

3.2 t interval

假设σ未知或总体呈正态分布
Interval estimator of μ: $\bar{X}\pm t_{\alpha/2}\frac{s}{\sqrt{n}}$ 其中自由度df=n-1
student’s t table

学生t分布的特征
▪它是基于这样的假设:感兴趣的人群是正常的，或接近正态的
▪它是连续分布和钟形对称的
▪没有一个t分布，而是一个t分布的“族”。都有相同的均值0;即，E(t) = 0。但其标准差随样本容量n的不同而不同。
▪确切的t分布的形状取决于一个参数称为自由度,𝜈
▪Var(t) =v/(v−2)> 1，因此t分布在中心比标准正态分布更加分散和平坦。但随着n的增加，表示t分布的曲线趋于标准正态分布;即t∞= z
在这里插入图片描述
评估常态
▪正常分位数图/ QQ图:如果曲线是一条直线，那么它表示正常状态。
▪柱状图或茎叶图:检查柱状图是否有一个对称的钟形。
▪四分位范围应接近标准差的1.34898倍,即IQR≈1.34898s

3.3 p的的z区间:

假设满足二项式条件：

样本数据是计数的结果。
只有两种可能的结果。
每次试验成功的概率都是一样的
试验是独立的。

样本容量足够大;即n > 25, np > 5, nq > 5。这个条件允许我们调用中心极限定理，并使用标准正态分布，即z，来完成置信区间
interval estimator of p: $\hat{p}\pm Z_{\alpha/2}\sqrt{\hat{p}\hat{q}/{n}}$
在这里插入图片描述

4.Determining Sample Size

在这里插入图片描述

4.1determining sample size - μ

为了确定所需的样本量，我们必须知道:

所需的水平的信任度(1 -α),这决定了临界值,Zα/ 2
误差范围(或误差限制）E
标准偏差σ
如果σ是未知的，可以通过选择一个实验样本，用样本标准差s估计σ
σ=range/4
$E=Z_{\alpha/2}\frac{\sigma}{\sqrt n} \Longrightarrow n=({\frac{Z_{\alpha/2}\sigma}{E}})^2$

4.2determining sample size - p

要确定p所需的样本量，你必须知道:
▪所需的水平的信心(1 -α),这决定了临界值,Zα/ 2
▪误差范围(或误差限制
▪感兴趣事件的真实比例，p
如果p是未知的，可以选择试验样品和估计与样本比例p或0.5
$E=Z_{\alpha/2}\sqrt{\frac{pq}{n}} \Longrightarrow n=pq({\frac{Z_{\alpha/2}}{E}})^2$
在这里插入图片描述