统计基础(七)置信区间

1.基本概念

在这里插入图片描述

1.1 统计推断 statistical inferences

估计

  • 点估计 point estimation
  • 区间估计 interval estimation

假设检验

1.2 估计量和估计

估计量 estimator

  • 估计器是用于估计未知参数值的任何统计量;它为随机变量。

估计 estimate

  • 估计值是来自特定样本的估计值的数值;它提供了未知参数值的最佳猜测;它是固定的,而不是随机的

1.3进行统计推断所需估计器的随机3个主要元素

估计器的期望值
估计器的标准误差
估计器的抽样分布
在这里插入图片描述

2.参数估计

2.1 点估计 Point Estimation

是用样本统计量来估计总体参数,因为样本统计量为数轴上某一点值,估计的结果也以一个点的数值表示,所以称为点估计。点估计虽然给出了未知参数的估计值,但是未给出估计值的可靠程度,即估计值偏离未知参数真实值的程度。

2.2 区间估计 Interval Estimation

给定置信水平,根据估计值确定真实值可能出现的区间范围,该区间通常以估计值为中心,该区间则为置信区间。。
▪所有区间估计量的一般公式为:Point estimator ± error bound
在这里插入图片描述

2.3 术语

Target parameter

  • 是我们想要估计的未知总体参数

Confidence coefficient (1 – 𝜶)

  • 一个区间估计包含总体参数估计量是否重复使用一个非常大的次数

Confidence level: 100(1 – 𝜶)%

  • 置信系数用百分比表示
  • 典型值是90%,95%,99%

𝜶

  • 目标参数不在区间内的概率

Error bound / margin of error

  • 是我们愿意容忍的抽样误差

3.置信区间

“我们有95%的信心认为眼前这个样本统计值(可以是平均值、回归系数或净回归系数)的置信区间包含总体参数”

  • 如果我们采用同一个抽样程序,从一个总体中抽到样本量相同的无数个样本,每个样本中得到一个样本统计值,每个样本统计值有一个置信区间,假设这无数个置信区间是百分之百,那么其中95%包括总体参数,我们有95%的信心认为眼前这个置信区间包括总体参数,也就是说,我们有95%的信心认为眼前这个置信区间包括总体参数是那95%中的一个。

3.1 z-interval

假设σ已知或总体呈正态分布
μ的Interval estimat:μ的区间估计值
μ的Interval estimator: X ˉ ± Z α / 2 σ n \bar{X}\pm Z_{\alpha/2}\frac{\sigma}{\sqrt{n}} Xˉ±Zα/2n σ

影响间隔宽度的因素-精度
L =置信区间的下界,U =置信区间的上界。
E =误差范围/误差范围
W =置信区间宽度

(U + L2)/2 =点估计量
(U - L2)/2= E,其中E为误差界
W = 2E

•标准差越大,W越大
•样本量越大,W越小
•置信水平越大,W越大
在这里插入图片描述
在这里插入图片描述

3.2 t interval

假设σ未知或总体呈正态分布
Interval estimator of μ: X ˉ ± t α / 2 s n \bar{X}\pm t_{\alpha/2}\frac{s}{\sqrt{n}} Xˉ±tα/2n s其中自由度df=n-1
student’s t table

学生t分布的特征
▪它是基于这样的假设:感兴趣的人群是正常的,或接近正态的
▪它是连续分布和钟形对称的
▪没有一个t分布,而是一个t分布的“族”。都有相同的均值0;即,E(t) = 0。但其标准差随样本容量n的不同而不同。
▪确切的t分布的形状取决于一个参数称为自由度,𝜈
▪Var(t) =v/(v−2)> 1,因此t分布在中心比标准正态分布更加分散和平坦。但随着n的增加,表示t分布的曲线趋于标准正态分布;即t∞= z
在这里插入图片描述
评估常态
▪正常分位数图/ QQ图:如果曲线是一条直线,那么它表示正常状态。
▪柱状图或茎叶图:检查柱状图是否有一个对称的钟形。
▪四分位范围应接近标准差的1.34898倍,即IQR≈1.34898s
在这里插入图片描述

3.3 p的的z区间:

假设满足二项式条件:

  • 样本数据是计数的结果。
  • 只有两种可能的结果。
  • 每次试验成功的概率都是一样的
  • 试验是独立的。

样本容量足够大;即n > 25, np > 5, nq > 5。这个条件允许我们调用中心极限定理,并使用标准正态分布,即z,来完成置信区间
interval estimator of p: p ^ ± Z α / 2 p ^ q ^ / n \hat{p}\pm Z_{\alpha/2}\sqrt{\hat{p}\hat{q}/{n}} p^±Zα/2p^q^/n
在这里插入图片描述

4.Determining Sample Size

在这里插入图片描述

4.1determining sample size - μ

为了确定所需的样本量,我们必须知道:

  • 所需的水平的信任度(1 -α),这决定了临界值,Zα/ 2
  • 误差范围(或误差限制)E
  • 标准偏差σ
  • 如果σ是未知的,可以通过选择一个实验样本,用样本标准差s估计σ
    σ=range/4
    E = Z α / 2 σ n ⟹ n = ( Z α / 2 σ E ) 2 E=Z_{\alpha/2}\frac{\sigma}{\sqrt n} \Longrightarrow n=({\frac{Z_{\alpha/2}\sigma}{E}})^2 E=Zα/2n σn=(EZα/2σ)2
    在这里插入图片描述

4.2determining sample size - p

要确定p所需的样本量,你必须知道:
▪所需的水平的信心(1 -α),这决定了临界值,Zα/ 2
▪误差范围(或误差限制
▪感兴趣事件的真实比例,p
如果p是未知的,可以选择试验样品和估计与样本比例p或0.5
E = Z α / 2 p q n ⟹ n = p q ( Z α / 2 E ) 2 E=Z_{\alpha/2}\sqrt{\frac{pq}{n}} \Longrightarrow n=pq({\frac{Z_{\alpha/2}}{E}})^2 E=Zα/2npq n=pq(EZα/2)2
在这里插入图片描述
在这里插入图片描述

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
KM生存曲线是一种用于分析生存数据的统计方法,常用于描述事件发生时间的概率分布。R语言中有多种函数可以实现KM生存曲线的计算与绘制,如survfit()函数。 而置信区间是用于估计样本数据所代表的总体特征的一种统计量。在生存分析中,置信区间可以用来评估生存曲线的不确定性程度。 对于KM生存曲线,常用的方法是通过Greenwood公式计算标准误差,然后以此为基础计算置信区间。一般常见的置信水平有95%和99%。 以R语言为例,可以使用survfit()函数计算生存曲线,并通过summary()函数获取生存曲线的关键统计指标,包括置信区间。示例代码如下: ```R # 导入生存分析包 library(survival) # 创建生存数据 time <- c(10, 20, 30, 40, 50) event <- c(1, 1, 0, 1, 0) data <- data.frame(time, event) # 计算生存曲线 fit <- survfit(Surv(time, event) ~ 1, data) # 打印生存曲线的关键统计指标 summary(fit) # 获取生存曲线的置信区间 conf.int <- survfitci(fit) # 打印置信区间 print(conf.int) ``` 以上代码中,我们首先导入了survival包,创建了一个包含观测时间和事件数据的数据框。然后使用survfit()函数对数据进行生存分析,并使用summary()函数获得了生存曲线的关键统计指标。最后,使用survfitci()函数计算了生存曲线的置信区间。 需要注意的是,具体的实现方法可能因R语言版本和使用的包而有所不同,以上只是一种示例。希望对你有所帮助!

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值