如何理解95%置信区间

如何正确理解95%置信区间

科技论文里经常会出现【95%CI】的评价,这个评价到底有什么意义,他和68-95-99.7法则的关系是什么,可能很多人没有清楚的理解,包括之前写论文评价95%CI的自己。

目的

理解【95%CI置信区间】的含义,以及他和 【68-95-99.7%法则 】的关系。

什么是置信区间

首先明白置信区间的定义是什么:

在统计学中,一个概率样本的置信区间(英语:Confidence interval,CI),是对产生这个样本的总体的参数分布(Parametric Distribution)中的某一个未知参数值,以区间形式给出的估计。相对于点估计(Point Estimation)用一个样本统计量来估计参数值,置信区间还蕴含了估计的精确度的信息。 1


Keyword

  • 置信区间并非评价该组样本的发生概率
  • 置信区间是通过概率样本来推测 未知的总体参数
  • 置信区间给出的是对于总体参数的 区间 估计,而非 估计

置信区间计算例

这里假设有10个人的体重作为总体参数,选5个人作为一组抽样标本,来评价他们的平均值。10个人的体重分别如下表

路人1路人2路人3路人4路人5路人6路人7路人8路人9路人10
50.454.655.258.464.365.569.171.474.588.3

我们可以知道总体参数的平均值为65.17
从这10个人的总体参数里,取出5个人作为抽样标本并计算其平均值。

  • 路人1~5作为标本1,其平均值为56.58.
  • 路人3~7作为标本2,其平均值为62.5.
  • 路人3,4,7,8,10作为标本3,其平均值为68.48.
总平均标本1平均标本2平均标本3平均
65.1756.5862.568.48

结果可以知道,任意一组标本跟总体平均都不一致
我们不能用标本的 点推测 来推测总体数据的平均值。
当然,很多人会说这理所应当的,这也是总所周知的事实。

一组抽样标本,他的平均值并不能代表总体数据的平均值

换个思想,更简单的话就是:
当我们在实验室对10台复合钢做材料实验,能获得这一组强度数据,并进行数据整理的时候,得到的是这一组标本的数据。不能代表这个复合钢全体的数据,如何通过这组标本获得的数据,来推测复合钢的性质,这时我们可能就需要用 区间推测 来评价复合钢的强度。

这个时候我们就可以说,复合钢强度平均值是在这个 区间范围 以内,这个平均值不用点表示,而用 区间 来表示。

95%置信区间表示了什么

进入正题,论文里经常能看到的95%置信区间(95% Confidence Interval; 95%CI)到底代表了什么意思。


95%置信区间是通过标本数据平均值对总体平均值的区间推测指标


  • 换句话说,95%置信区间是评价总体平均值的一个范围。我们进行100组实验,只有5组实验数据的平均值是落在这个范围之外的。

置信区间怎么求得的

知道了95%置信区间表示了什么意思之后,来看看置信区间是怎么通过计算获得的。要理解95%CI,首先我们得先理解标准误差(Standard Error; SE)。

标准误差SE和标准偏差SD很相似。
注意不要搞混淆,这里有说明他们的区别。

简单的说

标 准 误 差 S E = 标 准 偏 差 S D / ( n ) 标准误差SE=标准偏差SD/\sqrt (n) SE=SD/( n)

这里的n代表实验体个数。

这里可以看出,实验体个数越多,SE就越小

举个简单的例子
假如想知道20岁的平均身高。
这个时候研究组A随机抽取了50个人获得了数据,研究组B随机抽取了1000个人获得了数据。
但是这两组数据测得了完全一样的数据:平均值为165cm,标准偏差为20。
我们如何评价研究组A和B的数据,能认为他们两组数据一模一样吗。

这个时候大家凭感觉也知道抽取1000个人的研究组B的可靠性比较高。

研究组名样本数平均值标准偏差SD标准误差SE
研究组A5016520 20 / ( 50 ) 20/\sqrt(50) 20/( 50)=2.83
研究组B100016520 20 / ( 1000 ) 20/\sqrt(1000) 20/( 1000)=0.63

从上面的数据我们可以看出 离散程度完全一样的两组数据中,样本数的多少所表达出的对数据的可靠程度也不一样。
这里我们可以得出重要的结论:

标准偏差代表了一组数据的离散程度,而标准误差代表了这个平均值的可靠程度。

通过标准误差来求得置信区间

通过上面的结论,我们知道了标准误差SE可以代表了平均值的可靠程度,意味着我们可以通过标准误差来推测总体数据的平均值。
理解了标准误差SE,95%CI也能很好的理解。
数据服从正太分布的时候,95%CI可以通过如下式子计算获得:

95%CI=1.96*SE

所以95%置信区间为:平均值±1.96SE

为什么是1.96的系数怎么计算,核心思想是跟【68-95-99.7法则】是一样的, 是通过对概率密度函数积分所获得。
在这里插入图片描述
首先,我们获得了总体数据里的一组样本,我们可以从中计算出其平均值。
假定有多个样本有分别不同的平均值,此时我们就可以得到总体数据对于平均值的分布。
当我们把样本的平均值,当作一组样本里的一个数据时。我们就可以用正太分布的性质来评价样本的平均值。也就是n组样本里大约有68%的平均值落在总体样本里的 平均值±SE 的范围里。95.5%的平均值落在 平均值±2SE 的范围里。

所以95%的置信区间为 平均值 μ \mu μ ± 1.96SE


总结

  • 标准偏差用来评价一组数据内的离散程度,可以通过【68-95-99.7法则】推测数据的分布范围
  • 标准误差是评价一组样本平均值的可靠性,并通过它可以推测总体数据的平均值的可靠范围。
  • 95%的置信区间意思为,假设做了100组实验,100组实验中有5组实验的平均值是不在置信区间的范围内。
  • 95%置信区间的计算式为: 95%CI= μ \mu μ ±1.96*SE

知识共享许可协议
本作品采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议进行许可。


  1. en.wikipedia.org/wiki/Confidence_interval ↩︎

  • 56
    点赞
  • 181
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 10
    评论
在MATLAB中,95%置信区间是一种用于估计参数的区间范围,该区间范围表示我们对于参数真实值的置信程度为95%。具体计算95%置信区间的方法取决于具体的应用场景和数据分析方法。根据引用和引用[2]提供的信息,MATLAB提供了多种函数和工具箱用于计算和绘制置信区间。 一种常见的方法是使用线性回归或多项式拟合函数进行拟合,然后通过计算拟合曲线的标准误差来估计置信区间。例如,可以使用polyfit函数进行多项式拟合,并使用polyval函数计算拟合曲线的值。然后,可以使用confint函数计算置信区间。 另一种方法是使用非线性回归函数,如nlinfit函数进行拟合,并使用nlparci函数计算置信区间。这种方法适用于多元非线性回归问题。 具体的代码实现和计算方法可以参考引用和引用提供的相关资料。这些资料中包含了MATLAB的函数用法和示例,可以帮助您更好地理解和应用95%置信区间的计算方法。 总结起来,MATLAB提供了多种函数和工具箱用于计算和绘制置信区间,具体的方法取决于数据分析的需求和模型选择。您可以参考引用和引用提供的资料来了解更多关于MATLAB中计算95%置信区间的方法。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* [MATLAB 离散数据点拟合曲线并且进行相关置信区间(默认95%)的绘制](https://blog.csdn.net/ONERYJHHH/article/details/114417845)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] - *3* [Matlab 数组与矩阵操作指南](https://download.csdn.net/download/weixin_41784475/88226798)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]
评论 10
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Cykaede

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值