经典统计 与 贝叶斯统计介绍

1. 经典统计

经典统计使用频率学派的方法,依赖于样本数据的频率分布进行推断。在经典统计中,参数被认为是固定但未知的,而推断过程主要是基于样本数据的统计性质进行。常见的经典统计方法包括置信区间、假设检验等。

思想:

从样本中 直接观察频率,然后通过该频率来估计总体的参数。

2. 贝叶斯统计

贝叶斯统计使用贝叶斯学派的方法,将参数看作是一个随机变量,并使用先验分布后验分布来进行推断。在贝叶斯统计中,参数的不确定性通过一个先验分布来表示,并通过样本数据更新为一个后验分布。常见的贝叶斯统计方法包括贝叶斯估计、贝叶斯因子等。

思想:

在先验的基础上,结合 “新数据”,给出未知参数。

优点:

在数据少的情况下可以进行推测,数据越多,推测越准确。对所获得的信息可以进行瞬时反应,自动升级的学习功能。

 1. 先验概率

        由 历史知因

先验概率是指在未考虑任何具体观测数据或新信息之前,对某个事件或假设发生的概率的估计。它是基于先前的经验、历史数据、专家判断或者其他背景知识来确定的概率。先验概率反映了我们对事件发生可能性的初始信念或不确定性。

例如:

测试在一次抛硬币实验时的正反面的概率:

在实验开始之前,我们无法给出其结果的概率分布,但是根据历史经验,我们假定正面向上的概率为 0.5, 这个就是先验概率

 2. 后验概率

 后验概率是在观察到某些数据或信息之后,对该事件或假设发生概率的修正后的估计。它是通过将先验概率与新的证据或数据相结合,利用贝叶斯定理计算得出的更新概率。后验概率更加反映实际情况,因为它考虑了新的证据影响。

例如:

对一个个体进行了测试并得到了阳性结果,那么根据这个测试结果以及已知该测试的灵敏度和特异性,可以计算出该个体实际患有该疾病的概率,这就是后验概率。

二者之间的区别与联系:

  • 先验概率是基于先前的经验、历史数据、专家判断或者其他背景知识来确定的概率。后验概率是在观察到某些数据或信息之后,对该事件或假设发生概率的修正后的估计。先验概率的计算较为简单,不涉及贝叶斯公式的使用。后验则需要使用贝叶斯。
  • 后验概率的计算依赖于先验概率,并且两者共同构成了贝叶斯统计推断的基础。通过贝叶斯公式,我们可以根据新的信息或数据对先验概率进行修正,得到更加准确的后验概率。

3. 似然概率

似然概率(likelihood probability)是指,在给定观测数据的条件下,所要推断的参数的取值出现的可能性。似然概率可以用来评估不同参数取值的可能性大小,并通过最大化似然概率来估计最有可能的参数取值。

似然概率与概率的区别在于,概率是在已知参数的情况下计算事件发生的概率,而似然概率则是在已知事件发生的情况下计算参数取值的可能性。

举个例子来说,假设有一枚硬币,我们想要估计它正面朝上的概率p。进行了10次独立的抛硬币的实验,结果有6次正面朝上。这里,似然概率是在已知有6次正面朝上的情况下,求p的取值可能性的函数。我们可以通过似然函数计算不同p取值下的似然概率,并找到使似然概率最大化的p值,从而估计硬币正面朝上的概率。

需要注意的是,似然概率本身并不是表示一个概率,因为它不一定满足概率的性质,例如总和为1。似然概率更多地用于参数估计和模型比较等统计推断中。

公式

公式:

                                                P(H|E) = \frac{P(E|H)*P(H)}{P(E)}

P(H)是先验概率,P(H|E)是后验概率,P(E|H)/P(E)被称为调整因子,先验概率乘以调整因子就得到后验概率。

H表示Hypothesis(假设),E表示Evidence(证据),贝叶斯定理的意义就在于,给定一个先验概率P(H),在出现了证据E的情况下,计算后验概率P(H|E)。

如果P(H)=0,则P(H|E)=0;如果P(H)=1,则P(E|H)=P(E),P(H|E)=1。

也就是说,如果先验概率为0%或100%,那么,无论出现任何证据E,都无法改变后验概率P(H|E)。这对我们看待世界的认知有重大指导意义,因为贝叶斯概率的本质是信念,通过一次次事件,我们可能加强某种信念,也可能减弱某种信念,但如果信念保持100%或0%,则可以做到对外界输入完全“免疫”。

 

公式推导

由                            P(A\cap B) = P(A|B) * P(B) = P(B|A) *P(A)

将左边的 P(A∩B) 去掉,则可得贝叶斯定理。

                                P(H|E) = \frac{P(E|H)*P(H)}{P(E)}

贝叶斯定理的另外一种表示

用P(H)表示H发生的概率,用H表示H不发生,P(H)表示H不发生的概率。显然P(\bar{H})=1-P(H)。

下图红色部分表示H,红色部分以外则表示H:

P(H)

事件E用绿色表示:

P(E)

可见,P(E)可以分为两部分,一部分是E和H的交集,另一部分是E和H的交集:

                                        P(E) = P(E∩H) + P(E∩\bar{H})

根据上文的公式P(A∩B)=P(A|B)xP(B),代入可得:

                                        P(E) = P(E∩\bar{H}) + P(E∩H)= P(E∣\bar{H})×P(\bar{H}) + P(E∣H)×P(H)

把P(E)替换掉,我们得到贝叶斯定理的另一种写法:

                                        P(H|E) = \frac{P(E|H)*P(H)}{P(E|H)*P(H) + P(E|\bar{H}) * P(\bar{H})}

用这个公式来计算,我们就不必计算P(E)了。

已知有一种疾病,发病率是0.1%。针对这种疾病的测试非常准确:

  • 如果有病,则准确率是99%(即有1%未检出阳性);
  • 如果没有病,则误报率是2%(即有2%误报为阳性)。

现在,如果一个人测试显示阳性,请问他患病的概率是多少?

  • P(E|H)表示患病时检测阳性的概率=99%;
  • P(H)表示患病的概率=0.1%;
  • P(E|H)表示没有患病但检测阳性的概率=2%;
  • P(H)表示没有患病的概率=1-P(H)=99.9%。

代入公式,计算:

                        P(H∣E)=99%×0.1%+2%×99.9%99%×0.1%​=0.04721=4.721%

假设这个人又做了一次检测,结果仍然是阳性,那么他患病的概率是多少?

我们仍然使用贝叶斯定理计算,只不过现在先验概率P(H)不再是0.1%,而是4.721%,P(E|H)和P(E|H)仍保持不变,计算新的P(H|E):

P(H∣E)=99%×4.721%+2%×(1−4.721%)99%×4.721%​=0.71=71%

结果为71%,两次检测为阳性的结果使得先验概率从0.1%提升到4.721%再提升到71%,继续第三次检测如果为阳性则概率将提升至99.18%

可见,贝叶斯定理的核心思想就是不断根据新的证据,将先验概率调整为后验概率,使之更接近客观事实。

四世界法

这是小岛宽之的具现化  贝叶斯定理的方法。

  •  将总体样本视为一个方块
  •  人群中的患癌的概率为  1 %
  •  体检时 误诊率为   10%
  •  则 如果确诊为 阳性,则患病的概率为多少?

计算的样式实际上是 患病阳性在整个红色中所占的概率:

(0.01 * 0.9)/  (0.01 * 0.9   +  0.1 *0.99)  = 8.33%

参考

一文搞懂贝叶斯定理(原理篇) - Blogs - 廖雪峰的官方网站

最直观易懂的贝叶斯公式解读?看完别再说学不会啦......_轻松理解医学统计69_哔哩哔哩_bilibili

  • 22
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值