贝叶斯定理 | Bayes' Theorem | 贝叶斯推断 | 贝叶斯线性回归

 一文包含所有:Probability concepts explained: Bayesian inference for parameter estimation.

 

贝叶斯并不难,关键是要能熟能生巧,熟练运用在生活各个方面,应用到各个项目。

最近发现遗传领域用贝叶斯实在是太普遍了,不得不再温习一遍。

所谓高手,就是把自己活成了贝叶斯定理 - 他的引入和案例非常好,只是深究的话有些问题。

首先理解条件概率:

P(A|B)是什么意思,P(A)可以简单的用venn图来可视化,就是内圈的面积;P(A|B)就是在限定空间B下,A的概率。举例:假设在一个大公司,每个人都有升迁的概率:P(升),我想知道拿到MBA后升迁的概率:P(升|MBA),理论上:我们找出所有拿到MBA的人,再一一统计他们是否升迁就可以得到这个概率了,真要这样那就不用贝叶斯了。

实际上,我们永远只能做抽样估计。贝叶斯公式是对称的,通常是有一边是我们感兴趣的,但是无法求解,所以我们可以曲线救国,求另外一边。还有一个就是全概率公式,这个在venn图中也特别好理解,就是把全集拆成几个互斥的部分,分别求解。

贝叶斯的灵魂就是先验、后验和调整因子,如何在实际生活中理解和贯彻这个才是关键。

先验:some knowledge or belief that we already have (commonly known as the prior),不用太复杂,先验就是指我们已经获得的知识,通常是marginal probability。 P(A) is a prior to me knowing anything about the B. 先验可以是猜测的,可以包含一定的主观因素。更规范一点我们的P(A)不是一个固定值,而是一个分布,prior distribution。

后验:是指我们得到一些新的数据后,我们原猜测发生的概率,相当于是对原先主观先验的一个更新。P(Θ|data) on the left hand side is known as the posterior distribution. This is the distribution representing our belief about the parameter values after we have calculated everything on the right hand side taking the observed data into account.

核心:Therefore we can calculate the posterior distribution of our parameters using our prior beliefs updated with our likelihood.

 

共轭和传递性

 


 

贝叶斯推断及其互联网应用(一):定理简介

 

作为一个非统计专业的人,着实是被贝叶斯思想折磨了很久,常见的公式都能倒背如流,但依旧无法理解其精神内核。

近日,有高人指点,自己再查了点资料,才对贝叶斯思想有所领悟。。。

基本框架:前面总结了常见分布的概念,这里贝叶斯也不例外,都是概率论,概率研究的核心就是随机事件发生的概率。以后遇到统计时,要习惯“某事件发生概率”这种专业说法。


 

例子1:

两个一模一样的碗,一号碗有30颗水果糖和10颗巧克力糖,二号碗有水果糖和巧克力糖各20颗。现在随机选择一个碗,从中摸出一颗糖,发现是水果糖。请问这颗水果糖来自一号碗的概率有多大?

作者的描述有点含糊,这里会修正一下:

我们假定,H1表示摸出的球来自一号碗,H2表示摸出的球来自二号碗。由于我们假定这两个碗是一样的(先验概率已被指定),所以P(H1)=P(H2),也就是说,在取出水果糖之前,这两个碗被选中的概率相同。因此,P(H1)=0.5,我们把这个概率就叫做"先验概率",即没有做实验之前,来自一号碗的概率是0.5。

再假定,E表示取出的是水果糖,所以问题就变成了在已知E的情况下,来自一号碗的概率有多大,即求P(H1|E)。我们把这个概率叫做"后验概率",即在E事件发生之后,对P(H1)的修正。

后面计算就不说了,老生常谈,主要是把概念规范化,不要把数学语言和日常用于混淆在一起。

 

例子2:

已知某种疾病的发病率是0.001,即1000人中会有1个人得病。现有一种试剂可以检验患者是否得病,它的准确率是0.99,即在患者确实得病的情况下,它有99%的可能呈现阳性。它的误报率是5%,即在患者没有得病的情况下,它有5%的可能呈现阳性。现有一个病人的检验结果为阳性,请问他确实得病的可能性有多大?

假定A事件表示得病,那么P(A)为0.001。这就是"先验概率",即没有做试验之前,我们预计的发病率。再假定B事件表示阳性,那么要计算的就是P(A|B)。这就是"后验概率",即做了试验以后,对发病率的估计。

其实在医学统计学里,99%不叫作准确率,而是sensitivity。

5%也不叫作误报率,而叫做假阳性率,与之对应的是specificity。

 计算过程可以参照原文。

 

参考:Precision and recall

 


 

实例:垃圾邮件过滤

贝叶斯过滤器是一种统计学过滤器,建立在已有的统计结果之上。所以,我们必须预先提供两组已经识别好的邮件,一组是正常邮件,另一组是垃圾邮件。

我们用这两组邮件,对过滤器进行"训练"。这两组邮件的规模越大,训练效果就越好。Paul Graham使用的邮件规模,是正常邮件和垃圾邮件各4000封。

"训练"过程很简单。首先,解析所有邮件,提取每一个词。然后,计算每个词语在正常邮件和垃圾邮件中的出现频率。比如,我们假定"sex"这个词,在4000封垃圾邮件中,有200封包含这个词,那么它的出现频率就是5%;而在4000封正常邮件中,只有2封包含这个词,那么出现频率就是0.05%。(【注释】如果某个词只出现在垃圾邮件中,Paul Graham就假定,它在正常邮件的出现频率是1%,反之亦然。这样做是为了避免概率为0。随着邮件数量的增加,计算结果会自动调整。)

有了这个初步的统计结果,过滤器就可以投入使用了。

Github上有这个的代码,可以去跑一跑。


前面已经说了贝叶斯是一种思想,它可以被用在任何统计模型上。这也就是为什么你能听到各种贝叶斯相关的术语:贝叶斯线性回归、贝叶斯广义线性回归等等。

接下来就从最简单的贝叶斯线性回归为例,来讲解贝叶斯思想是如何与传统统计模型相结合的。

参考:贝叶斯线性回归(Bayesian Linear Regression)

如何通俗地解释贝叶斯线性回归的基本原理?

从贝叶斯的观点看线性分类和线性回归

 

转载于:https://www.cnblogs.com/leezx/p/8721645.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值