本系列文章为原创,转载请注明出处。
作者:Dongdong Bai
邮箱: baidongdong@nudt.edu
若您觉得本博文对您有帮助,请您为我点赞并关注我,以鼓励我写出更优秀的博文。谢谢!
一、基本概念
1、先验概率和后验概率
其中, θ θ 表示模型中的未知参数, X X 表示样本。这里有三个重要的概念:先验分布、似然函数,以及后验分布。
是先验分布,表示在观察样本之前,按照经验认为 θ θ 符合某种概率分布。比如说在抛硬币之前,我们认为正反两面出现的概率各为1/2。
P(X|θ) P ( X | θ ) 是似然函数,表示在给定模型参数 θ θ 的条件下,样本数据 X X 服从这一概率模型的相似程度。
是后验分布,表示在观察一系列样本数据 X X 后,模型参数服从的概率分布。即,对先验分布进行了修正,更接近真实情况。
- 另外,因为 X X 是样本,所以是一个确定的值。
显然它们之间的关系可以通过贝叶斯公式进行连接:
后验分布=(似然函数∗先验分布)P(X) 后 验 分 布 = ( 似 然 函 数 ∗ 先 验 分 布 ) P ( X )2、共轭(先验)分布
如果先验分布和似然函数可以使得先验分布和后验分布是相同的类型(比如都是指数分布,或都是高斯分布),那么就称先验分布与似然函数是共轭(先验)分布。
之所以采用共轭先验分布的原因是可以使得先验分布和后验分布具有相同形式,这样一方面合符人的直观(它们应该是相同形式的)另外一方面是可以形成一个先验链,即现在的后验分布可以作为下一次计算的先验分布,如果形式相同,就可以形成一个链条。
二、机器学习中的应用
1、贝叶斯法则
机器学习的任务:根据给定的训练数据集 D D ,在假说集中的选出一个最佳假说(hypothesis)作为最终的模型。
最佳假说:是在给定数据集 D D 和假说集中每个假说 h h 的先验概率的情况下,最可能(概率最大)的一个假说。贝叶斯理论提供了一种计算假说 P(h|D) P ( h | D ) 的方法:已知各个假说 h h 的先验概率,以及在假说下 h h 观察到数据集的概率 P(D|h) P ( D | h ) (似然函数),和数据集本身发生的概率 P(D) P ( D ) ,则各个假说 h h 的后验概率为:
2、先验概率和后验概率
用 P(h) P ( h ) 表示在没有训练数据前假设h拥有的初始概率。 P(h) P ( h ) 被称为 h h 的先验概率。先验概率反映了关于是一个正确假说机会(概率)的背景知识,如果没有这一先验知识,可以简单地将每一候选假说赋予相同的先验概率。类似地, P(D) P ( D ) 表示训练数据集 D D 的先验概率,表示某个假说 h h 成立时发生的概率,称为似然函数。机器学习中,我们关心的是 P(h|D) P ( h | D ) ,即给定 D D 时的成立的概率,称为 h h 的后验概率。
3、贝叶斯公式
贝叶斯公式提供了从先验概率、似然函数 P(D|h) P ( D | h ) 和 P(D) P ( D ) 以及计算后验概率 P(h|D) P ( h | D ) 的方法:
P(h|D)=P(D|h)P(h)P(D) P ( h | D ) = P ( D | h ) P ( h ) P ( D )P(h|D) P ( h | D ) 随着 P(h) P ( h ) 和 P(D|h) P ( D | h ) 的增长而增长,随着 P(D) P ( D ) 的增长而减少,即如果 D D 独立于时被观察到的可能性越大,那么 D D 对的支持度越小。
4、极大后验估计(Maximize a Posterior,MAP)
学习器是在候选假说集 H H 中寻找给定数据集时可能性最大的假说 h h ,也即是最大的假说。获取最大假说的方法是通过极大后验估计(MAP)来获取的。极大后验估计是用贝叶斯公式计算每个候选假说 h h 的后验概率,并从中挑出使最大的假说 h h ,计算式如下:
最后一步,去掉了 P(D) P ( D ) ,因为它是不依赖于 h h 的常量。
5、极大似然估计(Maximize Likelihood Estimation, MLE)
在某些情况下,可假定中每个假说有相同的先验概率,这样式子可以进一步简化,只最大化似然函数 P(D|h) P ( D | h ) 即可,此时就变成了极大似然估计(MLE):
hMLE=argmax(P(D|h))(假说h是集合H中的元素) h M L E = a r g m a x ( P ( D | h ) ) ( 假 说 h 是 集 合 H 中 的 元 素 )P(D|h) P ( D | h ) 常被称为给定h时数据D的似然度,而使 P(D|h) P ( D | h ) 最大的假设被称为极大似然假设。
极大似然估计在有些教科书上表示为 P(x1,x2,x3,...,xn;θ) P ( x 1 , x 2 , x 3 , . . . , x n ; θ ) ,其中 θ θ 为随机变量 X X 所满足的分布中待估计的参数,为满足随机变量 X X 分布的一个样本,且样本之间是独立同分布的(iid)。
实际上就是一个条件概率 P(x1,x2,x3,...,xn|θ) P ( x 1 , x 2 , x 3 , . . . , x n | θ ) ,即在参数取值为 θ θ 的条件下,样本组 (x1,x2,x3,...,xn) ( x 1 , x 2 , x 3 , . . . , x n ) 发生的概率。极大似然估计的思想就是既然这组样本已经发生,那么存在即为合理,那么使得 P(x1,x2,x3,...,xn;θ) P ( x 1 , x 2 , x 3 , . . . , x n ; θ ) 最大值时的 θ θ 的取值应为最合理的结果。
6、举例
考虑一个医疗诊断问题,有两种可能的假设:(1)病人有癌症。(2)病人无癌症。样本数据来自某化验测试,它也有两种可能的结果:阳性和阴性。假设我们已经有先验知识:在所有人口中只有0.008的人患病。此外,化验测试对有病的患者有98%的可能返回阳性结果,对无病患者有97%的可能返回阴性结果。
上面的数据可以用以下概率式子表示:
P(cancer)=0.008 P ( c a n c e r ) = 0.008 , P(无cancer)=0.992 P ( 无 c a n c e r ) = 0.992
P(阳性|cancer)=0.98 P ( 阳 性 | c a n c e r ) = 0.98 , P(阴性|cancer)=0.02 P ( 阴 性 | c a n c e r ) = 0.02
P(阳性|无cancer)=0.03 P ( 阳 性 | 无 c a n c e r ) = 0.03 , P(阴性|无cancer)=0.97 P ( 阴 性 | 无 c a n c e r ) = 0.97假设现在有一个新病人,化验测试返回阳性,是否将病人断定为有癌症呢?我们可以来计算极大后验假设:
P(阳性|cancer)p(cancer)=0.98∗0.008=0.0078 P ( 阳 性 | c a n c e r ) p ( c a n c e r ) = 0.98 ∗ 0.008 = 0.0078
P(阳性|无cancer)∗P(无cancer)=0.03∗0.992=0.0298 P ( 阳 性 | 无 c a n c e r ) ∗ P ( 无 c a n c e r ) = 0.03 ∗ 0.992 = 0.0298
因此,应该判断为无癌症。确切的后验概率可将上面的结果归一化以使它们的和为1:
P(canner|阳性)=0.0078/(0.0078+0.0298)=0.21 P ( c a n n e r | 阳 性 ) = 0.0078 / ( 0.0078 + 0.0298 ) = 0.21P(cancer|阴性)=0.79 P ( c a n c e r | 阴 性 ) = 0.79
其实上:
P(cancer|yangxing)=P(阳性|无cancer)P(cancer)P(阳性)=P(阳性|无cancer)P(cancer)P(阳性|cancer)P(cancer)+P(阳性|无cancer)P(无cancer)=0.00780.98*0.008+0.03*0.992=0.00780.0376=0.21 P ( c a n c e r | y a n g x i n g ) = P ( 阳性 | 无 c a n c e r ) P ( c a n c e r ) P ( 阳性 ) = P ( 阳性 | 无 c a n c e r ) P ( c a n c e r ) P ( 阳性 | c a n c e r ) P ( c a n c e r ) + P ( 阳性 | 无 c a n c e r ) P ( 无 c a n c e r ) = 0.0078 0 .98*0.008+0.03*0.992 = 0.0078 0.0376 = 0.21
也即是通过直接归一化获得 P(canner|阳性) P ( c a n n e r | 阳 性 ) 与除以分母 P(阳性) P ( 阳 性 ) 获得的 P(canner|阳性) P ( c a n n e r | 阳 性 ) 的结果相同相同,所以以后直接使用归一化方法即可。贝叶斯推理的结果很大程度上依赖于先验概率,另外不是完全接受或拒绝假说某个假说$$,只是在观察到较多的数据后增大或减小了某个假说$h$的可能性。
先验概率是关于某个事件的先验知识,计算后验概率并不是说先验概率有错误,只是在观察到较多的数据后对先验概率进行的调整。比如说通过统计100年的降水情况获得一天下雨的先验概率,但是由于气候在不断发生变化,因此使用最近今年的降水情况对先验概率进行调整,来获取对某天下雨更精确的预测,即为后验概率。
7、贝叶斯分类具有如下特点:
贝叶斯分类并不把一个对象绝对地指派给某一类,而是通过计算得出属于某一类的概率,具有最大概率的类便是该对象所属的类;
一般情况下在贝叶斯分类中所有的属性都潜在地起作用,即并不是一个或几个属性决定分类,而是所有的属性都参与分类;
贝叶斯分类对象的属性可以是离散的、连续的,也可以是混合的。
贝叶斯定理给出了最小化误差的最优解决方法,可用于分类和预测。理论上,它看起来很完美,但在实际中,它并不能直接利用,它需要知道样本的确切分布概率,而实际上我们并不能确切的给出样本的分布概率。因此我们在很多分类方法中都会作出某种假设以逼近贝叶斯定理的要求。
部分参考:
blog.csdn.net/chl033/archive/2009/10/26/4731005.aspx
blog.csdn.net/u014313009/article/details/39825827?utm_source=tuicool&utm_medium=referral
blog.csdn.net/xianlingmao/article/details/7340099
本系列文章为原创,转载请注明出处。
作者:Dongdong Bai
邮箱: baidongdong@nudt.edu若您觉得本博文对您有帮助,请您为我点赞并关注我,以鼓励我写出更优秀的博文。谢谢!