贝叶斯分类器：机器学习背景下浅聊自己对先验、后验、likelihood、Evidence与贝叶斯公式的理解

最新推荐文章于 2024-06-27 11:30:47 发布

Trasper1

最新推荐文章于 2024-06-27 11:30:47 发布

阅读量4.3k

点赞数 5

分类专栏：贝叶斯公式先验概率后验概率机器学习文章标签：贝叶斯公式机器学习先验概率后验概率

本文链接：https://blog.csdn.net/Trasper1/article/details/81878892

版权

机器学习同时被 3 个专栏收录

12 篇文章 1 订阅

订阅专栏

先验概率

2 篇文章 0 订阅

订阅专栏

贝叶斯公式

1 篇文章 1 订阅

订阅专栏

贝叶斯分类器是传统机器学习模型的一种，是在概率框架下利用训练集D观测估计样本属性（feature）与分类结果之间的后验概率关系。后验概率，就是在观测过样本的属性（feature）之后对其分类情况的概率分布（比如0.3的概率是正类，0.7的概率是反类）。贝叶斯分类器直观看就是一个由在样本集D上学习到的后验概率和likelihood组成的计算公式，在测试阶段，将输入测试样本的feature带入可以计算出各类的分类confidence（confidence即后验）。

1. 问题参数：

X是特征、是属性、是对待分类物体的观测与描述；X属于{x1:有无胡须，x2：有无喉结，x3：是否穿了裙子，。。。}
Y是分类结果；Y属于{0：男，1：女}

2. 问题描述：给定一张图片，图中有一个人，现在做一个二分类；

3. 四大概率：

先验 P（Y）：P（0）= 0.5，先于看到图片就判断分类，反映的是被分类事物的自然规律，可有多次试验用大数定律逼近；
Evidence（依据） P（X）：P（x1=1）= 0.2，P（X）是对于各特征的一个分布，与类别Y无关，是各特征自然出现的概率（即P（x1=1）= 0.2是指，没看到此人但估计其有胡子的概率是0.2）；顾名思义，这些特征是用来进行分类的判断依据、证据；
后验 P（Y|X）：P（0|x1=0）= 0.7，看到图片之“后”，具有图中此人所展示的这些特征的一个人是男是女的概率（P（0|x1=0）= 0.7即看到一个有胡子的这个人是男人的概率是0.7）；
Likelihood（似然） P（X|Y）：P（x1=0|0）=0.66，被告知图中将会是一个男人，那么这个人有胡子的概率是0.66；

所谓“先”“后”验，是指在进行对物质性质特征的验视之前或者后（看到图片之前或后），来做分类判断；即“分类决断”与“验视特征”发生的先后顺序。

所谓likelihood，是指在得知物体类别之后，再对个特征出现的概率进行修正和re-evaluate。区别于evidence，evidence是不知类别，直接看特征分布。

机器学习的最终目的，是学习后验概率！！！即，在训练集上学习捕捉后验概率的分布。在测试时，一个新样本输入在验视其feature之后，分析分类结果的概率，实现对分类结果的预测！！

4. 贝叶斯公式：

P(X|Y) = P(Y|X) * P(X) / P(Y) ，即，Likelihood等于后验 * Evidence / 先验

5. 具体方案：

对后验概率的直接估计是困难的。之所以称之为“贝叶斯分类器”，就是因为这里通过贝叶斯公式将对后验概率的估计转化为对likelihood * 先验 / Evidence的估计。其中，Evidence是各属性在自然界中的普世分布，当做已知。那么，对后验概率额的估计就转化为了对先验概率和 likelihood的估计。

先验概率 P（Y）的估计：

假设样本空间各样本之间服从i.i.d （Indenpendent Identical Distribution）独立同分布，那么一句大数定律P（Y）= |Dc| / |D|，Dc是D中分类结果为c类的样本集合；

Likelihood P（X|Y）估计：有两种方法，极大似然估计（Maximum-Likelihood Estimation）和朴素贝叶斯分类器（Naive Bayes Classifier）

（1）MLE：人为猜定likelihood服从的分布形式（比如假设Likelihood服从Gaussian），然后将概率估计简化成参数估计问题。

对于某分类类别c而言，估计c类中的likelihood就是估计c类中各种属性（feature）组合出现的概率 P(Dc|γc)，γc是c类别假定的Gaussian分布likelihood的参数（比如feature是三维的，每一维的feature又有两个可能取值，那么这个feature空间的可能出现组合数为2^^3 = 8.注：并不是所有组合一定都会在D中出现）。

依据iid条件，P(Dc|γc) = 连乘（P(x|γc)，x属于Dc，x是Dc中所有样本，每个样本有自己的feature组合）；

为了回避连乘带来的下溢问题，两边去log求log-likelihood，转连乘为连加：LL（γc）= 连加（log P（x|γc），x属于Dc）

至此，一个基于MLE的贝叶斯分类器应该如下：

h（x）= argmax P（C）* log P（x|γc），argmax over all c in C。即，输入一个测试样本 x，依据各个样本c的如上得到的likelihood来计算一个classification score h（x）。score最大的那个类别c就是本样本的分类结果，confidence是h（x）。

（2）Naive Bayes:假设所有属性xi属于x,i = 1 to d，都是条件独立的（attribute conditional independence assumption），这样一来，就不再是将每个x的一整个feature vector作为一个整体来看，而是vector中的每一个独立feature都独立地影响着分类结果。所以，对整个vector的likelihood条件概率估计就变成了对d个xi的d次条件概率估计连乘。当然，此假设很强。为了放松此假设，有半朴素贝叶斯估计，即不完全假设属性间独立，也不完全相关，而是选择middle ground。最常见的一种semi Naive假设是one-dependent Estimator ODE即某一个属性只与另外某一个属性相关。再复杂一些，尝试全面地估计各个属性之间的联系，则有贝叶斯网（belief network）。

P（x | c） = 连乘（P(xi|c)，i = 1 to d）

所以一个朴素贝叶斯分类器如下：

h（x）= argmax P（c）* 连乘（P(xi|c)

输入一个测试样本x，将其各个独立feature带入连乘，计算各个类别c的后验，然后最大的那一类c当选，with confident h（x）。