贝叶斯分类器_《Machine Learning》学习笔记七贝叶斯分类器

最新推荐文章于 2023-08-01 18:41:26 发布

weixin_39618597

最新推荐文章于 2023-08-01 18:41:26 发布

阅读量245

点赞数

文章标签：贝叶斯分类器

《Machine Learning》学习笔记七贝叶斯分类器

一、贝叶斯

关于贝叶斯

贝叶斯(约1701-1761) Thomas Bayes，英国数学家

贝叶斯方法源于他生前为解决一个“逆概”问题写的一篇文章

生不逢时，死后它的作品才被世人认可

哎。真惨

什么是逆概率？

讲逆概率之前先讲正向概率

正向概率：

假设袋子里面有N个白球，M个黑球，你伸手进去摸一把，摸出黑球的概率有多大？

正向概率这个问题非常简单

逆向概率：

如果我们事先并不知道袋子里面黑白球的比例，而是闭着眼睛摸出一个（或者好几个球），

观察这些取出来的球的颜色之后，那么我们可以就此对袋子里面黑白球的比例作出什么样的推测？

我们为什么要使用贝叶斯？

现实世界本身就是不确定的，人类的观察能力是有局限性的

我们日常所观察到的只是事物表面上的结果，因此我们需要提供一个猜测

比如刚才那个黑白球的例子

假设这些球散落在自然界中，你并不知道自然界中黑球和白球的比例，那我们可能就需要自己去找，然后根据我们找到的球的黑白分布情况来猜测自然界中黑白球的比例。

条件概率

条件概率(Condittional probability)，就是指在事件B发生的情况下，事件A发生的概率，用P(A|B)来表示。

条件概率公示的推导：

可以使用Venn图来推导

由上面的图可以看出

因为1式和2式相等，所以结合可得条件概率公式

二、全概率公式

讲全概率公式得从一个栗子出发：

小张从家到公司上班总共有三条路可以直达（如下图），但是每条路每天拥堵的可能性不太一样，由于路的远近不同，选择每条路的概率如下：

全概率就是表示达到某个目的，有多种方式（或者造成某种结果，有多种原因），问达到目的的概率是多少（造成这种结果的概率是多少）？

全概率公式：

设事件

是一个完备事件组，则对于任意一个事件Ｃ，若有如下公式成立：

那么就称这个公式为全概率公式。

三、贝叶斯公式

贝叶斯推断

对条件概率变形可得到如下形式：

我们把P(A)称为"先验概率"（Prior probability），即在B事件发生之前，我们对A事件概率的一个判断。

P(A|B)称为"后验概率"（Posterior probability），即在B事件发生之后，我们对A事件概率的重新评估。

P(B|A)/P(B)称为"可能性函数"（Likelyhood），这是一个调整因子，使得预估概率更接近真实概率。

所以，条件概率可以理解成下面的式子：

后验概率　＝　先验概率 ｘ 调整因子

举个栗子说明一下什么是先验概率和后验概率

最近天气炎热，我来到超市准备买个西瓜，可是没有太多的经验，不知道怎么样才能挑个熟瓜。这时候，作为理科生，红色石头就有这样的考虑：

如果我对这个西瓜没有任何了解，包括瓜的颜色、形状、瓜蒂是否脱落。按常理来说，西瓜成熟的概率大概是 60%。那么，这个概率 P(瓜熟) 就被称为先验概率。

也就是说，先验概率是根据以往经验和分析得到的概率，先验概率无需样本数据，不受任何条件的影响。就像我只根据常识而不根据西瓜状态来判断西瓜是否成熟，这就是先验概率。

再来看，我以前学到了一个判断西瓜是否成熟的常识，就是看瓜蒂是否脱落。一般来说，瓜蒂脱落的情况下，西瓜成熟的概率大一些，大概是 75%。如果把瓜蒂脱落当作一种结果，然后去推测西瓜成熟的概率，这个概率 P(瓜熟 | 瓜蒂脱落) 就被称为后验概率。后验概率类似于条件概率。

贝叶斯公式

贝叶斯公式实际上就是条件概率公式和全概率公式推导出来的，将条件概率公式得分母用全概率公式表示就行了。

三、极大似然估计

极大似然估计（Maximum Likelihood Estimation，简称MLE），是一种根据数据采样来估计概率分布的经典方法。

常用的策略是先假定总体具有某种确定的概率分布，再基于训练样本对概率分布的参数进行估计。运用到类条件概率p（x | c ）中，假设p（x | c ）服从一个参数为θ的分布，问题就变为根据已知的训练样本来估计θ。

极大似然法的核心思想就是：估计出的参数使得已知样本出现的概率最大，即使得训练数据的似然最大。

总结最大似然估计参数的过程，一般分为以下四个步骤：

1.写出似然函数；
2.对似然函数取对数，并整理；
3.求导数，令偏导数为0，得到似然方程组；
4.解似然方程组，得到所有参数即为所求。

上述结果看起来十分合乎实际，但是采用最大似然法估计参数的效果很大程度上依赖于作出的假设是否合理，是否符合潜在的真实数据分布。这就需要大量的经验知识，搞统计越来越值钱也是这个道理

四、朴素贝叶斯

朴素贝叶斯

朴素贝叶斯与贝叶斯是什么关系？

其实就是在贝叶斯的基础上，假设所有特征彼此独立。

既然所有特征彼此独立了，那么这个时候后验概率p（x | c ）可以改写为：

这样，为每个样本估计类条件概率变成为每个样本的每个属性估计类条件概率。

拉普拉斯修正

相比原始的贝叶斯，朴素贝叶斯基于单个的属性计算后验概率更加容易操作。

需要注意的是：若某个属性值在训练集中和某个类别没有一起出现过，这样会抹掉其它的属性信息，因为该样本的类条件概率被计算为0。因此在估计概率值时，常常用进行平滑（smoothing）处理，拉普拉斯修正（Laplacian correction）就是其中的一种经典方法，具体计算方法如下：

当训练集越大时，拉普拉斯修正引入的影响越来越小。对于贝叶斯分类器，模型的训练就是参数估计，因此可以事先将所有的概率储存好，当有新样本需要判定时，直接查表计算即可

五、半朴素贝叶斯

上面讲的朴素贝叶斯是在贝叶斯的基础之上，增加了特征独立这个条件，但是在现实生活职工这个假设很难成立的，于是人们开始尝试对属性独立性假设这个条件进行一定程度的放松。

由此诞生了“半朴素贝叶斯分类器”的学习方法。

半朴素贝叶斯基本思想：

适当考虑部分属性间的相互依赖信息，从而既不需要进行完全联合概率计算，又不至于彻底忽略了比较强的属性依赖关系。

半朴素贝叶斯常用策略：

“独依赖估计”（ODE）是半朴素贝叶斯分类器最常用的一种策略，顾名思义，所谓“独依赖”就是假设每个属性在类别之外最多仅依赖于一个其他属性，即

其中pai为属性xi所依赖的属性，称为xi的父属性。

不同的独依赖分类器

NB(朴素贝叶斯分类器)

SPODE(超父独依赖估计（我乱起的名字）)

假设所有的属性都依赖于同一个属性，称为“超父”，然后通过交叉验证的方式来确定超父属性，由此产生了SPODE方法

TAN

(Tree Augmented naive Bayes)在最大带权生成树（maximum weighted spanning tree）算法的基础上，通过下面的步骤将属性间的依赖关系简化为如图所示的树形结构：

AODE

AODE(Averaged One-Dependent Estimator)是一种基于集成学习机制、更为强大的独依赖分类器，与SPODE通过模型选择确定超父属性不同，AODE尝试将每个属性作为超父来构建SPODE。然后将这些具有足够训练数据支持的SPODE集成起来作为最终结果，即：

六、总结

不同于其它分类器，朴素贝叶斯是一种基于概率理论的分类算法；
特征之间的条件独立性假设，显然这种假设显得“粗鲁”而不符合实际，这也是名称中“朴素”的由来。然而事实证明，朴素贝叶斯在有些领域很有用，比如垃圾邮件过滤；
在具体的算法实施中，要考虑很多实际问题。比如因为“下溢”问题，需要对概率乘积取对数；再比如词集模型和词袋模型，还有停用词和无意义的高频词的剔除，以及大量的数据预处理问题，等等；
总体上来说，朴素贝叶斯原理和实现都比较简单，学习和预测的效率都很高，是一种经典而常用的分类算法。

weixin_39618597

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
贝叶斯分类器_《Machine Learning》学习笔记七贝叶斯分类器

《Machine Learning》学习笔记七贝叶斯分类器一、贝叶斯关于贝叶斯贝叶斯(约1701-1761) Thomas Bayes，英国数学家贝叶斯方法源于他生前为解决一个“逆概”问题写的一篇文章生不逢时，死后它的作品才被世人认可哎。真惨什么是逆概率？讲逆概率之前先讲正向概率正向概率：假设袋子里面有N个白球，M个黑球，你伸手进去摸一把，摸出黑球的概率有多大？正向概率这个问题非常简单逆向...
复制链接

扫一扫