朴素贝叶斯算法（分类算法）

qiusuoxiaozi

于 2016-03-06 20:31:36 发布

阅读量1.3k

点赞数

分类专栏： machine learning 文章标签：朴素贝叶斯算法

machine learning 专栏收录该内容

69 篇文章 0 订阅

订阅专栏

朴素贝叶斯分类是一种十分简单的分类算法，叫它朴素贝叶斯分类是因为这种方法的思想真的很朴素，朴素贝叶斯的思想基础是这样的：对于给出的待分类项，求解在此项出现的条件下各个类别出现的概率，哪个最大，就认为此待分类项属于哪个类别。通俗来说，就好比这么个道理，你在街上看到一个黑人，我问你你猜这哥们哪里来的，你十有八九猜非洲。为什么呢？因为黑人中非洲人的比率最高，当然人家也可能是美洲人或亚洲人，但在没有其它可用信息下，我们会选择条件概率最大的类别，这就是朴素贝叶斯的思想基础。

朴素贝叶斯分类的正式定义如下：

1、设 $x=\{a_1,a_2,...,a_m\}$ 为一个待分类项，而每个a为x的一个特征属性。

2、有类别集合 $C=\{y_1,y_2,...,y_n\}$ 。

3、计算 $P(y_1|x),P(y_2|x),...,P(y_n|x)$ 。

4、如果 $P(y_k|x)=max\{P(y_1|x),P(y_2|x),...,P(y_n|x)\}$ ，则 $x \in y_k$ 。

那么现在的关键就是如何计算第3步中的各个条件概率。我们可以这么做：

1、找到一个已知分类的待分类项集合，这个集合叫做训练样本集。

2、统计得到在各类别下各个特征属性的条件概率估计。即 $P(a_1|y_1),P(a_2|y_1),...,P(a_m|y_1);P(a_1|y_2),P(a_2|y_2),...,P(a_m|y_2);...;P(a_1|y_n),P(a_2|y_n),...,P(a_m|y_n)$ 。

3、如果各个特征属性是条件独立的，则根据贝叶斯定理有如下推导：

$P(y_i|x)=\frac{P(x|y_i)P(y_i)}{P(x)}$

因为分母对于所有类别为常数，因为我们只要将分子最大化皆可。又因为各特征属性是条件独立的，所以有：

$P(x|y_i)P(y_i)=P(a_1|y_i)P(a_2|y_i)...P(a_m|y_i)P(y_i)=P(y_i)\prod^m_{j=1}P(a_j|y_i)$

转载自朴素贝叶斯算法（by 张洋）

----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

以上是摘抄了张洋的博客，昨天又看了Andrew的lecture5 生成学习算法, 又有了一些新的认识，不得不再次钦佩起Andrew条理清晰的课程风格来：

在lecture5 中，首先有必要认识清楚判别学习与生成学习的区别，可以参见之前的一篇文章生成模型与判别模型

“生成式方法（generative methods）是直接基于生成式模型的方法。此类方法假设所有数据都是由一个潜在的模型生成的”——周志华

关于具体的生成模型的例子，Andrew讲了两个：混合高斯模型和朴素贝叶斯模型（昨天再看之后，感觉比以往清晰了很多，看来温故确实可以知新）

这里就不展开讲了，只提一下朴素贝叶斯之所以说朴素，是因为它的assumption，也就是认为各特征之间是相互独立的；这一个assumption在垃圾邮件分类器中显然不成立（因为两个特征词比如study 和 learn 或者CS229 和 machine learning显然是会有相关关系的），但正如Andrew所说，尽管naive bayes的assumtion是有点朴素了（过分了），但是它的效果却不赖。