深入理解朴素贝叶斯（Naive Bayes）

千君一发

已于 2023-01-31 19:00:28 修改

阅读量9.2w

点赞数 43

分类专栏：机器学习文章标签：算法 python 数据

于 2017-07-27 10:48:51 首次发布

本文链接：https://blog.csdn.net/li8zi8fa/article/details/76176597

版权

算法思想 — 基于概率的预测

理论基础 — 条件概率，词集模型、词袋模型

朴素贝叶斯是经典的机器学习算法之一，也是为数不多的基于概率论的分类算法。朴素贝叶斯原理简单，也很容易实现，多用于文本分类，比如垃圾邮件过滤。该算法虽然简单，但是由于笔者不常用，总是看过即忘，这是写这篇博文的初衷。当然，更大的动力来在于跟大家交流，有论述不妥的地方欢迎指正。忘记说明文中的代码来源（来自《机器学习实战》），有评论指出了这一点，特此说明。非常抱歉！

算法思想 — 基于概率的预测

逻辑回归通过拟合曲线（或者学习超平面）实现分类，决策树通过寻找最佳划分特征进而学习样本路径实现分类，支持向量机通过寻找分类超平面进而最大化类别间隔实现分类。相比之下，朴素贝叶斯独辟蹊径，通过特征概率来预测分类。

举个可能不太恰当的例子：眼前有100个人，好人和坏人个数差不多，现在要用他们来训练一个“坏蛋识别器”。怎么办呢？咱们不管他们干过啥事，只看他们长啥样（这确实不是个恰当的例子）。也就是说，我们在区分好坏人时，只考虑他们的样貌特征。比如说“笑”这个特征，它的取值可能是“甜美的笑”、“儒雅的笑”、“憨厚的笑”、“没心没肺的笑”、“微微一笑”，等等——这都是“好人的笑”；也可以是“阴险的笑”、“不屑的笑”、“色眯眯的笑”、“任我行似的笑”、“冷笑”、“皮笑肉不笑”，等等——这很可能是“坏人的笑”。单就“笑”这个特征来说，一个好人发出“好人的笑”的概率更大，而且频率更高；而坏人则发出“坏人的笑”的概率更大，频率更高（电视上总能看见作奸犯科的人在暗地里发出挨千刀的笑）。当然，好人也有发出坏笑的时候（那种偶像剧里面男猪脚“坏坏的笑”），坏人也有发出好人的笑的时候（想想《不要和陌生人说话》里面的冯远征），这些就都是噪声了。

除了笑之外，这里可用的特征还有纹身，性别等可以考虑。朴素贝叶斯把类似“笑”这样的特征概率化，构成一个“人的样貌向量”以及对应的“好人/坏人标签”，训练出一个标准的“好人模型”和“坏人模型”，这些模型都是各个样貌特征概率构成的。这样，当一个品行未知的人来以后，我们迅速获取ta的样貌特征向量，分布输入“好人模型”和“坏人模型”，得到两个概率值。如果“坏人模型”输出的概率值大一些，那这个人很有可能就是个大坏蛋了。

决策树是怎么办的呢？决策树可能先看性别，因为它发现给定的带标签人群里面男的坏蛋特别多，这个特征眼下最能区分坏蛋和好人，然后按性别把一拨人分成两拨；接着看“笑”这个特征，因为它是接下来最有区分度的特征，然后把两拨人分成四拨；接下来看纹身，，，，最后发现好人要么在田里种地，要么在山上砍柴，要么在学堂读书。而坏人呢，要么在大街上溜达，要么在地下买卖白粉，要么在海里当海盗。这些个有次序的特征就像路上的一个个垫脚石（树的节点）一样，构成通往不同地方的路径（树的枝丫），这些不同路径的目的地（叶子）就是一个类别容器，包含了一类人。一个品行未知的人来了，按照其样貌特征顺序及其对应的特征值，不断走啊走，最后走到了农田或山上，那就是好人；走到了地下或大海，那就是大坏蛋。可以看出来，两种分类模型的原理是很不相同。

最低0.47元/天解锁文章