本文链接：https://blog.csdn.net/qq_41375318/article/details/102835726

$朴素贝叶斯分类器$

一贝叶斯定理

在这里插入图片描述

二贝叶斯公式推导

2.1条件概率

定义:设A,B是试验E的两个随机事件，且P(B)>0,则称

在这里插入图片描述

在B条件下A发生的概率=AB同时发生的概率/B发生的概率

通过下图，此公式非常容易理解：P（A|B）就是在B条件下A的面积，P（AB）就是共同面积，P（B）就是B的面积
在这里插入图片描述

2.2 乘法公式

由条件概率推导出了乘法公式：

在这里插入图片描述

即得乘法公式

在这里插入图片描述

再由

在这里插入图片描述

即可得贝叶斯公式

在这里插入图片描述

三一般化的贝叶斯公式

设A1, A2,…,An是样本空间Q的一个划分，P(Ai)>0,i=1,2,…,n ,B是任一事件，则有

在这里插入图片描述

四一般化贝叶斯公式推导

4.1 全概率公式

定理(全概率公式):
设A1, A2,…,An是样本空间Q的一个划分，P(Ai)>0,i=1,2,…,n ,B是任一事件，则有

在这里插入图片描述

4.2 全概率公式证明

在这里插入图片描述

可由下图直观感受

在这里插入图片描述

4.3 一般贝叶斯公式推导

设A1, A2,…,An是样本空间Q的一个划分，P(Ai)>0,i=1,2,…,n ,B是任一事件，则有

在这里插入图片描述

4.4 连续概率的贝叶斯定理形式：

在这里插入图片描述

5 朴素贝叶斯分类器（Naive Bayes Classifier)

5.1 朴素贝叶斯分类模型

“朴素贝叶斯”（Naïve Bayes）既可以是一种算法——朴素贝叶斯算法，也可以是一种模型——朴素贝叶斯分类模型（分类器）。

首先我们来讲作为算法的 Naïve Bayes，朴素贝叶斯算法可以直接利用贝叶斯定理来实现。
先来看简洁版的贝叶斯定理：

在这里插入图片描述
假设，影响 B 的因素有 n 个，分别是 b1,b2,…,bn。而P（A）代表类别是A的概率

A 的先验概率 P(A) 和多个因素的联合概率 P(b1,b2,…,bn) 都是可以单独计算的，与 A 和 bi 之间的关系无关，因此这两项都可以被看作常数。

对于求解
P(A|b1,b2,…,bn)，最关键的是 P(b1,b2,…,bn|A)。根据链式法则，可得：
在这里插入图片描述

链式法则比较难以理解，这里画图说明：举实例，只有b1,b2的情况下

在这里插入图片描述

如果从b1到bn这些特征之间，在概率分布式上是条件独立的，也就是每一个特征与其他特征都不相关
那么在 i不等于j的情况下，有
在这里插入图片描述

在这里插入图片描述
上式中b1到bn是特征，而A是最终的类别，所以
换一个写法

这个公式也就是我们的朴素贝叶斯分类器的模型函数！

5.2 朴素贝叶斯是如何做分类的

1.有一个朴素贝叶斯分类器模型器，它能够区分k个类别（c1、c2…ck），用来分类的特征有n个：（F1、F2…Fn）
2.现在有个样本s,我们要用NB分类器对它做预测，则需要先提取出这个样本的所有特征值F1到Fn,将其带入到下式中进行K次运算：
在这里插入图片描述
3.然后比较这k次的结果，选出使得运算结果达到最大值的那个cj，这个cj就是对应类别的预测值。

5.3 实例

假设有一家小公司招收机器学习工程师，为了在更广泛的范围内筛选人才，他们写了一些爬虫，去各个招聘平台、职场社交平台爬取简历，然后又写了一个简单的分类器，来筛选他们感兴趣的候选人。

这个筛选分类器是朴素贝叶斯分类器，训练数据是现在公司里的机器学习工程师和之前来面试过这一职位，没有被录取的人员的简历。

数据收集如下：
在这里插入图片描述
根据数据进行计算：

直接从上图的样本中进行下图计算（c1录取，10个里面有6个，所以P(C=c1)=0.6，其他一样计算而出）
在这里插入图片描述
假设这时候一个样本x的特征值为f11,f22,f31(985毕业，硕士，掌握c++)，那么：

思路：在训练的样本的基础上做一系列概率运算，然后用这些算出来的概率按朴素贝叶斯公式拼装成分类模型—这就成就了朴素贝叶斯分类器。

有人惊了！妈呀。训练过程连从模型函数、目标函数都不需要的吗？都不需要。

上述例子之所以这样简单，是因为我们简单地将频率当成了概率。但在现实应用中，这种方法往往不可行，因为这种方法实际上默认了“未被观测到”的就是“出现概率为0”的。这样做显然是不合理的。

比如：上面例子中，由于样本量太小，“博士”候选人只有两位，而且全部被录取，因此对于“未被录用”的情况而言，学历是博士的条件概率就变成了0。这种情况使得学历是否是博士成了唯一决定因素，显然不合理。

虽然我们可以靠做一些简单的变换——比如加一平滑法（就是把概率计算为：对应类别样本中该特征值出现次数 + 1 /对应类别样本总数）——来规避除以0的情况，但是这样做的“准确性”仍然非常不可靠。

额外补充

实例：

NB（朴素贝叶斯是如何做分类的）

1.有一个朴素贝叶斯分类器模型器，它能够区分k个类别
（c1、c2…ck），用来分类的特征有n个：（F1、F2…Fn）
2.现在有个样本s,我们要用NB分类器对它做预测，则需要先提取出这个样本的所有特征值F1到Fn,将其带入到下式中进行K次运算：
在这里插入图片描述
3.然后比较这k次的结果，选出使得运算结果达到最大值的那个cj,这个cj就是对应类别的预测值。

假设我们当前有一个模型，总共只有两个类别：c1 和 c2；有三个 Feature：F1、F2和F3。
F1 有两种可能性取值：f11 和 f12
F2 有三种可能性取值：f21、f22、f23
F3 也有两种可能性取值：f31、f32
在这里插入图片描述
把这些概率值都计算出来以后，就可以用来做预测了。

比如我们有样本X，它的特征值分别是f11,f22,f31,那么：
在这里插入图片描述
两者都算出来以后，只需要对比谁更大，那么就是对应类别。
上面那些先验概率和条件概率是如何得到的呢？

通过在训练样本中间做统计，就可以直接获得

在这里插入图片描述

补充：乘法公式的推广：
用归纳法得出推导公式
P(ABC) = P(AB)P(C|AB) 把AB看成一个整体
然后再看 P(AB)= P(A)P(B|A)
归纳法用的时候du也是这样的，
由归纳假设，把A1A2看成一zhi个整体，那么A1A2，A3，…,An 就是n-1个事件
由归纳假设，运用n-1个事件时的公式可以得到
P(A1…An) = P(A1A2)P(A3|A1A2)…P(An|A1A2…An)
然后再用2个事件时的公式把P(A1A2)分解成P(A1)P(A2|A1)代入就可以完成证明