贝叶斯分类器

最新推荐文章于 2024-06-02 08:00:00 发布

cdknight_happy

最新推荐文章于 2024-06-02 08:00:00 发布

阅读量3.5k

点赞数 1

分类专栏：机器学习

本文链接：https://blog.csdn.net/cdknight_happy/article/details/81697550

版权

机器学习专栏收录该内容

16 篇文章 1 订阅

订阅专栏

“种一棵树最好的时间是十年前，其次是现在”

1 频率域学派 VS 贝叶斯学派

1.1 常见概率

先验概率
根据经验获取的概率，是对事件发生情况的经验性判断。表示成 $p(\theta)$ 的形式。
似然
一般表示成 $p(x|\theta)$ 的形式，x已知， $\theta$ 未知，是指在某个参数 $\theta$ 下，得到观测样本x的概率有多大。
后验概率
执果寻因，事件已经发生，其发生是由各因素引起的可能性为多大。
一般表示成 $p(\theta|x)$ 的形式，表示在已知观测样本的情况下，由参数 $\theta$ 导致得到该观测样本的概率为多大。
贝叶斯公式
$\frac{P(B|A)P(A)}{P(B)}$
假如A是条件，B是结果。贝叶斯公式告知我们如何交换条件概率中的条件与结果。

举例：参考自https://www.cnblogs.com/yemanxiaozu/p/7680761.html

1.2 问题引出

在机器学习的分类任务中，往往需要判断观测到样本x的类别c，即计算似然概率 $P (x ∣ c)$ 。假定 $P (x ∣ c)$ 具有确定的形式且被参数 $\theta$ 唯一确定，那么我们的任务就是根据训练数据集D去估计参数 $\theta$ ，为明确起见，我们将 $P (x ∣ c)$ 表示成 $P(x|\theta)$ 。

实际上，概率模型的训练过程就是参数估计的过程。对于参数 $\theta_c$ 的估计，统计学界的两个学派提供了不同的解决方案，这两个学派就是下面要介绍的频率学派和贝叶斯学派。

1.3 频率学派 and MLE

频率学派的观点认为参数 $\theta$ 是一个确定的未知数，就是说参数本身是确定的，只是暂时未知而已。

频率域学派求解参数的典型方法是最大似然估计(Maxmium likelihood estimation,MLE)。

MLE的思想为：
对于数据集D，一般假设其似然函数具有某种确定的形式且可以用参数 $\theta$ 进行表示，则对D中的每一个样本 $x_i$ ，都对应一个似然函数 $P(x_i|\theta)$ ，似然函数的含义是对于当前观测到的样本，似乎假定参数为 $\theta$ 是合理的。那么对于整个样本D而言，其似然函数为 $L(\theta)=\Pi_{i=1}^{m}P(x_i|\theta)$ 。

为什么上面是连乘的形式？因为对每一个样本 $x_i$ ，根据似然概率可以得到最适合该样本自身的参数 $\theta$ ，而对于数据集D，其中的各样本是独立同分布的，那么我们现在想找到对于整个数据集D最合适的参数 $\theta$ ，就需要对各样本的似然函数进行连乘，得到一个联合概率估计，当这个值最大时，就表示基于全体训练样本得到的参数 $\theta$ 与其真实值之间的偏差最小。

往往在实际运算的时候，由于各样本的似然概率值都小于1，当样本数量很多时，无限的连乘很容易造成参数下溢，而对数函数不会改变取极值的位置且由连乘变成连加之后易于计算，因此往往进行取对数处理。即定义似然函数为： $L(\theta) = \sum_{i=1}^{m} \log P(x|\theta)$ .

因此，MLE求解的极值即为 $\hat{\theta}_{ML} = arg max \log L(\theta)$ .

1.4 贝叶斯学派 and MAP

贝叶斯学派的观点不同于频率学派，其认为参数 $\theta$ 同样为随机变量，也有其自己的分布 $P(\theta)$ 。

一般而言，机器学习的实践者会选择一个相当宽泛的先验分布 $P(\theta)$ ，以表示参数 $\theta$ 的高度不确定性。假设有一组样本 $\{x_1,x_2,\cdots,x_m\}$ ，根据贝叶斯准则，我们可以得到参数 $\theta$ 的后验概率为：
$P(\theta|D) = \frac{P(D|\theta)P(\theta)}{P(D)}$ .

在贝叶斯估计常用情况下，先验分布 $P(\theta)$ 起始通常是相对均匀的分布或高熵的高斯分布，观测样本通常会使得后验概率的熵值下降，从而集中参数于几个可能性最高的值上。这句话的含义是，贝叶斯估计并不是得到一个确定的参数，而是得到一个参数的分布，参数在分布的每一点处都是有可能的，只不过不同位置的概率大小不同而已。

贝叶斯估计和最大似然估计的区别是：

最大似然估计是参数的点估计，得到了参数的具体值。而贝叶斯估计是参数的全估计。那么根据贝叶斯估计和训练集D得到参数 $\theta$ 的估计后，在对新样本进行预测时，就需要 $P(x^{m+1}|D) = \int P(x^{m+1}|\theta)P(\theta|D)d\theta$ ，即根据训练集D得到的 $\theta$ 的分布的任一值都对新样本的类别判断发生作用；
最大似然方法关心的是参数的似然概率，贝叶斯估计关心的是参数的后验概率；
贝叶斯估计中引入了参数的先验概率 $P(\theta)$ ，如果估计的先验概率符合真实情况，则有益，如果偏差较大，则起到了负面的作用。成也萧何，败也萧何。

MAP：
最大后验概率，Maximum A Posteriori,MAP。

如上面贝叶斯估计所示，我们应当使用参数 $\theta$ 的全分布进行新样本的预测，但单个的点估计通常也是有必要的。这是因为涉及到贝叶斯全分布的预测往往计算量比较大，而使用点估计可以得到一个可行的近似解。

MAP就是贝叶斯估计的点估计版本。

MAP选择使得后验概率最大的参数点 $\theta$ 。即：
$\theta_{MAP} = arg max_{\theta} P(\theta|x) = argmax_{\theta} \log P(x|\theta) + \log P(\theta)$ 。
左式对应标准的对数似然项，右式对应参数的先验分布。也就是说MAP是在MLE的基础上加上了先验分布的对数形式。

相比于最MLE，MAP优势是利用了无法从训练数据中得到的先验信息。该信息有助于减小最大后验估计的误差，代价是增加了方差。

1.5 频率域学派与贝叶斯学派的区别

价值观不同：频率域学派认为参数固定未知，贝叶斯学派认为参数为随机变量；
求解对象不同：频率域学派求解似然概率，贝叶斯学派求解后验概率；
核心区别：要不要引入参数的先验信息。

2 贝叶斯决策论

贝叶斯决策论是基于概率的方法来进行决策的基本方法。对于分类任务而言，在所有概率值都已知的情况下，贝叶斯决策论考虑如何基于这些概率最小化误分类损失来获取各样本的最优分类结果。

以多分类任务为例，假设样本集共有N种可能分分类类别，即 $\{C_1,C_2,\cdots,C_N\}$ ，定义 $\lambda_{ij}$ 为将某真实类别为 $C_j$ 的样本误分类为 $C_i$ 类造成的损失。基于后验概率 $P(C_i|x)$ 可得将样本x误分类为类别 $C_i$ 所造成的期望损失，其在样本x上的条件风险。 $R(C_i|x) = \sum_{i = 1}^{N} \lambda_{ij}P(C_i|x)$ .

那么我们的目标是最小化这个期望损失，即找到一个最优的分类模型 $h (x)$ ，基于该模型的分类结果所造成的期望损失是最小的。因此我们的目标就是最小化 $R(h) = E_x[R(h(x)|x)]$ ，也就是说对每一个样本x，选择能够使条件风险最小的类别标记，即 $h^*(x) = arg min _{c \in y} R(c|x)$ ，此时 $h^*(x)$ 称为贝叶斯最优分类器，与之对应的总体风险 $R(h^*)$ 称为贝叶斯风险。 $1-R(h^*)$ 反映了通过机器学习所能达到的最好性能，即能够训练得到的模型精度上限。

对于分类任务，定义
$\lambda_{ij} = \begin{cases} 0 ,i = j \\ 1,i \neq j \end{cases}$
那么，假设共有N类，则 $R (c ∣ x) = 1 * (1 - P (c ∣ x))$ ，此时最优贝叶斯分类器为 $h^*(x) = argmax_{c\in y}P(c|x)$ ，即对每个样本x选择能够使得后验概率 $P (c ∣ x)$ 最大的类别标记。这也是为什么贝叶斯学派关心后验概率的原因。

根据上面的分析，我们现在的目标已经变成了从有限的训练数据集中尽可能准确地估计出后验概率 $P (c ∣ x)$ 。针对 $P (c ∣ x)$ 的估计，有两种常见的策略：

判别式模型，直接计算 $P (c ∣ x)$ ，logistic regression，SVM，神经网络，LDA都是常见的该类模型;
生成式模型，计算联合概率 $P (x, c)$ ，再根据贝叶斯准则计算得到后验概率 $P (c ∣ x)$ ，高斯判别分析、贝叶斯分类属于该类模型。

两者的核心区别也就是是否使用了参数 $\theta$ 的先验分布信息。

对于贝叶斯分类模型，在贝叶斯准则中，分子是 $P (x ∣ c)$ 和 $P (c)$ ，分母是 $P (x)$ 。 $P (c)$ 可以根据训练集中各类样本出现的次数计算其概率；由于贝叶斯分类器最终做出样本类别的判断是基于样本属于各类后验概率的相对大小而不是绝对大小，而 $P (x)$ 对于同一样本的不同类别之间是相同的，因此分母可以忽略不记。因此难点也就回到了如何去计算似然概率 $P (x ∣ c)$ 。

MLE是计算似然概率的一个典型方法，但是该方法基于所认为的似然函数与真实分布情况相近的假设，如果不满足该假设则会造成比较大的估计误差。因此这里可以用贝叶斯估计来完成分类问题。

3 朴素贝叶斯分类器

3.1 核心思想

根据上面的分析，我们已经知道现在拟通过贝叶斯估计来完成样本的分类任务，因此需要计算似然概率 $P (x ∣ c)$ 和 $P (c)$ 。

对于 $P (x ∣ c)$ 来说，由于涉及到样本所有属性的联合概率，直接计算往往对样本量的需求很大。如假设样本包含d个二值属性，那么计算该联合概率需要 $2^d$ 个训练样本，该值很容易超过可以获得的训练样本的数量。也就是说，很多样本取值在训练集中根本就没有出现过，直接使用频率来估计 $P (x ∣ c)$ 显然不可行，因为“没有观测到”不等于“没有出现过”。

针对这个问题，提出了朴素贝叶斯分类器，所谓“朴素”就是指样本各维特征对分类结果的影响是相互独立的。基于这个假设，计算联合似然概率 $P (x ∣ c)$ 所需的样本数就减小为了2*d，大大减小了所需的样本数量，也就避免了上一段提到的样本数量不足的问题。

基于“朴素”假设，朴素贝叶斯分类即为计算 $P(c|x_i) = \frac{P(x_i|c)P(c)}{P(x)}$ ，对一个样本而言， $P (x)$ 保持不变，可以忽略； $P (c)$ 可以根据训练集中各类别样本出现的频率进行计算；核心点就在于根据训练集计算出 $P(x_i|c)$ 。也就是说朴素贝叶斯分类器的训练过程即为计算 $P (c)$ 和各属性与类别之间的条件概率 $P(x_i|c)$ ，这里的 $x_i$ 表示样本的各属性。在对新样本进行分类时，根据新样本各属性的取值，计算 $P(c|x)=\Pi _{i=1}^{d}P(c|x_i)$ ，最终分类样本x为具有最大后验概率的类别。

3.2 使用举例

3.2.1 周志华《机器学习》西瓜分类

训练集：
这里写图片描述

训练过程：计算概率
$P (c)$ :
$\frac{8}{17}$
$\frac{9}{17}$

$P(x_i|c)$ :

$P (色泽 ∣ c)$ :
$\frac{3}{8}$
$\frac{3}{9}$
$\frac{4}{8}$
$\frac{2}{9}$
$\frac{1}{8}$
$\frac{4}{9}$

$P (根蒂 ∣ c)$ :
$\frac{5}{8}$
$\frac{3}{9}$
$\frac{3}{8}$
$\frac{4}{9}$
$\frac{0}{8}$
$\frac{2}{9}$

$P (敲声 ∣ c)$ :
$\frac{6}{8}$
$\frac{4}{9}$
$\frac{2}{8}$
$\frac{3}{9}$
$\frac{0}{8}$
$\frac{2}{9}$

$P (纹理 ∣ c)$ :
$\frac{7}{8}$
$\frac{2}{9}$
$\frac{1}{8}$
$\frac{4}{9}$
$\frac{1}{8}$
$\frac{3}{9}$

$P (脐部 ∣ c)$ :
$\frac{5}{8}$
$\frac{2}{9}$
$\frac{3}{8}$
$\frac{3}{9}$
$\frac{0}{8}$
$\frac{4}{9}$

$P (触感 ∣ c)$ :
$\frac{6}{8}$
$\frac{6}{9}$
$\frac{2}{8}$
$\frac{3}{9}$

这个例子里有意思的是出现了连续属性，按照书本里的介绍，应该按照概率密度函数，假设其符合高斯分布，计算均值和方差。即认为 $P(x_i|c)=\frac{1}{\sqrt{2\pi}\sigma_{c,i}}exp(-\frac{(x_i - u_{c,i})^2}{2\sigma_{c,i}^2})$ .

对密度特征：
是好瓜的均值为0.574，方差为0.129；
不是好瓜的均值为0.496，方差为0.195；

对含糖率特征：
是好瓜的均值为0.279，方差为0.101；
不是好瓜的均值为0.154，方差为0.108；

这里把所有的概率值都提前计算出来，使用时进行查表，即所谓的“懒惰学习”方式。

新样本预测：
给定新样本：
这里写图片描述

这里写图片描述
其是好瓜的概率：
$P(c=是好瓜|x)=\frac{3}{8}*\frac{5}{8}*\frac{6}{8}*\frac{7}{8}*\frac{5}{8}*\frac{6}{8}*1.959*0.788$ = 0.038
$P(c=不是好瓜|x)=6.8*10^{-5}$
两者比较大小，因此这个测试样本预测为好瓜。

使用朴素贝叶斯进行新样本预测时，由于在特征数很多时涉及到大量的较小数的连乘，结果很容易下溢出。解决办法是取对数，改连乘为连加。最后依然是比较测试样本属于各类别的后验概率的相对大小决定测试样本的预测类别。之所以使用对数函数是因为对数函数是单调递增函数，不改变函数原始的变化趋势，另外对数函数不改变原始函数极值点的位置。

3.2.2 拉普拉斯平滑

在上面的例子中，是有一个问题的，比如一个测试样本，其敲声=清脆，由于训练集中没有出现过敲声=清脆且类别=是好瓜的训练样本，所以对这样的测试样本进行预测时，其被分类为是好瓜的概率值一定为0。这样是不合理的，因为“没有观测到”不等于“没有出现过”。

解决方案也就是下面要介绍的拉普拉斯平滑。核心思想就是在计算每一个概率值时，都在分子上加1，分母是加该属性所有可能取值的类别数。如计算 $P (c)$ 时，分子上都加1，分母是加总的类别数，西瓜例子里这个值就是2；计算 $P(x_i = 敲声 | c)$ 时，分子都加1，分母都加3；而计算 $P(x_i = 触感 | c)$ 时，分子都加1，分母都加2。

这里写图片描述

拉普拉斯平滑实质上假设了属性值与类别的均匀分布，也是引入了一点先验信息，在训练集规模变大后，引入的均匀分布的先验对概率的影响逐步减小，估值逐渐趋向于实际概率值。这样做就避免了因训练集样本不充分造成的概率为0的问题。

3.2.3 CS229中介绍的文本分类

朴素贝叶斯分类器最经典的应用是用来进行文本分类任务。文本分类是指根据某给定文本中出现的单词判断该文本所属的类别，如是否为垃圾邮件、是否属于体育新闻等等。
根据不同的概率计算方式又分为词集模型(set-of-words model)和词袋模型(bag-of-words model)。

3.2.3.1 词集模型

词集模型认为有一个字典，字典中的每一个单词如果出现在了当前文本中，则置一个向量中该对应位置为1，否则为0。这样一份文本就可以表示成一个长度为字典单词个数的向量，向量元素非0即1。

词集模型属于多变量伯努利事件模型。

在朴素贝叶斯分类器训练的过程中，基于“朴素”假设，同样是计算 $P(c)和P(x_i|c)$ 。 $P (c)$ 还是根据训练集中各类样本出现的比例进行计算； $P(x_i|c=k)$ 还是通过第k类文本中第i个单词出现的概率进行计算，也就是文本属于第k类且词典中第i个单词出现的数目除以第k类文本总的数目得到。CS229根据MLE给出了为什么这么计算的详细推导过程。

文本分类中同样会出现预测样本中包含从未在训练集中出现的单词的情况，此时直接计算 $P(x_j|c)$ 为0.解决方案同样是使用拉普拉斯平滑，计算各 $P(x_j|c)$ 时分子加1，分母加上该单词j所有可能出现的情况，这里就是出现和不出现两种，所以分母加2；而计算 $P (c)$ 的时候，则是分子加1，分母加上文本所有可能的类别数。

3.2.3.2 词袋模型

词袋模型同样有一个字典，但是对每一个文本进行向量化表示的时候不是以单词是否出现为标准，而是以文本中包含的单词在字典中的编号为标准。这样对每一个文本进行向量化表示之后，向量的长度等于该文本中单词个数，且包含的元素取值为1到V，V表示字典中总的单词个数。

词袋模型属于多维事件模型。

在进行基于训练集的概率计算时，同样基于“朴素”假设， $P (c)$ 计算同词集模型相同。但 $P (x = j ∣ c = k)$ 的计算略有不同，应该为训练集中类别为k的文本中字典中排序为j的单词出现的总次数除以类别为k的文本中出现的总的单词个数。

而在进行拉普拉斯平滑时， $P (c)$ 同于词集模型， $P (x = j ∣ c = k)$ 分子加1，分母加上的是V，因为每一个单词在字典中序号共有V种。

3.2.4 再啰嗦两句拉普拉斯平滑

拉普拉斯平滑目的是其他属性携带的信息被训练集种未出现的信息抹去，避免出现概率为0的情况。
核心思想是假设各属性的每一种取值起始分布都是均匀分布。
做法是分子加1，分母加上对应的值。在西瓜例子种，敲声可能取值共有“清脆”“浊响”“稍浊”三种，所以拉普拉斯平滑时分母加3；而在词集模型中，关心的是字典中的每一个单词是不是出现在了训练集中，共有“出现”“不出现”两种，所以分母加2；而在词袋模型中，关心的是训练集中的单词在字典中的编号，取值共有V种，即字典总的单词个数，所以分母加V。不知道这样解释是不是对，请大家批评指正。