机器学习之朴素贝叶斯、贝叶斯网络

最新推荐文章于 2024-08-14 22:32:50 发布

liuy9803

最新推荐文章于 2024-08-14 22:32:50 发布

阅读量2.4k

点赞数 1

分类专栏：机器学习

本文链接：https://blog.csdn.net/liuy9803/article/details/80858014

版权

机器学习专栏收录该内容

25 篇文章 11 订阅

订阅专栏

一、贝叶斯决策论

贝叶斯决策论（Bayesian decision theory）是在概率框架下实施决策方案的基本方法。不要求分类器给出明确的分类结果，而是要给出一个最大概率的类别估计。基本思想是，利用已知类的条件概率和先验概率估计部分未知概率，应用贝叶斯公式转换为后验概率，根据期望损失最小化/后验概率最大化的方法得出最优决策。

使用这种方法得到的模型是生成式模型，即对联合概率分布建模，再由此获得后验概率；与之对应的是判别式模型，即给定输入数据，直接对条件概率建模获得模型参数。

相关公式和概念

（1）先验概率P(A)：在不考虑任何情况下，A发生的概率。

（2）条件概率P(B|A)：A事件发生的情况下，B事件发生的概率。

P(B|A)=P(AB)/P(A)

（3）后验概率P(A|B)：在B事件发生后，对A时间发生概率的重新评估。

（4）全概率：如果A_i构成样本空间的一个划分，那么B事件的概率为A_i的概率分别乘以B对这i个事件的概率之和。

P(B)=Σ_iP(A_i)*P(B|A_i)

（5）边缘概率：是某个事件发生的概率，与其他事件无关。在联合概率中，把最终结果中不需要的那些事件合并成其事件的全概率而消失，即不再考虑其他事件的影响，实际上进行了降维的操作。

边缘概率P(B)、联合概率、条件概率的关系：

P(B)=Σ_jΣ_iP(A_i,B_j)=Σ_jΣ_iP(B_j|A_i)P(A_i)

（6）贝叶斯公式：

二、朴素贝叶斯法

朴素贝叶斯（Naïve Bayes，NB）是基于‘特征之间是相互独立的’这一最简单的假设，应用贝叶斯决策论的监督学习算法。基于特征条件独立的假设学习输入输出的联合概率分布，对给定的输入x求出后验概率最大的输出y。由于假设属性之间独立，会损失一部分精度，可以用半朴素贝叶斯算法考虑部分关联性以适度改进。NB可以处理多分类问题，在数据较少的情况下仍然有效，适合增量式训练，对缺失数据不太敏感但对输入数据的准备方式较为敏感。

1、朴素贝叶斯法推导

m个数据的训练数据集D={(x⁽¹⁾,y⁽¹⁾),(x⁽²⁾,y⁽²⁾),...,(x^(m),y^(m))}，其中x⁽ⁱ⁾=(x₁⁽ⁱ⁾,x₂⁽ⁱ⁾,...,x_n⁽ⁱ⁾)为n维向量，y⁽ⁱ⁾∈Y=(c₁,c₂,...,c_k)有K种取值，则每个样本x⁽ⁱ⁾的类别概率可以由朴素贝叶斯法得到：

对于所有类别来说P(x⁽ⁱ⁾)相同，所以得到最大的后验概率作为x⁽ⁱ⁾的类别：

2、NB参数估计

先验概率为训练集中第k类样本数|D_k|除以总样本数|D|，k=1,2,...,K：

条件概率的计算根据x分为离散型或连续型两种情况。

（1）伯努利朴素贝叶斯

当特征属性为离散型且服从伯努利分布,即每个特征的取值为0或1（在文本分类中就是一个单词出现或不出现），条件概率计算方法是：

当特征x_j⁽ⁱ⁾取值为1时，P(x_j⁽ⁱ⁾|y⁽ⁱ⁾=c_k)=P(x_j⁽ⁱ⁾=1|y⁽ⁱ⁾=c_k)；

当特征x_j⁽ⁱ⁾取值为0时，P(x_j⁽ⁱ⁾|y⁽ⁱ⁾=c_k)=1-P(x_j⁽ⁱ⁾=1|y⁽ⁱ⁾=c_k) ——意味着’没有某个特征’也是一个特征。

可以将二者合并为一行来表示条件概率：

P(x_j⁽ⁱ⁾|y⁽ⁱ⁾=c_k)=P(x_j⁽ⁱ⁾=1|y⁽ⁱ⁾=c_k)*x_j⁽ⁱ⁾+[1-P(x_j⁽ⁱ⁾=1|y⁽ⁱ⁾=c_k)]*(1-x_j⁽ⁱ⁾)

（2）多项式朴素贝叶斯

当特征属性为离散型时，也可以假设其符合多项式分布，令D_k,aj表示D_k中第j维属性取值为a_j的样本组成的集合，则条件概率可表示为：

a_j在训练时有可能没有与某个类同时出现过，|D_k,aj|值为0，导致连乘后计算出的后验概率为零；为了避免其他属性携带的信息被训练集中未出现的属性值‘抹去’，因此要使用平滑（smoothing）对未出现的事件赋予一个概率。引入平滑值λ∈[0,1]，当λ=1时为Laplace平滑；当0<λ<1时为Lidstone平滑；当λ=0时不做平滑。

其中N_j表示第j维属性可能的取值总数，n为x⁽ⁱ⁾的维数。

多项式模型与伯努利模型的区别：多项式模型以单词为粒度，伯努利模型以文件为粒度；对于一个文档，多项式模型是只有在文档中出现过的单词才会参与后验概率的计算，而对伯努利模型，未在文档中出现，但在全局单词表中出现的单词，也会参与计算，不过是作为反方参与的。

（3）高斯朴素贝叶斯

对连续属性，假定条件概率服从正态分布，μ_k,j，σ_k,j分别是第k类中的样本在第j维属性上取值的均值和标准差，则有：

3、scikit-learn API of NB

朴素贝叶斯分类器有多种使用方式。如果任务对预测速度要求较高，则对给定训练集，将NB涉及到的所有概率腹肌事先计算好并存储起来，要用的时候只需要‘查表’即可进行判别；如果任务数据更替频繁，则采用‘懒惰学习（lazy learning）’的方式，先不进行训练，在收到预测请求时再根据当前数据集进行概率估计；如果数据不断增加，则可在现有估值基础上实行增量学习，仅对新增样本的属性值所涉及的概率估值进行修正即可。

当多个特征属性之间存在着某种相关关系时，就不能使用朴素贝叶斯法了，这时可以改用贝叶斯网络解决这类问题。

三、贝叶斯网络

概率图模型PGM（Probabilistic Graphical Model）是用图形模式表达基于概率相关关系的模型的总称，结合了概率论与图论的知识，基本的图模型包括贝叶斯网络、马尔可夫网络（无向图）和隐马尔可夫网络等。

贝叶斯网络（Bayesian Network）使用有向无环图DAG（Directed Acyclic Graph）描述属性之间的依赖关系，使用条件概率表CPT（Conditional Probability Table）描述属性的联合概率分布。一个贝叶斯网络B由结构G和参数Θ两部分构成，即B=<G,Θ>。

G的每个结点对应于一个随机变量（可以是观察到的变量、隐变量、未知参数等），若两个随机变量有依赖关系/非条件独立，则把它们由一条边连接起来；Θ定量描述这种依赖关系，即每个变量与给定其父结点的条件概率。

以Letter为例，父结点是Grade，子孙结点是job、Happy，所以Letter和SAT、Intelligence、Difficultly、Happy不通，在给定直接父结点时，结点与其直接后代结点以外的结点条件独立（图不通就独立）。