西瓜书——贝叶斯分类器+EM算法

最新推荐文章于 2021-07-14 21:58:03 发布

又笨又懒的猪

最新推荐文章于 2021-07-14 21:58:03 发布

阅读量1.3k

点赞数

分类专栏：机器学习文章标签：朴素贝叶斯 EM算法

本文链接：https://blog.csdn.net/weixin_43496455/article/details/103588477

版权

机器学习专栏收录该内容

7 篇文章 0 订阅

订阅专栏

西瓜书贝叶斯分类器详解https://blog.csdn.net/yangjingjing9/article/details/79986371

贝叶斯分类器应用—水果分类https://blog.csdn.net/qq_25948717/article/details/81744277

贝叶斯分类器应用—影评态度分类https://blog.csdn.net/lsldd/article/details/41542107

贝叶斯分类器应用—判断天气是否适合打高尔夫球https://blog.csdn.net/sinat_36246371/article/details/60140664

贝叶斯决策论

贝叶斯决策论是概率框架下实施决策的基本方法。对分类任务来说，在所有相关概率都已知的理想情形下，贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的类别标记。（选择具有最高概率的决策）

朴素贝叶斯分类器

事实上，朴素贝叶斯的独立性假设在现实应用中往往很难实现，但其在很多情形下都能获得相当好的性能。一种解释是对分类任务来说，只需各类别的条件概率排序正确、无须精准概率值即可导致正确分类结果；另一种解释是，若属性间依赖对所有类别影响相同，或依赖关系的影响能相互抵消，则属性条件独立性假设在降低计算开销的同时不会对性能产生负面影响。

朴素贝叶斯的优缺点、适用场景

优点

①在数据较少的情况下仍然有效，可以处理多类别问题。

②适合增量式训练，尤其是数据量超出内存时，可以一批批的去增量训练。

③对缺失数据不太敏感，算法也比较简单，常用于文本分类。

缺点

①对输入数据的准备方式比较敏感。
（比如我们的数据有两个特征A和B，第一个特征是a,a,b,b，如果第二个特征我们用的是d,e,f,g这样的形式，那么其实还好，数据相关性不一定那么强.如果之前对数据的表达形式做了整理，比如d,e发现其实很接近，我们归成了一类de, f和g也归成了一类fg，那么第二个特征就是de,de,fg,fg,这样就和第一个特征强相关了，不独立了。也就是特征的表达形式是很敏感的，因为它会对独立性假设有影响。）

②属性之间相互独立，这个假设在实际应用中往往是不成立的。在属性个数比较多或者属性之间相关性较大时，朴素贝叶斯的分类效果表现并不好。

③需要知道先验概率，且先验概率很多时候取决于假设，假设的模型可以有很多种，因此在某些时候会由于假设的先验模型的原因导致预测效果不佳。

④分类器是通过先验和数据来决定后验的概率从而决定分类，所以分类决策存在一定的错误率。

使用数据类型

标称型数据。

注：标称型数据与数值型数据

监督学习一般使用两种类型的目标变量：标称型和数值型。

标称型：标称型目标变量的结果只在有限目标集中取值，如真与假(标称型目标变量主要用于分类)。

数值型：数值型目标变量则可以从无限的数值集合中取值，如0.100，42.001等 (数值型目标变量主要用于回归分析)。

适用场景

文本分类/垃圾文本过滤/情感判别：因为多分类很简单，同时在文本数据中，分布独立这个假设基本是成立的。而垃圾文本过滤(比如垃圾邮件识别)和情感分析(微博上的褒贬情绪)用朴素贝叶斯也通常能取得很好的效果。

多分类实时预测：对于文本相关的多分类实时预测，它因为上面提到的优点，被广泛应用，简单又高效。

推荐系统：协同过滤是强相关性，但是泛化能力略弱，朴素贝叶斯和协同过滤一起，能增强推荐的覆盖度和效果。

贝叶斯分类器公式推导

在这里插入图片描述

注：极大似然估计

极大似然估计百度百科：https://baike.baidu.com/item/极大似然估计/3350286?fr=aladdin
正态分布的最大似然估计：https://www.cnblogs.com/bigmonkey/p/11353662.html
在这里插入图片描述

基于有限训练样本直接估计联合概率，在计算上将会遭遇组合爆炸问题，在数据上会遭遇样本稀疏问题；属性值越多，问题越严重。
为了解决这个问题，朴素贝叶斯分类器采用了“属性条件独立性假设”：对已知类别，假设所有属性相互独立。即假设每个属性独立地对分类结果发生影响。
在这里插入图片描述

半朴素贝叶斯分类器

半朴素贝叶斯分类器是在朴素分类器的基础上，对属性条件独立性假设进行了一定程度的放松，适当地考虑了一部分属性间的相互依赖信息，从而既不需要进行完全联合概率计算，又不至于彻底忽略了比较强的属性依赖关系。

贝叶斯网

贝叶斯网又称“信念网”，它借助有向无环图（DAG）来刻画属性之间的依赖关系，并使用条件概率表（CPT）来描述属性的联合概率分布。

EM算法

EM期望最大算法是一种从不完全数据或有数据丢失的数据集（存在隐含变量）中求解概率模型参数的最大似然估计方法。

优点：

能够处理数据缺失或数据不可用的问题。
算法简单，能非常可靠地找到“最优的收敛值”。基于这种思想，其应用也非常广泛，能解决很多问题。

缺点：

对初始值敏感：EM算法需要初始化参数θ，而参数θ的选择直接影响收敛效率以及能否得到全局最优解。

EM算法的应用：

k-means算法是EM算法思想的体现，E步骤为聚类过程，M步骤为更新类簇中心。
GMM（高斯混合模型）也是EM算法的一个应用。

EM算法详解：

https://blog.csdn.net/zouxy09/article/details/8537620
https://blog.csdn.net/zhihua_oba/article/details/73776553
https://blog.csdn.net/u010834867/article/details/90762296

在这里插入图片描述
最大期望算法（Expectation-maximization algorithm，又译为期望最大化算法），是在概率模型中寻找参数最大似然估计或者最大后验估计的算法，其中概率模型依赖于无法观测的隐性变量。

最大期望算法经过两个步骤交替进行计算：

      第一步是计算期望（E），利用对隐藏变量的现有估计值，计算其最大似然估计值；

      第二步是最大化（M），最大化在E步上求得的最大似然值来计算参数的值。M步上找到的参数估计值被用于下一个E步计算中，这个过程不断交替进行。

在这里插入图片描述
事实上，隐变量估计问题也可以通过梯度下降等优化算法求解，但由于求和的项数将随着隐变量的数目以指数级上升，会给梯度计算带来麻烦；而EM算法则可看作是一种非梯度优化方法。
EM算法可看作是坐标下降法来最大化对数似然下界的过程。

又笨又懒的猪

关注

0
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
西瓜书——贝叶斯分类器+EM算法

西瓜书贝叶斯分类器详解：https://blog.csdn.net/yangjingjing9/article/details/79986371贝叶斯分类器应用—水果分类https://blog.csdn.net/qq_25948717/article/details/81744277贝叶斯分类器应用—影评态度分类https://blog.csdn.net/lsldd/article/deta...
复制链接

扫一扫

专栏目录