朴素贝叶斯总结

最新推荐文章于 2024-07-31 09:18:11 发布

funNLPer

最新推荐文章于 2024-07-31 09:18:11 发布

阅读量2.6k

点赞数

分类专栏：机器学习文章标签：概率论机器学习算法

本文链接：https://blog.csdn.net/orangerfun/article/details/121318574

版权

机器学习专栏收录该内容

20 篇文章 0 订阅

订阅专栏

文章目录

1. 简介
2. 贝叶斯算法具体步骤
3. 贝叶斯算法的一个实例
4. QA
- 4.1 为什么需要假设特征之间相互独立呢？
- 4.2 朴素贝叶斯分类的优缺点
5. 简单实现
参考

1. 简介

朴素贝叶斯是一种基于贝叶斯定理和特征条件独立假设的分类算法。对于给定的训练数据，朴素贝叶斯先基于特征条件独立假设学习输入和输出的联合概率分布，然后基于此分布对于新的实例，利用贝叶斯定理计算出最大的后验概率。朴素贝叶斯不会直接学习输入输出的联合概率分布，而是通过学习类的先验概率和类条件概率来完成。

贝叶斯定理：
$\mid x)=\frac{P(x, c)}{P(x)}=\frac{P(x \mid c) P(c)}{P(x)} \,\,\,\,\,\,\,\,(1-1)$
在这里插入图片描述
特征条件假设：条件独立假设就是说用于分类的特征在类确定的条件下都是条件独立的

2. 贝叶斯算法具体步骤

首先计算类先验概率: 直接在训练数据中统计得出每个类出现的频率
$p\left(y=c_{k}\right)=\frac{1}{N} \sum_{i=1}^{N} I\left(\tilde{y}_{i}=c_{k}\right), k=1,2, \cdots, K$
然后计算类条件概率：在训练数据中统计出在已知某个类的情况下各个特征出现的概率，分母是类 $c_k$ 在训练集中出现的次数，分子是类为 $c_k$ 且特征为 $a_j$ 的样本在训练集中出现的次数
$\begin{gathered} p\left(x_{j}=a_{j, l} \mid y=c_{k}\right)=\frac{\sum_{i=1}^{N} I\left(x_{i, j}=a_{j, l}, \tilde{y}_{i}=c_{k}\right)}{\sum_{i=1}^{N} I\left(\tilde{y}_{i}=c_{k}\right)} \\ j=1,2, \cdots, n ; l=1,2, \cdots, s_{j} ; k=1,2, \cdots, K \end{gathered}$
最后给定新的实例，计算其对应的最大后验概率 $P(c_i|x)$ ，然后判断其所属的类别：从式(1-1)中可以看出，无论 $c_i$ 是何类别，分母都是P(x)，因此，在计算后验概率时可以对每个类别都不要除以P(x)，这样最后得出的结果同样正确
$\hat{y}=\arg \max _{c_{k}} \, p\left(y=c_{k}\right) \prod_{j=1}^{n} p\left(x_{j} \mid y=c_{k}\right)$

3. 贝叶斯算法的一个实例

给定如下数据，男生向女生求婚，男生的四个特点分别是不帅，性格不好，身高矮，不上进，请你判断一下女生是嫁还是不嫁？
在这里插入图片描述
我们最终目标是比较p(嫁|(不帅、性格不好、身高矮、不上进))与p(不嫁|(不帅、性格不好、身高矮、不上进))的概率哪个大

$p(嫁|(不帅、性格不好、身高矮、不上进))=\frac{p(嫁)p(不帅、性格不好、身高矮、不上进|嫁)}{p(不帅、性格不好、身高矮、不上进)} \,\,\,\,\,\,\,\,(3-1)$

$p(不嫁|(不帅、性格不好、身高矮、不上进))=\frac{p(不嫁)p(不帅、性格不好、身高矮、不上进|不嫁)}{p(不帅、性格不好、身高矮、不上进)} \,\,\,\,\,\,\,\,(3-2)$

发现了没，两个公式的分母相同，所以可以直接比较分子的大小即可，无需计算分母（与第二节中的第三点对应）

下面以式（3-1）为例进行讲解：
根据独立性假设， $p (不帅、性格不好、身高矮、不上进 ∣ 嫁) = p (不帅 ∣ 嫁) p (性格不好 ∣ 嫁) p (身高矮 ∣ 嫁) p (不上进 ∣ 嫁)$

我们从给定的数据集中统计得出：p(嫁) = 6/12（总样本数） = 1/2，p(不帅|嫁) = 3/6 = 1/2，p(性格不好|嫁)= 1/6，p(矮|嫁) = 1/6，p(不上进|嫁) = 1/6

所以我们可以得出 $p (嫁 ∣ (不帅、性格不好、身高矮、不上进))$ ，同理可得出 $p (不嫁 ∣ (不帅、性格不好、身高矮、不上进))$ ，最后比较两者大小即可

4. QA

4.1 为什么需要假设特征之间相互独立呢？

假如没有这个假设，那么我们对右边这些概率的估计其实是不可做的，这么说，我们这个例子有4个特征，其中帅包括{帅，不帅}，性格包括{不好，好，爆好}，身高包括{高，矮，中}，上进包括{不上进，上进}，那么四个特征的联合概率分布总共是4维空间，总个数为233*2=36个，计算机扫描统计还可以，但是现实生活中，往往有非常多的特征，每一个特征的取值也是非常之多，那么通过统计来估计后面概率的值，变得几乎不可做，这也是为什么需要假设特征之间独立的原因。

假如我们没有假设特征之间相互独立，那么我们统计的时候，就需要在整个特征空间中去找，比如统计p(不帅、性格不好、身高矮、不上进|嫁),我们就需要在嫁的条件下，去找四种特征全满足分别是不帅，性格不好，身高矮，不上进的人的个数，这样的话，由于数据的稀疏性，很容易统计到0的情况，这样是不合适的。