朴素贝叶斯

最新推荐文章于 2024-06-05 22:19:18 发布

加油吶

最新推荐文章于 2024-06-05 22:19:18 发布

阅读量134

点赞数

分类专栏：笔记讲义文章标签：机器学习概率论人工智能

本文链接：https://blog.csdn.net/m0_59100129/article/details/131912133

版权

朴素贝叶斯（Naive Bayes ） 是基于贝叶斯定理与特征条件独立假设的分类方法。朴素贝叶斯分类器发源于古典数学理论，有着坚实的数学基础，以及稳定的分类效率。同时，模型所需估计的参数很少，对缺失数据不太敏感，算法也比较简单。

朴素贝叶斯原理

在这里插入图片描述

条件概率：表示事件A在另外一个事件B已经发生条件下的发生概率，P(A|B)
- 在女神喜欢的条件下，职业是程序员的概率？
  1. 女神喜欢条件下，有 2、3、4、7 共 4 个样本
  2. 4 个样本中，有程序员 3、4 共 2 个样本
  3. 则 P(程序员|喜欢) = 2/4 = 0.5
联合概率：表示多个条件同时成立的概率，P(AB) = P(A) P(B|A)
特征条件独立性假设：P(AB) = P(A) P(B)
- 职业是程序员并且体型匀称的概率？
  1. 数据集中，共有 7 个样本
  2. 职业是程序员有 1、3、4 共 3 个样本，则其概率为：3/7
  3. 在职业是程序员，体型是匀称有 3 共 1 个样本，则其概率为：1/3
  4. 则即是程序员又体型匀称的概率为：3/7 * 1/3 = 1/7
- 【思考】：体型匀称并且是程序员的概率是多少？ P(B) P(A|B)
联合概率 + 条件概率：
- 在女神喜欢的条件下，职业是程序员、体重超重的概率？ P(AB|C) = P(A|C) P(B|AC)
  1. 在女神喜欢的条件下，有 2、3、4、7 共 4 个样本
  2. 在这 4 个样本中，职业是程序员有 3、4 共 2 个样本，则其概率为：2/4=0.5
  3. 在在 2 个样本中，体型超重的有 1 个样本，则其概率为：1/2 = 0.5
  4. 则 P(程序员, 超重|喜欢) = 0.5 * 0.5 = 0.25

简言之：
条件概率：在去掉部分样本的情况下，计算某些样本的出现的概率，表示为：P(B|A)
联合概率：多个事件同时发生的概率是多少，表示为：P(AB) = P(B)*P(A|B)

在这里插入图片描述

根据训练样本估计先验概率P©：P(喜欢) = 4/7
根据条件概率P(W|C)调整先验概率：P(程序员,超重|喜欢) = 1/4
此时我们的后验概率P(C|W)为：P(程序员,超重|喜欢) * P(喜欢) = 4/7 * 1/4 = 1/7
那么该部分数据占所有既为程序员，又超重的人中的比例是多少呢？
1. P(程序员,超重) = P(程序员) * P(超重|程序员) = 3/7 * 2/3 = 2/7
2. P(喜欢|程序员, 超重) = 1/7 ➗ 2/7 = 0.5

在前面的贝叶斯概率计算过程中，需要计算 P(程序员,超重|喜欢) 和 P(程序员, 超重) 等联合概率，为了简化联合概率的计算，朴素贝叶斯在贝叶斯基础上增加：特征条件独立假设，即：特征之间是互为独立的。

此时，联合概率的计算即可简化为：

朴素贝叶斯分类时，对给定的输入x，通过学习到的模型计算后验概率分布P(Y=c|X=x)，将后验概率最大的类作为x的类输出。

当有一个或几个属性的类条件概率为0导致整个类的后验概率为0的时候，朴素贝叶斯就失效了，无法根据朴素贝叶斯分类该记录。这里介绍的条件概率的m估计就是解决办法。

由于训练样本的不足，导致概率计算时出现 0 的情况。为了解决这个问题，我们引入了拉普拉斯平滑系数。

在这里插入图片描述

拉普拉斯平滑系数的作用------为了避免概率值为 0

考虑任务：预测一个贷款者是否会拖欠还款，我们基于以下图表做分析，假设有一组测试记录X={有房=否，婚姻状况=已婚，年收入=120W}，要分类该记录，我们需要利用训练数据中的可用信息计算后验概率P(Yes|X)和P(No|X)，如果P(Yes|X)>P(No|X)，那么记录分类为Yes，反之为No。