大数据最新机器学习算法（7）—— 朴素贝叶斯算法(1)

最新推荐文章于 2024-05-13 18:20:21 发布

2401_84185074

最新推荐文章于 2024-05-13 18:20:21 发布

阅读量857

点赞数 29

分类专栏：程序员文章标签：大数据机器学习算法

本文链接：https://blog.csdn.net/2401_84185074/article/details/138437518

版权

程序员专栏收录该内容

120 篇文章 2 订阅

订阅专栏

P(产品, 超重) = P(产品) \* P(超重) = 2/7 \* 3/7 = 6/49
p(产品, 超重|喜欢) = P(产品|喜欢) \* P(超重|喜欢) = 1/2 \* 1/4 = 1/8
P(喜欢|产品, 超重) = P(产品, 超重|喜欢)P(喜欢)/P(产品, 超重) = 1/8 \* 4/7 / 6/49 = 7/12

3 拉普拉斯平滑系数

贝叶斯公式如果应用在文章分类的场景当中，我们可以这样看：
在这里插入图片描述

在这里插入图片描述
下面通过一个案例进行理解

需求：通过前四个训练样本（文章），判断第五篇文章，是否属于China类

在这里插入图片描述

P(C|Chinese, Chinese, Chinese, Tokyo, Japan)
= P(Chinese, Chinese, Chinese, Tokyo, Japan|C) \* P(C) / P(Chinese, Chinese, Chinese, Tokyo, Japan) 
= P(Chinese|C)^3 \* P(Tokyo|C) \* P(Japan|C) \* P(C) / [P(Chinese)^3 \* P(Tokyo) \* P(Japan)]

# 这个文章是需要计算是不是China类，是或者不是最后的分母值都相同:

# 首先计算是China类的概率: 
P(Chinese|C) = 5/8
P(Tokyo|C) = 0/8
P(Japan|C) = 0/8

# 接着计算不是China类的概率:
P(Chinese|C) = 1/3
P(Tokyo|C) = 1/3
P(Japan|C) = 1/3

问题：从上面的例子我们可以得到 P(Tokyo|C) 和 P(Japan|C)都为0，这是不合理的，如果词频列表里面有很多次数都为0，很可能计算结果都为0。

解决办法：拉普拉斯平滑系数

在这里插入图片描述

# 这个文章是需要计算是不是China类:
# 该例中，m=6（训练集中特征词的个数，重复不计）

首先计算是China类的概率:
    P(Chinese|C) = 5/8 --> 6/14
    P(Tokyo|C) = 0/8 --> 1/14
    P(Japan|C) = 0/8 --> 1/14

接着计算不是China类的概率: 
    P(Chinese|C) = 1/3 --> 2/9
    P(Tokyo|C) = 1/3 --> 2/9
    P(Japan|C) = 1/3 --> 2/9

4 朴素贝叶斯api使用

sklearn.naive_bayes.MultinomialNB(alpha = 1.0)

朴素贝叶斯分类
alpha：拉普拉斯平滑系数

朴素贝叶斯应用案例 —— 商品评论情感分析

5 朴素贝叶斯算法总结

5.1 朴素贝叶斯优缺点

（1）优点

朴素贝叶斯模型发源于古典数学理论，有稳定的分类效率
对缺失数据不太敏感，算法也比较简单，常用于文本分类
分类准确度高，速度快

（2）缺点

由于使用了样本属性独立性的假设，所以如果特征属性有关联时其效果不好
需要计算先验概率，而先验概率很多时候取决于假设，假设的模型可以有很多种，因此在某些时候会由于假设的先验模型的原因导致预测效果不佳；

先验概率：直观理解，所谓“先”，就是在事情之前，即在事情发生之前事情发生的概率。是根据以往经验和分析得到的概率，“由因求果”。
后验概率：事情已经发生了，事情发生可能有很多原因，判断事情发生时由哪个原因引起的概率，“由果求因”。
先验概率就是通常说的概率，后验概率是一种条件概率，但条件概率不一定是验后概率。贝叶斯公式是由先验概率求后验概率的公式