机器学习：朴素贝叶斯算法

最新推荐文章于 2022-07-23 09:37:33 发布

2034丶

最新推荐文章于 2022-07-23 09:37:33 发布

阅读量269

点赞数

分类专栏：机器学习文章标签：朴素贝叶斯

本文链接：https://blog.csdn.net/qq_45315982/article/details/103387397

版权

机器学习专栏收录该内容

25 篇文章 2 订阅

订阅专栏

朴素贝叶斯算法：特征独立（常用在文档分类）

对类别进行划分。预测一个类别在所有类别中的概率，然后根据大小进行划分。比如说：如图
在这里插入图片描述 概率基础：
概率定义为一件事情发生的可能性
扔出一个硬币，结果头像朝上
某天是晴天

联合概率和条件概率

联合概率：包含多个条件，且所有条件同时成立的概率

记作：P(A,B)

条件概率：就是事件A在另外一个事件B已经发生条件下的发生概率

记作：P(A|B)

特性：P(A1,A2|B) = P(A1|B)P(A2|B)
注意：此条件概率的成立，是由于A1,A2相互独立的结果

朴素贝叶斯-贝叶斯公式：P(文档类别|文档特征值)

在这里插入图片描述 公式分为三个部分：
P( C )：每个文档类别的概率(某文档类别词数／总文档词数)

P(W│C)：给定类别下特征（被预测文档中出现的词）的概率

计算方法：P(F1│C)=Ni/N （训练文档中去计算）
Ni为该F1词在C类别所有文档中出现的次数
N为所属类别C下的文档所有词出现的次数和

P(F1,F2,…) 预测文档中每个词的概率

例子：

在这里插入图片描述当某个类别为0时，需要解决这个问题，我们不可能判定这个文章没有类别，这时候就需要使用拉普拉斯平滑系数

拉普拉斯平滑

问题：从上面的例子我们得到娱乐概率为0，这是不合理的，如果词频列表里面
有很多出现次数都为0，很可能计算结果都为零

解决方法：拉普拉斯平滑系数

P(F1│C)=Ni+α/N+αm

α为指定的系数一般为1，m为训练文档中统计出的特征词个数

sklearn朴素贝叶斯实现API：sklearn.naive_bayes.MultinomialNB

sklearn.naive_bayes.MultinomialNB(alpha = 1.0)
朴素贝叶斯分类

alpha：拉普拉斯平滑系数

算法案例：

from sklearn.naive_bayes import MultinomialNB
from sklearn.datasets import fetch_20newsgroups
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import  TfidfVectorizer
def base():
    """朴素贝叶斯进行文本分类"""
    news=fetch_20newsgroups(subset='all')

    #进行数据分割
    x_train,x_test,y_train,y_test=train_test_split(news.data,news.target,test_size=0.25)

    #对数据集进行特征抽取
    tf=TfidfVectorizer()
    #以训练集当中的词的列表进行每篇文章重要性统计
    x_train=tf.fit_transform(x_train)
    print(tf.get_feature_names())
    x_test=tf.transform(x_test)
    #进行朴素贝叶斯算法的预测
    mlt=MultinomialNB(alpha=1.0)
    print(x_train)

    mlt.fit(x_train,y_train)

    y_predict=mlt.predict(x_test)
    #预测的文章类别为
    print("预测文章类别为：",y_predict)
    #得出准确率
    print("准确率是：",mlt.score(x_test,y_test))

if __name__ == '__main__':
    base()

朴素贝叶斯准确率可以达到很高，但是没有超参数进行调整，不能进一步提高，如果训练数据集很乱，里面的词不标准，那么预测也会出问题

朴素贝叶斯对训练集要求很高，如果训练集误差大，那么结果也会出很大的错误

朴素贝叶斯分类优缺点：

优点：
朴素贝叶斯模型发源于古典数学理论，有稳定的分类效率。

对缺失数据不太敏感，算法也比较简单，常用于文本分类。

分类准确度高，速度快

缺点：
需要知道先验概率P(F1,F2,…|C)，因此在某些时候会由于假设的先验
模型的原因导致预测效果不佳。（假设文章中的一些词，跟另外的词出现没有关系）

朴素贝叶斯常用于：文本分类，但是使用神经网络效果可以达到更好

2034丶

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习：朴素贝叶斯算法

朴素贝叶斯算法：特征独立（常用在文档分类）对类别进行划分。预测一个类别在所有类别中的概率，然后根据大小进行划分。比如说：如图概率基础：概率定义为一件事情发生的可能性扔出一个硬币，结果头像朝上某天是晴天联合概率和条件概率联合概率：包含多个条件，且所有条件同时成立的概率记作：P(A,B)条件概率：就是事件A在另外一个事件B已经发生条件下的发生概率记作：P(A|B)特性：P(A1,...
复制链接

扫一扫