机器学习:朴素贝叶斯算法

朴素贝叶斯算法:特征独立(常用在文档分类)

对类别进行划分。预测一个类别在所有类别中的概率,然后根据大小进行划分。比如说:如图
在这里插入图片描述概率基础:
概率定义为一件事情发生的可能性
扔出一个硬币,结果头像朝上
某天是晴天

联合概率和条件概率

联合概率:包含多个条件,且所有条件同时成立的概率

记作:P(A,B)

条件概率:就是事件A在另外一个事件B已经发生条件下的发生概率

记作:P(A|B)

特性:P(A1,A2|B) = P(A1|B)P(A2|B)
注意:此条件概率的成立,是由于A1,A2相互独立的结果

朴素贝叶斯-贝叶斯公式:P(文档类别|文档特征值)

在这里插入图片描述公式分为三个部分:
P( C ):每个文档类别的概率(某文档类别词数/总文档词数)

P(W│C):给定类别下特征(被预测文档中出现的词)的概率

计算方法:P(F1│C)=Ni/N (训练文档中去计算)
Ni为该F1词在C类别所有文档中出现的次数
N为所属类别C下的文档所有词出现的次数和

P(F1,F2,…) 预测文档中每个词的概率

例子:

在这里插入图片描述当某个类别为0时,需要解决这个问题,我们不可能判定这个文章没有类别,这时候就需要使用拉普拉斯平滑系数

拉普拉斯平滑

问题:从上面的例子我们得到娱乐概率为0,这是不合理的,如果词频列表里面
有很多出现次数都为0,很可能计算结果都为零

解决方法:拉普拉斯平滑系数

P(F1│C)=Ni+α/N+αm

α为指定的系数一般为1,m为训练文档中统计出的特征词个数

sklearn朴素贝叶斯实现API:sklearn.naive_bayes.MultinomialNB

sklearn.naive_bayes.MultinomialNB(alpha = 1.0)
朴素贝叶斯分类

alpha:拉普拉斯平滑系数

算法案例:
from sklearn.naive_bayes import MultinomialNB
from sklearn.datasets import fetch_20newsgroups
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import  TfidfVectorizer
def base():
    """朴素贝叶斯进行文本分类"""
    news=fetch_20newsgroups(subset='all')

    #进行数据分割
    x_train,x_test,y_train,y_test=train_test_split(news.data,news.target,test_size=0.25)

    #对数据集进行特征抽取
    tf=TfidfVectorizer()
    #以训练集当中的词的列表进行每篇文章重要性统计
    x_train=tf.fit_transform(x_train)
    print(tf.get_feature_names())
    x_test=tf.transform(x_test)
    #进行朴素贝叶斯算法的预测
    mlt=MultinomialNB(alpha=1.0)
    print(x_train)

    mlt.fit(x_train,y_train)

    y_predict=mlt.predict(x_test)
    #预测的文章类别为
    print("预测文章类别为:",y_predict)
    #得出准确率
    print("准确率是:",mlt.score(x_test,y_test))

if __name__ == '__main__':
    base()

朴素贝叶斯准确率可以达到很高,但是没有超参数进行调整,不能进一步提高,如果训练数据集很乱,里面的词不标准,那么预测也会出问题

朴素贝叶斯对训练集要求很高,如果训练集误差大,那么结果也会出很大的错误

朴素贝叶斯分类优缺点:

优点:
朴素贝叶斯模型发源于古典数学理论,有稳定的分类效率。

对缺失数据不太敏感,算法也比较简单,常用于文本分类。

分类准确度高,速度快

缺点:
需要知道先验概率P(F1,F2,…|C),因此在某些时候会由于假设的先验
模型的原因导致预测效果不佳。(假设文章中的一些词,跟另外的词出现没有关系)

朴素贝叶斯常用于:文本分类,但是使用神经网络效果可以达到更好

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值