python分类分析--朴素贝叶斯算法原理与文本分类分析案例

最新推荐文章于 2020-12-30 14:02:06 发布

Jalen data analysis

最新推荐文章于 2020-12-30 14:02:06 发布

阅读量2k

点赞数 4

分类专栏： python机器学习文章标签：朴素贝叶斯算法机器学习 python

本文链接：https://blog.csdn.net/weixin_41685388/article/details/104464800

版权

本文深入探讨朴素贝叶斯算法，包括联合概率、条件概率和贝叶斯公式，以及如何处理概率为0的问题。通过案例分析和Python API介绍，展示其在文本分类中的应用。

摘要由CSDN通过智能技术生成

一、朴素贝叶斯算法原理

·联合概率：包含多个条件，且所有事件同时成立的概率

。记作：P（A，B）
。例如：P（程序员，体型匀称），P（程序员，超重，喜欢）

·条件概率：就是事件A在另外一个事件B已经发生条件下的发生概率

。记作：P（A|B）
。例如：P（程序员|男生），P（程序员，体重标准|女性）

·相互独立：如果P（A，B）=P（A）P（B），则称事件A与事件B相互独立。

注：w为给定文档的特征值（频数统计，预测文档提供），c为文档类别

转化一下：P(Y|X1,X2,…) = [ P(X1,X2,…|Y)*P(Y) ] / P(X1,X2,…)

简单理解一下：在已知特征信息X1,X2,...的条件下，事件Y发生的概率，
等于在事件Y发生的条件下这些特征信息的联合概率（所有特征信息都成立的概率），
乘以在这个样本中事件Y发生的概率，再去除以在整个样本中这些特征信息的联合概率。

朴素 + 贝叶斯

朴素：假设特征信息X1,X2,…之间是相互独立的。即P(X1,X2,…)=P(X1) * P(X2)*…

贝叶斯：P(Y|X1,X2,…) = [ P(X1,X2,…|Y)*P(Y) ] / P(X1,X2,…)

简单理解一下：在已知相互独立的特征信息X1,X2,...的条件下，事件Y发生的概率，
等于在时间Y发生的条件下每个独立特征信息发生的概率乘积，
乘以在这个样本中事件Y发生的概率，
再去除以在整个样本中这些特征信息的联合概率（这些特征信息发生的概率乘积）。

应用场景：如文本分类(关键词之间是相互独立的)，垃圾邮件的分类，信用评估，钓鱼网站检测等等

优缺点：优点对缺失值不敏感。缺点特征变量（特征值，特征信息）间需要相互独立。

不管是贝叶斯公式还是朴素贝叶斯公式，我们发现都是概率的乘法和除法，所以一旦有某个概率为0，就会导致结果概率为0的错误结果。

所以在实际的算法中我们需要引入拉普拉斯平滑系数，解决这一问题。

拉普拉斯平滑系数：p（Fi|C）=(Ni+alpha)/(N+alpha*m)

alpha是指定的系数一般是1，m是训练文档中统计出来的特征词的个数。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-4wu9yUxC-1582454196426)(attachment:image.png)]

sklearn.naive_bayes.MultinomialNB(alpha=1.0) #朴素贝叶斯分类

ealpha：拉普拉斯平滑系数

# 1 获取数据----对新闻分类
from sklearn.datasets import fetch_20newsgroups  
news

关注

专栏目录