python分类分析--朴素贝叶斯算法原理与文本分类分析案例

本文深入探讨朴素贝叶斯算法,包括联合概率、条件概率和贝叶斯公式,以及如何处理概率为0的问题。通过案例分析和Python API介绍,展示其在文本分类中的应用。
摘要由CSDN通过智能技术生成

一、朴素贝叶斯算法原理

1、联合概率、条件概率与相互独立

·联合概率:包含多个条件,且所有事件同时成立的概率

。记作:P(A,B)
。例如:P(程序员,体型匀称),P(程序员,超重,喜欢)

·条件概率:就是事件A在另外一个事件B已经发生条件下的发生概率

。记作:P(A|B)
。例如:P(程序员|男生),P(程序员,体重标准|女性)

·相互独立:如果P(A,B)=P(A)P(B),则称事件A与事件B相互独立。

2、贝叶斯公式:P(C|W) = [ P(W|C)*P© ] / P(W)

注:w为给定文档的特征值(频数统计,预测文档提供),c为文档类别

转化一下:P(Y|X1,X2,…) = [ P(X1,X2,…|Y)*P(Y) ] / P(X1,X2,…)

简单理解一下:在已知特征信息X1,X2,...的条件下,事件Y发生的概率,
等于在事件Y发生的条件下这些特征信息的联合概率(所有特征信息都成立的概率),
乘以在这个样本中事件Y发生的概率,再去除以在整个样本中这些特征信息的联合概率。

3、朴素贝叶斯算法原理

朴素 + 贝叶斯

朴素: 假设特征信息X1,X2,…之间是相互独立的。即P(X1,X2,…)=P(X1) * P(X2)*…

贝叶斯:P(Y|X1,X2,…) = [ P(X1,X2,…|Y)*P(Y) ] / P(X1,X2,…)

朴素贝叶斯:P(Y|X1,X2,…)=P(X1,X2,…|Y)* P(Y) / P(X1,X2,…) = P(X1|Y)* P(X2|Y)…P(Xn|Y) * P(Y) / P(X1)P(X2)…P(Xn)

简单理解一下:在已知相互独立的特征信息X1,X2,...的条件下,事件Y发生的概率,
等于在时间Y发生的条件下每个独立特征信息发生的概率乘积,
乘以在这个样本中事件Y发生的概率,
再去除以在整个样本中这些特征信息的联合概率(这些特征信息发生的概率乘积)。

应用场景:如文本分类(关键词之间是相互独立的),垃圾邮件的分类,信用评估,钓鱼网站检测等等

优缺点:优点对缺失值不敏感。缺点特征变量(特征值,特征信息)间需要相互独立。

4、防止计算出的分类概率为0

不管是贝叶斯公式还是朴素贝叶斯公式,我们发现都是概率的乘法和除法,所以一旦有某个概率为0,就会导致结果概率为0的错误结果。

所以在实际的算法中我们需要引入拉普拉斯平滑系数,解决这一问题。

拉普拉斯平滑系数 :p(Fi|C)=(Ni+alpha)/(N+alpha*m)

alpha是指定的系数一般是1,m是训练文档中统计出来的特征词的个数。

5、案例说明

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-4wu9yUxC-1582454196426)(attachment:image.png)]

6、pyhon的朴素贝叶斯API

sklearn.naive_bayes.MultinomialNB(alpha=1.0) #朴素贝叶斯分类

ealpha:拉普拉斯平滑系数

7、算法代码实现

# 1 获取数据----对新闻分类
from sklearn.datasets import fetch_20newsgroups  
news
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值