朴素贝叶斯的三个模型

前面已经介绍过朴素贝叶斯的原理,今天来介绍一下朴素贝叶斯的三个常用模型:多项式模型、伯努利模型和高斯模型。

多项式模型

该模型常用于文本分类,特征是单词,值是单词的出现次数。

在多项式模型中,设某文档d={t1,t2,...,tk},ti(i=1,2,...,k)为在该文档d中出现的单词,允许重复。

则先验概率p(c) = 类c下单词总数 / 整个训练样本的单词总数

类条件概率 p(tk|c) = (类c下单词tk在各个文档出现的数量之和+1) / (类c下单词总数 + |V|)

V是训练样本中所有单词的集合(set,即每个单词有且仅能出现一次),即该训练样本的词汇表。

在这里解释一下为何分子要加1,分母加|V|:

我们已知朴素贝叶斯的“朴素点”在于假设每个特征之间相互独立,在本例中就是任何单词之间相互独立,若在输入某个文档做分类时,发现该文档中的某个单词在词汇表中没有出现过,就会出现p(tk|c)=0,最终导致后验概率为0,如果该文档是一篇垃圾文档,将会被模型分类成有用文档,结果变得不合理了。拉普拉斯平滑(Laplace Smoothing)又被称为加1平滑,被用来解决零概率问题。拉普拉斯平滑就是在计算类条件概率时分子加1,分母加可取变量的个数(本例中为词汇表中单词的数量)。

通过以下数据集判断一个新的文档是否来自China:

可知V=[Chinese,Beijing,Shanghai,Jinan,Tokyo,Japan],给定一个新文档d=[Chinese,Chinese,Chinese,Tokyo,Japan],对其进行分类。

p(yes)=8/11,p(no)=3/11

p(Chinese|yes)=(5+1)/(8+6)=3/7,p(Chinese|no)=(1+1)/(3+6)=2/9

p(Japan|yes)=(0+1)/(8+6)=1/14,p(Japan|no)=(1+1)/(3+6)=2/9

p(Tokyo|yes)=(0+1)/(8+6)=1/14,p(Tokyo|no)=(1+1)/(3+6)=2/9

所以p(yes|d) = (3/7)3(1/14)2(8/11)=0.00029209,p(no|d)=(2/9)5(3/11)=0.00014780

p(yes|d) >p(no|d),该文档来自China。

 

伯努利模型

在伯努利模型中,每个特征的取值是布尔型的,即true和false,或者1和0。在文本分类中,就是一个特征有没有在一个文档中出现。

先验概率p(c)=类c下文档总数/整个训练样本的文档总数

类条件概率p(tk|c)=类c下包含单词tk的文档总数/类c下的文档总数+2

还是用上面的例子:

p(yes)=3/4,p(no)=1/4

p(chinese|yes)=(3+1)/(3+2)=4/5,p(chinese|no)=(1+1)/(1+2)=2/3

p(Japan|yes)=(0+1)/(3+2)=1/5,p(Japan|no)=(1+1)/(1+2)=2/3

p(Tokyo|yes)=(0+1)/(3+2)=1/5,p(Tokyo|no)=(1+1)/(1+2)=2/3

所以p(yes|d) = (4/5)3(1/5)2(3/4)=0.01536,p(no|d)=(2/3)5(1/4)=0.00256

p(yes|d) >p(no|d),该文档来自China。

 

高斯模型

当特征是连续变量的时候,运用多项式模型就会导致很多(不做平滑的情况下),此时即使做平滑,所得到的条件概率也难以描述真实情况。所以处理连续的特征变量,应该采用高斯模型。

 首先让我们来回顾一下什么是高斯分布(正态分布),若随机变量X服从一个数学期望为μ、方差为σ^2的正态分布,记为N(μ,σ^2)。其概率密度函数为正态分布的期望值μ决定了其位置,其标准差σ决定了分布的幅度。当μ = 0,σ = 1时的正态分布是标准正态分布。

若随机变量 X服从一个位置参数为μ、尺度参数为σ的概率分布,且其概率密度函数为

 

下面是一组人类身体特征的统计资料:

可以看到每个特征都为连续值,并非离散值。

此时可以假设男性和女性的身高、体重和脚掌都是正态分布,通过样本分别计算出均值μ和方差σ^2。

比如男性的身高是均值为5.94,方差为0.035的正态分布,此时有一个人身高为6英尺,则:

据此可以求出其他特征的类条件概率,从而最终推断出该人是男性还是女性。

 

Done!

转载于:https://www.cnblogs.com/lovewhale1997/p/11265029.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值