CS229朴素贝叶斯与拉普拉斯平滑

朴素贝叶斯理论

判断一封邮件是否是垃圾邮件。
首先在单词字典中(Vocabulary dictionary)列出所有的单词列表。假设字典中有100000个单词。然后设一个向量X,当一封邮件中的单词出现在字典中时,对应字典中的位置Xi为1,若字典中没有该单词则为0。如下图所示:当邮件中存在buy和a这两个单词时,
在这里插入图片描述
假设邮件中出现的每一个单词时相互独立的,就是说邮件是由随机生成的单词组成,(这就是朴素的原因)这我们去表现一封邮件的概率为:
在这里插入图片描述
我们用 ϕ j ∣ y = 0 = P ( X j = 1 ∣ Y = 0 ) \phi_{j|y=0}=P(X_j=1|Y=0) ϕjy=0=P(Xj=1Y=0)表示如果是垃圾邮件则单词xj出现的概率。 ϕ j ∣ y = 1 = P ( X j = 1 ∣ Y = 1 ) \phi_{j|y=1}=P(X_j=1|Y=1) ϕjy=1=P(Xj=1Y=1)表示如果不是垃圾邮件则单词xj出现的概率。对一个数据集{xi,yi}其联合概率密度为:
在这里插入图片描述
对其进行最大似然估计可得:
在这里插入图片描述
确定好参数后,则对于新的数据可以根据贝叶斯定理来判断:
在这里插入图片描述

拉普拉斯平滑

由上可知针对新的数据可以使用贝叶斯定律判断,但是当一封新的邮件中出现在训练集中没有出现过的单词,假设该单词是字典中第35000个那么:
在这里插入图片描述
利用贝叶斯计算则:
在这里插入图片描述
因为没有见过则将概率判断为0,这在统计学中是错误的,所以我们在参数估计值的分子上加1,分母上加k,k是字典中的单词数。得到如下:
在这里插入图片描述
这样我们就能避免面对新单词时得到概率为0的情况了。

多相式事件模型

在上面的朴素贝叶斯理论中,实际上是采用的多元伯努利分布,在这个模型中,我们假设电子邮件的生成方式是首先随机确定(根据后验概率p(y)确定),然后电子邮件的发送者通过首先从单词的多项式分布p(x1 | y)生成x1来编写电子邮件。然后在生成x2,这样每件邮件的长度xn可能不同。因此文件的总概率为:
在这里插入图片描述
这样我们对训练集{(xi,yi),i=1,2,m},其中xi的长度为ni,其似然函数为:
在这里插入图片描述
其最大似然估计为:
在这里插入图片描述
加入拉普拉斯平滑为:
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值