机器学习笔记5——朴素贝叶斯算法

在上一讲中,我们了解到了朴素贝叶斯以及laplace平滑。这一小节中,我们将要改进朴素贝叶斯算法。原有的朴素贝叶斯中的特征值 xi 是只取0和1两个值,现在要对朴素贝叶斯进行一般化,以适应于特征值取值范围为 { 1,2,...,k} 这种情况。

一般化过程中,对 p(xi|y) 的建模不再是简单的伯努力而是多项式分布。事实上,即使原始的输入特征是连续的值,也可以将它离散化,将它们分为几组离散值,然后再使用朴素贝叶斯算法。

就以最开始的预测房屋价格这个问题举例,如果输入特征 xi 代表房屋面积,那么就可以将连续的值离散化为如下样式:


因此,如果房屋面积为890平方英尺,我们可以将对应的特征值 xi 设为3。之后就可以使用朴素贝叶斯算法。当连续的特征值并没有用多元正态分布进行良好的建模时,就可以通过对特征离散化然后使用朴素贝叶斯算法,这种方法也可以得到好的分类器结果。

针对文本分类的事件模型

上一节讲述了生成学习算法,下面将结束对这一算法的讨论并且介绍一种针对文本分类的模型。前面讲到的朴素贝叶斯算法在很多分类的问题上有良好的表现,那么对于文本分类问题,有一个与其相关的模型的表现效果会更好。

在文本分类的特定语境下,朴素贝叶斯被称作多变量伯努力事件模型(换个称呼而已)。在这一模型中,我们假设电子邮件的生成方式:无论是垃圾邮件发送者还是非垃圾邮件发送者向你发送下一封邮件,这封邮件都是随机决定的(根据类先验概率 p(y) )。其次,邮件的发送者决定邮件中是否包含某个单词 i ,且每个单词出现在邮件中的概率是独立的。根据概率 p(xi=1|y)=ϕi|y 得到,一封邮件最终的概率为 p(y)ni=1p(xi|y)

此处我们提出一个不同的模型,被称作多项式事件模型。为了描述这一模型,我们会用不同的符号来代表邮件的一些特征。 xi 代表邮件中的第 i 个单词。因此, xi 是一个整数且取值范围为 { 1,...,|V|} ,此处的 |V| 代表了字典的长度。一封包含 n 个单词的邮件可以用长度为 n 的向量 (x1,x2,...,xn) 表示;此处的 n 针对不同的邮件有不同的值。举个例子,如果一封邮件以“A NIPS …,”开头,那么 x1=1 (字典中的第一个单词是“a”), x2=35000 (如果“nips”在字典中处于第35000个位置)。

在多项式事件模型中,我们假设一封邮件的生成方式是通过一个随机的过程,垃圾邮件还是非垃圾邮件一开始是随机确定好了的(取决于 p(y) )。然后,邮件中的第一个单词 x1 从多项式分布中选取生成,第二个单词 x2 与第一个单词相互独立,但都从多项式分布中选取,接下来的 x3 x4 的选取也是如此,直到所有的 n 个单词都生成成功。因此,一封邮件整体的概率为 p(y)ni=1p(x

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值