多项式事件模型(multinomial event model)

我们之前讨论了基于朴素贝叶斯的文本分类,也被称作多变量伯努利事件模型(multi-variate Bernoulli event model),我们首先假设,邮件是随机发送过来的(垃圾与非垃圾),所以有先验概率p(y),然后我们又认为,邮件里每一个单词是相互独立的,p(xi=1|y) =φi|y,一条讯息的概率是


这里,我们介绍一种新的模型,被称为多项式事件模型(multinomial event model).设xi为email里第i个词,所以i是一个整数,在{1, .. . , |V |}里取值,其中|V |是字典的长度,所以,一个长度为n的email就被描述成一个长度为n的向量


不同的文本有不同的n。

在新的模型里,我们依然有先验概率p(y),之后从多项式分布中生成X1(p(x1|y)),然后X2被选了出来且与X1独立同分布,之后重复这个过程。所以有了总的概率:


假设给定训练集:

则数据的似然函数为


极大似然估计为:


加入拉普拉斯平滑:


在简单得介绍了这两个模型的基本信息之后,我们再回顾一下朴素贝叶斯的概率框架:

首先,这种方法假设文本数据由一个参数模型生成,然后使用训练数据来计算模型参数的贝叶斯优化估计。基于这些估计,基于贝叶斯公式完成分类。两种方法都假设文本是由一个以θ为参数的混合模型生成的。混合模型是由混合成分组成的,cj属于C={c1,…,c|c|}。每一个成分被的一个真子集制约。一个文件di,以(1)为规则根据先验概率来选取一个成分,P(cj|θ) ,(2)展示了根据分布P(di|cj;θ)以及它的参数θ让混合成分生成一个文档。在所有混合成分里,通过概率的相加,我们可以规约一个文档的似然:


每一个文档都会有一个分类的标签。我们假设在种类与混合模型成分之间有一一对应关系,并用cj来表示第j个混合成分和第j个类。

在多变量伯努利事件模型中,给一个字典V,空间t的每一维,都与字典中的单词wt相一致,其中t属于{1,…,|V|}。文档di的维度t被写成Bit,从0,1中取值,代表单词wt在文档中是否出现。然后,我们又有了我们的独立性假设,所以有


我们给出一个训练集D={d1,…,d|D|},混合成分的参数被写成,取值范围为[0,1]。利用拉普拉斯平滑,给出贝叶斯优化估计:


对类cj,参数的极大似然估计:


类似的,我们对多项式事件模型,定义Nit为单词wt在文件di中出现的次数,有:


同样的,我们可以计算单词wt出现在类cj里的贝叶斯优化估计:


给出参数的估计,我们可以进行分类:


我们再讨论一下特征的选择:

当减少字典的大小时,特征选择就通过选取拥有最高的平均互信息的单词。所以我们就可以通过计算类别与文件之间的平均互信息和一个单词在文档中是否出现。我们定义C为一个所有类别中的随机变量,Wt为单词wt是否出现在文档中的随机变量,Wt的取值为{0,1},0代表不出现,1代表出现。平均互信息代表类别变量的熵H(C)与类别变量基于是否出现条件的熵H(C|Wt)的差:


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值