朴素贝叶斯和文本分类

文本分类

朴素贝叶斯模型

a r g m a x c k P ( c k ∣ D ) = a r g m a x P ( D ∣ C k ) P ( c k ) P ( D ) = a r g m a x c k P ( D ∣ C k ) P ( c k ) arg max_{c_k}P(c_k|D)=arg max\frac{P(D|C_k)P(c_k)}{P(D)}=arg max_{c_k}P(D|C_k)P(c_k) argmaxckP(ckD)=argmaxP(D)P(DCk)P(ck)=argmaxckP(DCk)P(ck)

  • 如何表示文本 D D D
  • 如何获得 P ( D ∣ C k ) P(D|C_k) P(DCk) P ( C k ) P(C_k) P(Ck)

伯努利文本模型

文档由二进制特征向量表示,其元素表示文档中没有或存在对应的词。

  • D i D_i Di表示第i个文档的特征向量
  • D i t D_{it} Dit表示 D i D_i Di中,单词 w t w_t wt是否出现,取值0或1
  • P ( w t ∣ c k ) P(w_t|c_k) P(wtck)是单词 w t w_t wt出现在 c k c_k ck类文档中的概率,同样的有 1 − P ( w t ∣ c k ) 1-P(w_t|c_k) 1P(wtck)

P ( D i t ∣ c k ) = D i t P ( w i ∣ c k ) + ( 1 − D i t ) ( 1 − P ( w i ∣ c k ) ) P(D_{it}|c_k)=D_{it}P(w_i|c_k)+(1-D_{it})(1-P(w_i|c_k)) P(Ditck)=DitP(wick)+(1Dit)(1P(wick))
P ( D i ∣ c k ) = ∏ t = 1 ∣ V ∣ P ( D i t ∣ c k ) = ∏ t = 1 ∣ V ∣ ( D i t P ( w t ∣ c k ) + ( 1 − D i t ) ( 1 − P ( w t ∣ c k ) ) ) P(D_{i}|c_k)=\prod_{t=1}^{|V|}P(D_{it}|c_k)=\prod_{t=1}^{|V|}(D_{it}P(w_t|c_k)+(1-D_{it})(1-P(w_t|c_k))) P(Dick)=t=1VP(Ditck)=t=1V(DitP(wtck)+(1Dit)(1P(wtck)))

  • n k ( w t ) n_k(w_t) nk(wt)为单词 w t w_t wt在类别为 c k c_k ck的文档中被观察到的文档的频数
  • N k N_k Nk为类别 c k c_k ck的文档总数
    单词的似然概率为 P ^ ( w t ∣ c k ) = n k ( w t ) N k \hat{P}(w_t|c_k)=\frac{n_k(w_t)}{N_k} P^(wtck)=Nknk(wt),类别的先验概率 P ^ ( c k ) = N k N \hat{P}(c_k)=\frac{N_k}{N} P^(ck)=NNk
    所以我们有如下公式:
    a r g m a x c k P ( c k ∣ D ) = a r g m a x P ( D ∣ C k ) P ( c k ) P ( D ) = a r g m a x c k P ( c k ) ∏ t = 1 ∣ V ∣ ( D i t P ( w t ∣ c k ) + ( 1 − D i t ) ( 1 − P ( w t ∣ c k ) ) ) arg max_{c_k}P(c_k|D)=arg max\frac{P(D|C_k)P(c_k)}{P(D)}=arg max_{c_k}P(c_k)\prod_{t=1}^{|V|}(D_{it}P(w_t|c_k)+(1-D_{it})(1-P(w_t|c_k))) argmaxckP(ckD)=argmaxP(D)P(DCk)P(ck)=argmaxckP(ck)t=1V(DitP(wtck)+(1Dit)(1P(wtck)))

多项式文档模型:

文档由整数特征向量表示,其元素指示文档中对应词的频率。特征向量包含词语的频率信息。

  • D i D_i Di表示第i个文档的特征向量
  • D i t D_{it} Dit表示 D i D_i Di中,单词 w t w_t wt出现的次数
  • n i = ∑ t D i t n_i=\sum_{t}D_{it} ni=tDit表示文档 D i D_i Di中的单词总数
  • P ( w t ∣ c k ) P(w_t|c_k) P(wtck)表示单词 w t w_t wt出现在 c k c_k ck类文档中的概率
    P ( D i ∣ c k ) = n i ! ∏ t = 1 ∣ V ∣ D i t ! ∏ t = 1 ∣ V ∣ P ( w t ∣ c k ) D i j P(D_i|c_k)=\frac{n_{i}!}{\prod_{t=1}^{|V|}D_{it}!}\prod_{t=1}^{|V|}P(w_t|c_k)^{D_{ij}} P(Dick)=t=1VDit!ni!t=1VP(wtck)Dij,(注意!一个文档向量能够表示一个文档集合,所以等式右边第一个分式表示的是,根据文档向量能够获得的所有全排列数量,紧接着乘以单词在选定分类下的后验概率,指数表示该单词出现多次。乘在一起就表示所有集合中文档出现的后验概率之和)
  • z i k z_{ik} zik等于1表示第i个文档为类别 c k c_k ck,否则记为0
  • N k N_k Nk表示类别 c k c_k ck下的文档总数
  • N N N表示文档总数
    单词的似然后验概率为 P ^ ( w t ∣ c k ) = ∑ i = 1 N D i t z i k ∑ s = 1 ∣ V ∣ ∑ i = 1 N D i s z i k \hat{P}(w_t|c_k)=\frac{\sum_{i=1}^{N}D_{it}z_{ik}}{\sum_{s=1}^{|V|}\sum_{i=1}^{N}D_{is}z_{ik}} P^(wtck)=s=1Vi=1NDisziki=1NDitzik
    类别的先验概率为 P ^ ( c k ) = N k N \hat{P}(c_k)=\frac{N_k}{N} P^(ck)=NNk
    将相关内容代回朴素贝叶斯公式得到如下
    a r g m a x c k P ( c k ∣ D j ) = a r g m a x P ( D j ∣ C k ) P ( c k ) = a r g m a x c k P ( c k ) n i ! ∏ t = 1 ∣ V ∣ D i t ! ∏ t = 1 ∣ V ∣ P ( w t ∣ c k ) D i j = a r g m a x c k P ( c k ) ∏ t = 1 ∣ V ∣ P ( w t ∣ c k ) D i j = a r g m a x c k P ( c k ) ∏ h = 1 l e n ( D i ) P ( u h ∣ c k ) arg max_{c_k}P(c_k|D_j)\\ =arg maxP(D_j|C_k)P(c_k)\\ =arg max_{c_k}P(c_k)\frac{n_{i}!}{\prod_{t=1}^{|V|}D_{it}!}\prod_{t=1}^{|V|}P(w_t|c_k)^{D_{ij}}\\ =arg max_{c_k}P(c_k)\prod_{t=1}^{|V|}P(w_t|c_k)^{D_{ij}}\\ =arg max_{c_k}P(c_k)\prod_{h=1}^{len(D_i)}P(u_h|c_k) argmaxckP(ckDj)=argmaxP(DjCk)P(ck)=argmaxckP(ck)t=1VDit!ni!t=1VP(wtck)Dij=argmaxckP(ck)t=1VP(wtck)Dij=argmaxckP(ck)h=1len(Di)P(uhck)
    ( u k u_k uk表示 D i D_i Di中的单词)

特征选择

有关特征选择需要进一步收集材料,常用的有互信息、卡方检测。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值