文本分类
朴素贝叶斯模型
a r g m a x c k P ( c k ∣ D ) = a r g m a x P ( D ∣ C k ) P ( c k ) P ( D ) = a r g m a x c k P ( D ∣ C k ) P ( c k ) arg max_{c_k}P(c_k|D)=arg max\frac{P(D|C_k)P(c_k)}{P(D)}=arg max_{c_k}P(D|C_k)P(c_k) argmaxckP(ck∣D)=argmaxP(D)P(D∣Ck)P(ck)=argmaxckP(D∣Ck)P(ck)
- 如何表示文本 D D D
- 如何获得 P ( D ∣ C k ) P(D|C_k) P(D∣Ck)和 P ( C k ) P(C_k) P(Ck)
伯努利文本模型
文档由二进制特征向量表示,其元素表示文档中没有或存在对应的词。
- D i D_i Di表示第i个文档的特征向量
- D i t D_{it} Dit表示 D i D_i Di中,单词 w t w_t wt是否出现,取值0或1
- P ( w t ∣ c k ) P(w_t|c_k) P(wt∣ck)是单词 w t w_t wt出现在 c k c_k ck类文档中的概率,同样的有 1 − P ( w t ∣ c k ) 1-P(w_t|c_k) 1−P(wt∣ck)
P
(
D
i
t
∣
c
k
)
=
D
i
t
P
(
w
i
∣
c
k
)
+
(
1
−
D
i
t
)
(
1
−
P
(
w
i
∣
c
k
)
)
P(D_{it}|c_k)=D_{it}P(w_i|c_k)+(1-D_{it})(1-P(w_i|c_k))
P(Dit∣ck)=DitP(wi∣ck)+(1−Dit)(1−P(wi∣ck))
P
(
D
i
∣
c
k
)
=
∏
t
=
1
∣
V
∣
P
(
D
i
t
∣
c
k
)
=
∏
t
=
1
∣
V
∣
(
D
i
t
P
(
w
t
∣
c
k
)
+
(
1
−
D
i
t
)
(
1
−
P
(
w
t
∣
c
k
)
)
)
P(D_{i}|c_k)=\prod_{t=1}^{|V|}P(D_{it}|c_k)=\prod_{t=1}^{|V|}(D_{it}P(w_t|c_k)+(1-D_{it})(1-P(w_t|c_k)))
P(Di∣ck)=∏t=1∣V∣P(Dit∣ck)=∏t=1∣V∣(DitP(wt∣ck)+(1−Dit)(1−P(wt∣ck)))
- 记 n k ( w t ) n_k(w_t) nk(wt)为单词 w t w_t wt在类别为 c k c_k ck的文档中被观察到的文档的频数
- 记
N
k
N_k
Nk为类别
c
k
c_k
ck的文档总数
单词的似然概率为 P ^ ( w t ∣ c k ) = n k ( w t ) N k \hat{P}(w_t|c_k)=\frac{n_k(w_t)}{N_k} P^(wt∣ck)=Nknk(wt),类别的先验概率 P ^ ( c k ) = N k N \hat{P}(c_k)=\frac{N_k}{N} P^(ck)=NNk
所以我们有如下公式:
a r g m a x c k P ( c k ∣ D ) = a r g m a x P ( D ∣ C k ) P ( c k ) P ( D ) = a r g m a x c k P ( c k ) ∏ t = 1 ∣ V ∣ ( D i t P ( w t ∣ c k ) + ( 1 − D i t ) ( 1 − P ( w t ∣ c k ) ) ) arg max_{c_k}P(c_k|D)=arg max\frac{P(D|C_k)P(c_k)}{P(D)}=arg max_{c_k}P(c_k)\prod_{t=1}^{|V|}(D_{it}P(w_t|c_k)+(1-D_{it})(1-P(w_t|c_k))) argmaxckP(ck∣D)=argmaxP(D)P(D∣Ck)P(ck)=argmaxckP(ck)∏t=1∣V∣(DitP(wt∣ck)+(1−Dit)(1−P(wt∣ck)))
多项式文档模型:
文档由整数特征向量表示,其元素指示文档中对应词的频率。特征向量包含词语的频率信息。
- D i D_i Di表示第i个文档的特征向量
- D i t D_{it} Dit表示 D i D_i Di中,单词 w t w_t wt出现的次数
- n i = ∑ t D i t n_i=\sum_{t}D_{it} ni=∑tDit表示文档 D i D_i Di中的单词总数
-
P
(
w
t
∣
c
k
)
P(w_t|c_k)
P(wt∣ck)表示单词
w
t
w_t
wt出现在
c
k
c_k
ck类文档中的概率
P ( D i ∣ c k ) = n i ! ∏ t = 1 ∣ V ∣ D i t ! ∏ t = 1 ∣ V ∣ P ( w t ∣ c k ) D i j P(D_i|c_k)=\frac{n_{i}!}{\prod_{t=1}^{|V|}D_{it}!}\prod_{t=1}^{|V|}P(w_t|c_k)^{D_{ij}} P(Di∣ck)=∏t=1∣V∣Dit!ni!∏t=1∣V∣P(wt∣ck)Dij,(注意!一个文档向量能够表示一个文档集合,所以等式右边第一个分式表示的是,根据文档向量能够获得的所有全排列数量,紧接着乘以单词在选定分类下的后验概率,指数表示该单词出现多次。乘在一起就表示所有集合中文档出现的后验概率之和) - 记 z i k z_{ik} zik等于1表示第i个文档为类别 c k c_k ck,否则记为0
- N k N_k Nk表示类别 c k c_k ck下的文档总数
-
N
N
N表示文档总数
单词的似然后验概率为 P ^ ( w t ∣ c k ) = ∑ i = 1 N D i t z i k ∑ s = 1 ∣ V ∣ ∑ i = 1 N D i s z i k \hat{P}(w_t|c_k)=\frac{\sum_{i=1}^{N}D_{it}z_{ik}}{\sum_{s=1}^{|V|}\sum_{i=1}^{N}D_{is}z_{ik}} P^(wt∣ck)=∑s=1∣V∣∑i=1NDiszik∑i=1NDitzik
类别的先验概率为 P ^ ( c k ) = N k N \hat{P}(c_k)=\frac{N_k}{N} P^(ck)=NNk
将相关内容代回朴素贝叶斯公式得到如下
a r g m a x c k P ( c k ∣ D j ) = a r g m a x P ( D j ∣ C k ) P ( c k ) = a r g m a x c k P ( c k ) n i ! ∏ t = 1 ∣ V ∣ D i t ! ∏ t = 1 ∣ V ∣ P ( w t ∣ c k ) D i j = a r g m a x c k P ( c k ) ∏ t = 1 ∣ V ∣ P ( w t ∣ c k ) D i j = a r g m a x c k P ( c k ) ∏ h = 1 l e n ( D i ) P ( u h ∣ c k ) arg max_{c_k}P(c_k|D_j)\\ =arg maxP(D_j|C_k)P(c_k)\\ =arg max_{c_k}P(c_k)\frac{n_{i}!}{\prod_{t=1}^{|V|}D_{it}!}\prod_{t=1}^{|V|}P(w_t|c_k)^{D_{ij}}\\ =arg max_{c_k}P(c_k)\prod_{t=1}^{|V|}P(w_t|c_k)^{D_{ij}}\\ =arg max_{c_k}P(c_k)\prod_{h=1}^{len(D_i)}P(u_h|c_k) argmaxckP(ck∣Dj)=argmaxP(Dj∣Ck)P(ck)=argmaxckP(ck)∏t=1∣V∣Dit!ni!∏t=1∣V∣P(wt∣ck)Dij=argmaxckP(ck)∏t=1∣V∣P(wt∣ck)Dij=argmaxckP(ck)∏h=1len(Di)P(uh∣ck)
( u k u_k uk表示 D i D_i Di中的单词)
特征选择
有关特征选择需要进一步收集材料,常用的有互信息、卡方检测。