PMI(Pointwise Mutual Information),这里当然不是指经济上的那个PMI,而是点互信息,作用是衡量两个随机变量的相关性。可以用于情感分析中的情感分数计算,计算公式如下:
p
m
i
(
w
1
,
w
2
)
=
l
o
g
(
p
(
w
1
,
w
2
)
p
(
w
1
)
∗
p
(
w
2
)
)
=
l
o
g
(
p
(
w
1
∣
w
2
)
p
(
w
1
)
)
=
l
o
g
(
p
(
w
2
∣
w
1
)
p
(
w
2
)
)
pmi(w_1,w_2)=log(\frac{p(w_1,w_2)}{p(w_1)*p(w_2)})=log(\frac{p(w_1|w_2)}{p(w_1)})=log(\frac{p(w_2|w_1)}{p(w_2)})
pmi(w1,w2)=log(p(w1)∗p(w2)p(w1,w2))=log(p(w1)p(w1∣w2))=log(p(w2)p(w2∣w1))
如果
w
1
w_1
w1和
w
2
w_2
w2分布是相互独立的,那么
p
(
w
1
,
w
2
)
=
p
(
w
1
)
∗
p
(
w
2
)
p(w_1,w_2)=p(w_1)*p(w_2)
p(w1,w2)=p(w1)∗p(w2),此时有
p
m
i
(
w
1
,
w
2
)
=
l
o
g
1
=
0
pmi(w_1,w_2)=log1=0
pmi(w1,w2)=log1=0。相反,如果
w
1
w_1
w1和
w
2
w_2
w2的分布不是相互独立的,那么
p
(
w
1
,
w
2
)
>
p
(
w
1
)
∗
p
(
w
2
)
p(w_1,w_2)>p(w_1)*p(w_2)
p(w1,w2)>p(w1)∗p(w2),并且相关性越强
p
m
i
pmi
pmi的值越大,说明
w
1
w_1
w1和
w
2
w_2
w2共现携带的信息越多,越容易共同出现。
情感分析之PMI互信息
最新推荐文章于 2024-02-20 17:45:00 发布