所谓的共现矩阵,就是词表示矩阵。不过目前有2种不同的共现矩阵。一种是词在文章中的出现次数。比如下面两篇“文章”:
1)我爱北京天安门
2)我爱吃北京烤鸭
北京就在两篇文章中各出现一次。而天安门只在第一篇文章中出现,第二篇文章中没有出现。烤鸭则相反。
gensim实现了统计词在文章的出现次数。后面的例子会说明。
还要一种是统计词与词之间相互关系的。比如,北京和天安门是挨着的,北京和烤鸭也挨着。Glove算法就利用了这种词的统计方法来评估词与词之间的关联。这也是一种共现矩阵。不过gensim中没有实现。下一篇我会介绍一种网络上的python实现方法。
用gensim统计词汇在文章中出现的次数代码如下:
from gensim import corpora
from collections import defaultdict
documents = ["Human machine interface for lab abc computer applications",