共现矩阵之一 gensim实现方法

最新推荐文章于 2024-10-02 16:39:03 发布

风华明远

最新推荐文章于 2024-10-02 16:39:03 发布

阅读量2.6k

点赞数 1

分类专栏： gensim 文章标签： tensorflow

本文链接：https://blog.csdn.net/weixin_42272768/article/details/106779805

版权

本文介绍了如何使用gensim库统计词在文章中的出现次数，探讨了共现矩阵的概念，包括词频统计和词与词之间的关系，指出gensim不支持后者但提到了Glove算法的相关性。示例代码展示了gensim的使用方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

所谓的共现矩阵，就是词表示矩阵。不过目前有2种不同的共现矩阵。一种是词在文章中的出现次数。比如下面两篇“文章”：
1）我爱北京天安门
2）我爱吃北京烤鸭

北京就在两篇文章中各出现一次。而天安门只在第一篇文章中出现，第二篇文章中没有出现。烤鸭则相反。
gensim实现了统计词在文章的出现次数。后面的例子会说明。
还要一种是统计词与词之间相互关系的。比如，北京和天安门是挨着的，北京和烤鸭也挨着。Glove算法就利用了这种词的统计方法来评估词与词之间的关联。这也是一种共现矩阵。不过gensim中没有实现。下一篇我会介绍一种网络上的python实现方法。
在这里插入图片描述
用gensim统计词汇在文章中出现的次数代码如下：

from gensim import corpora
from collections import defaultdict
documents = ["Human machine interface for lab abc computer applications",

最低0.47元/天解锁文章