Gensim 的核心概念
1.Document:文档
在 Gensim 中,文档是文本序列类型的对象(在 Python 3 中通常称为 str)。文档可以是 140 个字符的简短推文、单个段落(即期刊文章摘要)、新闻文章或书籍。
2.Corpus:语料库
语料库是文档对象的集合。语料库在 Gensim 中主要有两个作用:
- 作为训练模型的输入。在训练期间,模型使用这个训练语料库来寻找共同的主题,初始化它们的内部模型参数。
- 组织文件。训练后,主题模型可用于从新文档(训练语料库中未出现的文档)中提取主题。这样的语料库可以为相似性查询建立索引,通过语义相似性查询,聚类等。
text_corpus = [
"Human machine interface for lab abc computer applications",
"A survey of user opinion of computer system response time",
"The EPS user interface manage