【主题建模】Gensim 的核心概念

1.Document:文档

在 Gensim 中,文档是文本序列类型的对象(在 Python 3 中通常称为 str)。文档可以是 140 个字符的简短推文、单个段落(即期刊文章摘要)、新闻文章或书籍。

2.Corpus:语料库

语料库是文档对象的集合。语料库在 Gensim 中主要有两个作用:

  • 作为训练模型的输入。在训练期间,模型使用这个训练语料库来寻找共同的主题,初始化它们的内部模型参数。
  • 组织文件。训练后,主题模型可用于从新文档(训练语料库中未出现的文档)中提取主题。这样的语料库可以为相似性查询建立索引,通过语义相似性查询,聚类等。
text_corpus = [
    "Human machine interface for lab abc computer applications",
    "A survey of user opinion of computer system response time",
    "The EPS user interface manage
  • 5
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

G皮T

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值