gensim introduction

Gensim 是被设计用来自动抽取文本语义主题的免费Python库;
Gensim被设计用来处理原始、非结构化数字文本(纯文本)。在gensim中的算法,例如,Latent Semantic Analysis, Latent Dirichlet Allocation和Random Projections,通过统计训练文本语料中单词间共同出现的模式发现文档的语义结构;这些算法是非监督的,意味着不需要人工输入,仅仅需要纯文本作为语料库;
一旦这些统计模式被发现,任何纯文本能够被简洁的进行基于语义的表示,可以查询与其他文本的主题相似性;
特征(Features):
内存独立性:不需要整个训练语料库同时都存储在内存中(能处理大规模语料库)
有效地实现了几个流行的向量空间算法,包括Tf-ldf,distributed incremental Latent Semantic Analysis,distributed incremental Latent Dirichlet Allocation (LDA) or Random Projection.
I/O封装和与几个常用数据格式的转换器;
基于文档语义的文档相似度查询;

安装说明

英文教程

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值