Gensim 是被设计用来自动抽取文本语义主题的免费Python库;
Gensim被设计用来处理原始、非结构化数字文本(纯文本)。在gensim中的算法,例如,Latent Semantic Analysis, Latent Dirichlet Allocation和Random Projections,通过统计训练文本语料中单词间共同出现的模式发现文档的语义结构;这些算法是非监督的,意味着不需要人工输入,仅仅需要纯文本作为语料库;
一旦这些统计模式被发现,任何纯文本能够被简洁的进行基于语义的表示,可以查询与其他文本的主题相似性;
特征(Features):
内存独立性:不需要整个训练语料库同时都存储在内存中(能处理大规模语料库)
有效地实现了几个流行的向量空间算法,包括Tf-ldf,distributed incremental Latent Semantic Analysis,distributed incremental Latent Dirichlet Allocation (LDA) or Random Projection.
I/O封装和与几个常用数据格式的转换器;
基于文档语义的文档相似度查询;
03-28
“相关推荐”对你有帮助么?
-
非常没帮助
-
没帮助
-
一般
-
有帮助
-
非常有帮助
提交