Gensim学习笔记

介绍

Gensim是一个免费的Python库,旨在高效的以计算机方式从文档中自动提取语义主题。Gensim旨在处理原始的,非结构化的数字文本(“纯文本”)。其中算法,如潜在语义分析,潜在狄利克雷分配和随机投影,通过检查训练文档语料库中的单词的统计共现模式,发现文档的语义结构。一旦发现这些统计模式,任何纯文本文件都可以用新的语义表示简洁地表达,并查询与其他文档的局部相似性。这些算法是无监督的,只需要纯文本文档的语料库。

特点

记忆独立性:整个训练语料库不需要在任何时候完全存储在RAM中(可以处理大型的网络规模语料库)。
实现: Tf-Idf,分布式增量潜在语义分析(LSA),分布式增量潜在Dirichlet分配(LDA)或随机投影的几种流行向量空间算法
相似查询:在其语义表示中对文档进行相似查询。

核心概念

整个gensim包围绕三个重要概念:语料库corpus,向量vector和模型model。

语料库corpus:

数字文件的集合。 该集合用于自动推断文档的结构及其主题等。因此,集合也称为训练语料库。 这个推断的潜在结构可以用于将主题分配给没有出现在训练语料库中的新文档。 不需要人为干预。

向量vector:

在向量空间模型(VSM)中,每个文档由一组特征表示。

模型model:

我们使用模型作为抽象术语,指的是从一个文档表示到另一个文档表示的转换。 在gensim文档中被表示为向量,所以模型可以被认为是两个向量空间之间的变换。 这种变革的细节从训练语料库中学到。

例如,考虑一个转换,其中会产生一个词频的原始计数,对其进行加权,以便将普通单词权重降低,并提取罕见单词。 任何特定词的权重由训练语料库中该单词的词频确定。 当我们应用这个模型时,我们从一个向量空间(包含原始单词计数)变换到另一个(包含加权计数)。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值