Gensim学习笔记

最新推荐文章于 2024-07-16 15:35:24 发布

AI小白入门

最新推荐文章于 2024-07-16 15:35:24 发布

阅读量1.9k

点赞数

分类专栏： nlp

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_37306360/article/details/76817040

版权

nlp 专栏收录该内容

62 篇文章 7 订阅

订阅专栏

介绍

Gensim是一个免费的Python库，旨在高效的以计算机方式从文档中自动提取语义主题。Gensim旨在处理原始的，非结构化的数字文本（“纯文本”）。其中算法，如潜在语义分析，潜在狄利克雷分配和随机投影，通过检查训练文档语料库中的单词的统计共现模式，发现文档的语义结构。一旦发现这些统计模式，任何纯文本文件都可以用新的语义表示简洁地表达，并查询与其他文档的局部相似性。这些算法是无监督的，只需要纯文本文档的语料库。

特点

记忆独立性：整个训练语料库不需要在任何时候完全存储在RAM中（可以处理大型的网络规模语料库）。
实现： Tf-Idf，分布式增量潜在语义分析(LSA)，分布式增量潜在Dirichlet分配（LDA）或随机投影的几种流行向量空间算法
相似查询：在其语义表示中对文档进行相似查询。

核心概念

整个gensim包围绕三个重要概念：语料库corpus，向量vector和模型model。

语料库corpus：

数字文件的集合。该集合用于自动推断文档的结构及其主题等。因此，集合也称为训练语料库。这个推断的潜在结构可以用于将主题分配给没有出现在训练语料库中的新文档。不需要人为干预。

向量vector：

在向量空间模型（VSM）中，每个文档由一组特征表示。

模型model：

我们使用模型作为抽象术语，指的是从一个文档表示到另一个文档表示的转换。在gensim文档中被表示为向量，所以模型可以被认为是两个向量空间之间的变换。这种变革的细节从训练语料库中学到。

例如，考虑一个转换，其中会产生一个词频的原始计数，对其进行加权，以便将普通单词权重降低，并提取罕见单词。任何特定词的权重由训练语料库中该单词的词频确定。当我们应用这个模型时，我们从一个向量空间（包含原始单词计数）变换到另一个（包含加权计数）。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。