gensim在NLP中的一些简单运用

最新推荐文章于 2024-03-04 11:26:39 发布

在读幼稚园程序员

最新推荐文章于 2024-03-04 11:26:39 发布

阅读量296

点赞数

文章标签：自然语言处理

原文链接：https://www.jianshu.com/p/9ac0075cc4c0

版权

文章目录

前言
一、gensim是什么？
二、使用步骤
总结

前言

本文为记录学习gensim过程中自己的一些浅显的理解。gensim作为NLP领域的具备多种功能的神器，以下对其进行应用进行简单介绍及示例。
学习参考了以下博客：
https://www.jianshu.com/p/9ac0075cc4c0

一、gensim是什么？

Gensim是一款开源的第三方Python工具包，它支持包括TF-IDF，LSA，LDA，和word2vec在内的多种主题模型算法，支持流式训练，并提供了诸如相似度计算，信息检索等一些常用任务的API接口。用于从原始的非结构化的文本中，无监督地学习到文本隐层的主题向量表达。

二、使用步骤

1. 安装

代码如下（示例）：

pip install gensim

2.引入库

代码如下（示例）：

import gensim

3. 运用

3.1 基本概念

语料（Corpus）：一组原始文本的集合，用于无监督地训练文本主题的隐层结构。语料中不需要人工标注的附加信息。在Gensim中，Corpus通常是一个可迭代的对象（比如列表）。每一次迭代返回一个可用于表达文本对象的稀疏向量。

向量（Vector）：由一组文本特征构成的列表。是一段文本在Gensim中的内部表达。

稀疏向量（SparseVector）：通常，我们可以略去向量中多余的0元素。此时，向量中的每一个元素是一个(key, value)的元组

模型（Model）：是一个抽象的术语。定义了两个向量空间的变换（即从文本的一种向量表达变换为另一种向量表达）。

3.2 应用语料的预处理

训练语料的预处理指的是将文档中原始的字符文本转换成Gensim模型所能理解的稀疏向量的过程。需要先对原始的文本进行分词、去除停用词等操作，得到每一篇文档的特征列表。例如，在词袋模型中，文档的特征就是其包含的word：
texts = [[‘human’, ‘interface’, ‘computer’],
[‘survey’, ‘user’, ‘computer’, ‘system’, ‘response’, ‘time’],
[‘eps’, ‘user’, ‘interface’, ‘system’],
[‘system’, ‘human’, ‘system’, ‘eps’],
[‘user’, ‘response’, ‘time’],
[‘trees’],
[‘graph’, ‘trees’],
[‘graph’, ‘minors’, ‘trees’],
[‘graph’, ‘minors’, ‘survey’]]

接下来，我们可以调用Gensim提供的API建立语料特征（此处即是word）的索引字典，并将文本特征的原始表达转化成词袋模型对应的稀疏向量的表达。依然以词袋模型为例：

from gensim import corpora
dictionary = corpora.Dictionary(texts)
corpus = [dictionary.doc2bow(text) for text in texts]
print corpus[0] # [(0, 1), (1, 1), (2, 1)]

到这里，训练语料的预处理工作就完成了。我们得到了语料中每一篇文档对应的稀疏向量（这里是bow向量）；向量的每一个元素代表了一个word在这篇文档中出现的次数。值得注意的是，虽然词袋模型是很多主题模型的基本假设，这里介绍的doc2bow函数并不是将文本转化成稀疏向量的唯一途径。在下一小节里我们将介绍更多的向量变换函数。

最后，出于内存优化的考虑，Gensim支持文档的流式处理。我们需要做的，只是将上面的列表封装成一个Python迭代器；每一次迭代都返回一个稀疏向量即可。

class MyCorpus(object):
def iter(self):
for line in open('mycorpus.txt'):
# assume there's one document per line, tokens separated by whitespace
yield dictionary.doc2bow(line.lower().split())

3.2 主题向量的变换

对文本向量的变换是Gensim的核心。通过挖掘语料中隐藏的语义结构特征，我们最终可以变换出一个简洁高效的文本向量。
在Gensim中，每一个向量变换的操作都对应着一个主题模型，例如上一小节提到的对应着词袋模型的doc2bow变换。每一个模型又都是一个标准的Python对象。下面以TF-IDF模型为例，介绍Gensim模型的一般使用方法。
首先是模型对象的初始化。通常，Gensim模型都接受一段训练语料（注意在Gensim中，语料对应着一个稀疏向量的迭代器）作为初始化的参数。显然，越复杂的模型需要配置的参数越多。

from gensim import models
tfidf = models.TfidfModel(corpus)

其中，corpus是一个返回bow向量的迭代器。这两行代码将完成对corpus中出现的每一个特征的IDF值的统计工作。

接下来，我们可以调用这个模型将任意一段语料（依然是bow向量的迭代器）转化成TFIDF向量（的迭代器）。需要注意的是，这里的bow向量必须与训练语料的bow向量共享同一个特征字典（即共享同一个向量空间）。

doc_bow = [(0, 1), (1, 1)]
print tfidf[doc_bow] # [(0, 0.70710678), (1, 0.70710678)]

注意，同样是出于内存的考虑，model[corpus]方法返回的是一个迭代器。如果要多次访问model[corpus]的返回结果，可以先将结果向量序列化到磁盘上。

我们也可以将训练好的模型持久化到磁盘上，以便下一次使用：

tfidf.save("./model.tfidf")
tfidf = models.TfidfModel.load("./model.tfidf")

Gensim内置了多种主题模型的向量变换，包括LDA，LSI，RP，HDP等。这些模型通常以bow向量或tfidf向量的语料为输入，生成相应的主题向量。

3.3 文档相似度的计算

在得到每一篇文档对应的主题向量后，我们就可以计算文档之间的相似度，进而完成如文本聚类、信息检索之类的任务。在Gensim中，也提供了这一类任务的API接口。

总结

提示：仍在学习继续更新

在读幼稚园程序员

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
gensim在NLP中的一些简单运用

文章目录前言一、gensim是什么？二、使用步骤1. 安装2.引入库3. 运用3.1 基本概念3.2 应用语料的预处理3.2 主题向量的变换3.3 文档相似度的计算总结前言本文为记录学习gensim过程中自己的一些浅显的理解。gensim作为NLP领域的具备多种功能的神器，以下对其进行应用进行简单介绍及示例。学习参考了以下博客：https://www.jianshu.com/p/9ac0075cc4c0一、gensim是什么？Gensim是一款开源的第三方Python工具包，它支持包括TF-I
复制链接

扫一扫