一、Gensim 简介
Gensim 是一款 Python 自然语言处理库。它能够自动化训练出一个文本语料库,然后用该语料库来训练出一个词向量模型。在语料库中,每个语料库都是由一个个文档组成,每个文档则是由若干个单词组成。
Gensim 相对于其他 Python 自然语言处理库的优点在于它的速度和内存占用率较低。同时它还提供了许多文本处理的功能,比如文档相似度计算和主题建模等。
二、安装Gensim
在安装 Gensim 之前,需要确认已经安装了 NumPy 和 SciPy 库。如果没有安装,可以使用 pip 安装。
可以通过以下命令安装 Gensim:
pip install gensim
三、语料库的建立
在进行自然语言处理之前,需要将文本文件转换成语料库。在这里,我们就以新闻文章为例进行语料库的建立。
在建立语料库之前,需要将新闻文章转化为可供计算机处理的形式。我们采用的方法是,先将文章划分为单词,再去除停用词和标点符号,最后将单词组成的列表存储在文本文件中。
以下是对一个新闻文章进行预处理的代码示例:
import nltk
from nltk.corpus import stopwords
from string import punctuation
from nltk.tokenize import word_tokenize
def pre_process(text):
stop_words = set(stopwords.words('english') + list(punctuation))
tokens = word_tokenize(text.lower())
return [token for token in tokens if t