Python与自然语言处理库Gensim实战

最新推荐文章于 2024-07-12 16:16:27 发布

CrMylive.

最新推荐文章于 2024-07-12 16:16:27 发布

阅读量559

点赞数

分类专栏： Python编程入门指南：新手学习必备内容文章标签： python 自然语言处理 easyui

本文链接：https://blog.csdn.net/qq_34910341/article/details/132004738

版权

Python编程入门指南：新手学习必备内容专栏收录该内容

561 篇文章 25 订阅 ¥49.90 ¥99.00

订阅专栏

超级会员免费看

一、Gensim 简介

Gensim 是一款 Python 自然语言处理库。它能够自动化训练出一个文本语料库，然后用该语料库来训练出一个词向量模型。在语料库中，每个语料库都是由一个个文档组成，每个文档则是由若干个单词组成。

Gensim 相对于其他 Python 自然语言处理库的优点在于它的速度和内存占用率较低。同时它还提供了许多文本处理的功能，比如文档相似度计算和主题建模等。

二、安装Gensim

在安装 Gensim 之前，需要确认已经安装了 NumPy 和 SciPy 库。如果没有安装，可以使用 pip 安装。

可以通过以下命令安装 Gensim：

pip install gensim

三、语料库的建立

在进行自然语言处理之前，需要将文本文件转换成语料库。在这里，我们就以新闻文章为例进行语料库的建立。

在建立语料库之前，需要将新闻文章转化为可供计算机处理的形式。我们采用的方法是，先将文章划分为单词，再去除停用词和标点符号，最后将单词组成的列表存储在文本文件中。

以下是对一个新闻文章进行预处理的代码示例：

import nltk
from nltk.corpus import stopwords
from string import punctuation
from nltk.tokenize import word_tokenize

def pre_process(text):
    stop_words = set(stopwords.words('english') + list(punctuation))
    tokens = word_tokenize(text.lower())
    return [token for token in tokens if t

了解本专栏

超级会员免费看

CrMylive.

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
Python与自然语言处理库Gensim实战

接着，我们使用 Gensim 库中的 Dictionary 函数和 TfidfModel 函数，对语料库进行向量化处理，得到一个用于相似度计算的稀疏矩阵。接着，我们使用 NLTK 库中的停用词列表和标点符号列表，将文章中的停用词和标点符号都去除。接着，我们使用 Gensim 库中的 Word2Vec 函数，传入划分好的句子和单词，来训练出一个大小为 100 的词向量模型。使用训练好的词向量模型，我们可以进行许多自然语言处理上的应用，比如计算两个单词之间的相似度、计算两个文档之间的相似度、进行主题建模等。
复制链接

扫一扫

专栏目录

Python与自然语言处理库Gensim实战

“相关推荐”对你有帮助么？