Python spaCy 库进行中文简单文本分词

弥十一

已于 2024-09-06 14:07:15 修改

阅读量308

点赞数 7

文章标签： python 开发语言

于 2024-09-06 14:05:33 首次发布

本文链接：https://blog.csdn.net/m0_57916248/article/details/141957807

版权

spaCy 是一个非常强大的自然语言处理库，广泛应用于文本处理、实体识别、句法分析等领域。本文将介绍如何使用 spaCy 库进行文本分词，并提供详细的代码示例。

1、安装模型

自动安装只适用少部分的电脑，而以下为自动安装：

pip install spacy

#下载zh_core_web_sm 模型
python -m spacy download zh_core_web_sm

①手动安装可以适应更多的电脑，首先访问 spaCy Model Releases 页面，然后找到 zh_core_web_sm 的最新版本，点击下载对应的 .tar.gz 文件。

②下载模型文件：下载 zh_core_web_sm 的 whl 文件，假设下载的文件名为 en_core_web_md-3.7.1-py3-none-any.whl。
③解压模型文件：将下载的模型文件解压到指定目录。

④更换下面代码路径

pip install D:/迅雷下载/en_core_web_md-3.7.1-py3-none-any.whl

2、加载模型

   nlp = spacy.load('zh_core_web_sm')

3、定义文本

   text = "自然语言处理是人工智能的一个重要分支，它研究人类语言与计算机之间的交互。"

4、分词文本

   doc = nlp(text)

5、输出分词结果

   for token in doc:
       print(token.text)

遍历分词后的结果，并打印每个词汇。

6、结果展示

自然语言处理
是
人工智能
的
一个
重要
分支
，
它
研究
人类
语言
与
计算机
之间
的
交互
。

我们可以看到 spaCy 提供了一个简单而强大的接口来进行文本分词。无论是中文还是其他语言，spaCy 都能够很好地支持。本文并未使用停用词库进行筛选，简单分词的准确性可以根据停用词库进行逐渐提高。

关注