*Python* spaCy 库进行中文简单文本分词

        spaCy 是一个非常强大的自然语言处理库,广泛应用于文本处理、实体识别、句法分析等领域。本文将介绍如何使用 spaCy 库进行文本分词,并提供详细的代码示例。

 1、安装模型

         自动安装只适用少部分的电脑,而以下为自动安装:

pip install spacy

#下载zh_core_web_sm 模型
python -m spacy download zh_core_web_sm

        ①手动安装可以适应更多的电脑,首先访问 spaCy Model Releases 页面,然后找到 zh_core_web_sm 的最新版本,点击下载对应的 .tar.gz 文件。

https://github.com/explosion/spacy-models/releases

        ②下载模型文件: 下载 zh_core_web_sm 的 whl 文件,假设下载的文件名为 en_core_web_md-3.7.1-py3-none-any.whl。
        ③解压模型文件: 将下载的模型文件解压到指定目录。

        ④更换下面代码路径

pip install D:/迅雷下载/en_core_web_md-3.7.1-py3-none-any.whl

2、加载模型

   nlp = spacy.load('zh_core_web_sm')

3、定义文本

   text = "自然语言处理是人工智能的一个重要分支,它研究人类语言与计算机之间的交互。"

4、分词文本

   doc = nlp(text)

5、输出分词结果

   for token in doc:
       print(token.text)

遍历分词后的结果,并打印每个词汇。

6、结果展示

自然语言处理
是
人工智能
的
一个
重要
分支
,
它
研究
人类
语言
与
计算机
之间
的
交互
。

        我们可以看到 spaCy 提供了一个简单而强大的接口来进行文本分词。无论是中文还是其他语言,spaCy 都能够很好地支持。本文并未使用停用词库进行筛选,简单分词的准确性可以根据停用词库进行逐渐提高。

  • 7
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值