NLP：将中文/英文文档切分多个句子

SmallerFL

已于 2024-06-04 17:53:32 修改

阅读量504

点赞数 5

分类专栏： NLP&机器学习文章标签：自然语言处理人工智能 python nlp

于 2024-06-04 17:52:45 首次发布

本文链接：https://blog.csdn.net/qq_36803941/article/details/139449947

版权

NLP&机器学习专栏收录该内容

78 篇文章 11 订阅

订阅专栏

文章目录

1. 前言
2. 步骤

1. 前言

SpaCy 是一个开源的自然语言处理库，它支持多种语言的文本处理，包括中文。SpaCy 对中文文本的处理主要依赖于其内置的中文分词器（tokenizer）。以下是使用 SpaCy 切分中文句子的基本步骤：

2. 步骤

2.1安装 SpaCy

首先，确保你已经安装了 SpaCy。如果尚未安装，可以通过 pip 安装。

pip install spacy

2.2 下载模型

SpaCy 需要下载特定的语言模型来处理中文文本。可以通过以下命令下载中文/英文模型。

python -m spacy download zh_core_web_sm
python -m spacy download en_core_web_sm

这里 zh_core_web_sm 是 SpaCy 提供的中文小模型，en_core_web_sm 是 SpaCy 提供的英文小模型。

2.3 加载模型并处理文本

加载下载好的模型，并使用它来处理文本。SpaCy 的分词器会自动将文本切分成句子和单词。

import spacy

# 加载中文模型
zh_nlp = spacy.load('zh_core_web_sm')
en_nlp = spacy.load('en_core_web_sm')

def split_zh(text):
	# 处理文本
	doc = zh_nlp(text)
	# 遍历文档中的句子
	for sent in doc.sents:
	    print(sent.text)
	    
def split_en(text):
	# 处理文本
	doc = en_nlp(text)
	# 遍历文档中的句子
	for sent in doc.sents:
	    print(sent.text)

在上面的代码中，zh_nlp 是 SpaCy 的中文模型实例，en_nlp 是 SpaCy 的英文模型实例。text 是你想要处理的中文文本。zh_nlp(text) 会返回一个 Doc 对象，该对象包含了文本的分词、词性标注、依存关系等信息。doc.sents 是一个生成器，它会遍历文档中的所有句子。

欢迎关注本人，我是喜欢搞事的程序猿；一起进步，一起学习；

欢迎关注知乎/CSDN：SmallerFL；

也欢迎关注我的wx公众号（精选高质量文章）：一个比特定乾坤