中文NLP入门必备：全面解析分词、命名实体识别与词性标注（附详细实战案例）

最新推荐文章于 2025-04-17 22:00:18 发布

吴师兄大模型

最新推荐文章于 2025-04-17 22:00:18 发布

阅读量1.3k

点赞数 20

分类专栏：自然语言处理（NLP）从零到精通文章标签：人工智能自然语言处理 nlp 大模型 jieba 命名实体识别词性标注

本文链接：https://blog.csdn.net/Kiradzy/article/details/144987768

版权

自然语言处理（NLP）从零到精通专栏收录该内容

4 篇文章

订阅专栏

系列文章目录

01-中文NLP入门必备：全面解析分词、命名实体识别与词性标注（附详细实战案例）

前言

自然语言处理（NLP）是人工智能领域的核心方向之一，而文本处理是NLP任务的基础环节。本文将从中文文本处理的基本方法入手，重点介绍分词、命名实体识别（NER）、**词性标注（POS）**等概念，结合常用的工具库jieba进行实践操作，帮助读者全面掌握这些技术及其实际应用。

一、分词

1.1 什么是分词

分词是指将连续的文本按照一定规则重新划分为单词序列的过程。在英文中，单词之间通过空格自然分隔，而在中文中，虽然字与句通过标点符号可以简单划界，但词语之间缺少明确的分隔符。因此，分词的任务就是找出这些隐含的分界点。

1.1.1 分词示例

例子：
输入：

小明喜欢自然语言处理
输出：
[‘小明’, ‘喜欢’, ‘自然语言处理’]

分词的作用包括：

文本理解的基础：词是语义理解的最小单位。
高阶任务的必要步骤：如文本分类、情感分析、机器翻译等都依赖分词结果。

1.2 jieba中文分词工具

jieba 是Python最流行的中文分词库之一，提供了多种分词模式，支持繁体分词和自定义词典等功能。

1.2.1 安装jieba

可以使用pip安装：

pip install jieba

1.2.2 分词模式详解

（1）精确模式

尽量将句子切分为最精确的词，适合文本分析任务。
示例代码：

import jieba

content = "小明喜欢自然语言处理"
result = jieba.lcut(content, cut_all=False)  # 精确模式
print(result)

输出：

['小明', '喜欢', '自然语言处理']

（2）全模式

将句子中所有可能的词都切分出来，速度快，但不能去歧义。
示例代码：

result = jieba.lcut(content, cut_all=True)  # 全模式
print(result)

输出：

['小明', '喜欢', '自然', '自然语言', '语言', '语言处理', '处理']

（3）搜索引擎模式

在精确模式基础上，对长词再次细分，适合用于搜索引擎。
示例代码：

result = jieba.lcut_for_search(content)
print(result)

输出：

['小明', '喜欢', '自然', '语言', '自然语言', '处理', '语言处理']

1.3 用户自定义词典

通过自定义词典可以提高分词的准确性，尤其是行业术语和专有名词。

1.3.1 定义词典

词典格式：每行包含词语、词频、词性，词频和词性可选。

词频（可选）：该词在语料中出现的频率，数值越大表示越常见。
词性（可选）：该词的词性标注，如名词（n）、人名（nr）等。

示例内容（保存为userdict.txt）：

自然语言处理 100 n
小明 50 nr

1.3.2 加载词典

代码示例：

jieba.load_userdict('userdict.txt')
content = "小明喜欢自然语言处理"
result = jieba.lcut(content)
print(result)

输出：

['小明', '喜欢', '自然语言处理']

二、命名实体识别（NER）

2.1 什么是命名实体识别

命名实体识别（NER）是从文本中识别出特定类型的实体，如人名、地名、机构名等。
示例：
输入：

小明来自北京大学
输出：
小明（人名） / 北京大学（机构名）

命名实体是文本语义分析的核心单元，也是高阶任务（如知识图谱构建、信息抽取）的基础。

2.2 jieba中的NER实现

虽然jieba并未直接支持NER，但通过用户自定义词典，可以间接实现简单的实体识别。

2.2.1 自定义实体词典

词典样例：

小明 50 nr
北京大学 100 nt

2.2.2 实现代码

代码示例：

jieba.load_userdict('userdict.txt')
content = "小明来自北京大学"
result = jieba.lcut(content)
print(result)

输出：

['小明', '来自', '北京大学']

三、词性标注（POS）

3.1 什么是词性标注

词性标注是为句子中的每个词汇标注其语法类别（如名词、动词、形容词等）。
示例：
输入：

我喜欢学习
输出：
我（代词） / 喜欢（动词） / 学习（动名词）

3.2 jieba中的词性标注

jieba通过posseg模块支持中文词性标注。

3.2.1 安装与基本用法

代码示例：

import jieba.posseg as pseg

content = "我喜欢学习"
result = pseg.lcut(content)
for word, flag in result:
    print(f"{word}: {flag}")

输出：

我: r
喜欢: v
学习: vn

标注含义：

r：代词
v：动词
vn：动名词

3.3 自定义词性

通过自定义词典，可以为特定词语分配特定的词性标签。

3.3.1 实现代码

词典样例：

自然语言处理 100 nlp

代码示例：

jieba.load_userdict('userdict.txt')
content = "我喜欢自然语言处理"
result = pseg.lcut(content)
for word, flag in result:
    print(f"{word}: {flag}")

输出：

我: r
喜欢: v
自然语言处理: nlp

3.4 常见的词性标注

在中文词性标注中，词性的定义以语法特征为主要依据，结合词汇的实际意义对词进行分类。以下是常见的词性标注及其含义，结合jieba和其他分词工具的标注规则进行总结：

3.4.1 名词类

n：普通名词
示例：书、苹果、电脑
nr：人名
示例：李华、鲁迅、周杰伦
ns：地名
示例：北京、上海、长江
nt：机构团体名
示例：清华大学、新华社、腾讯
nz：其他专有名词
示例：人工智能、区块链、自然语言处理

3.4.2 动词类

v：普通动词
示例：跑、吃、学习
vd：动副词
示例：喜欢地笑、轻轻地打
vn：动名词
示例：写作、旅行、处理

3.4.3 形容词类

a：普通形容词
示例：美丽、迅速、高兴
ad：副形容词
示例：特别美丽、极其迅速
an：名词性形容词
示例：高效的方案、美味的蛋糕

3.4.4 数量词类

m：数量词
示例：一个、三只、五本
mq：数量词短语
示例：一群人、三条鱼、两杯水

3.4.5 代词类

r：代词
示例：我、你、他、它

3.4.6 副词类

d：副词
示例：很、非常、极其、特别

3.4.7 连词类

c：连词
示例：和、但是、或者、而且

3.4.8 介词类

p：介词
示例：在、对、从、向

3.4.9 助词类

u：助词
示例：的、了、着、过

3.4.10 拟声词类

o：拟声词
示例：汪汪、喵喵、轰隆隆

3.4.11 叹词类

e：叹词
示例：啊、哎呀、哼

3.4.12 标点符号类

x：其他字符（主要是标点符号）
示例：，。？！

3.4.13 其他

t：时间词
示例：今天、明天、2023年
f：方位词
示例：上、下、左、右
q：量词
示例：个、只、本、条
s：处所词
示例：学校、家、公司

3.4.14 总结

不同的词性类别反映了词在句子中的语法和语义功能，是实现文本解析的重要依据。在jieba等工具中，熟悉这些标注规则能够帮助我们更好地分析文本结构，进而应用于更复杂的自然语言处理任务中。

四、小结

本文详细介绍了中文文本处理的基本方法，包括：

分词：通过jieba实现精确模式、全模式、搜索引擎模式分词，并支持自定义词典。
命名实体识别（NER）：通过自定义词典实现对人名、地名等实体的识别。
词性标注（POS）：通过jieba.posseg模块进行词性标注，支持自定义词性。

文本处理是自然语言理解的基石，希望通过本文的讲解，读者能够深入掌握这些技术，为后续的NLP研究和应用奠定基础！