NLP系列-中文分词（基于词典）

最新推荐文章于 2023-07-11 18:08:35 发布

hiyoungai

最新推荐文章于 2023-07-11 18:08:35 发布

阅读量2.1k

点赞数 1

分类专栏： NLP 文章标签：中文分词 NLP

本文链接：https://blog.csdn.net/hiyoungai/article/details/86698813

版权

中文分词是自然语言处理的关键技术，涉及分词规则、歧义消除和未登录词识别。本文介绍了正向、逆向和双向最大匹配法，并探讨了它们的优缺点及实际应用。

摘要由CSDN通过智能技术生成

中文分词概述
词是最小的能够独立活动的有意义的语言成分，一般分词是自然语言处理的第一项核心技术。英文中每个句子都将词用空格或标点符号分隔开来，而在中文中很难对词的边界进行界定，难以将词划分出来。在汉语中，虽然是以字为最小单位，但是一篇文章的语义表达却仍然是以词来划分的。因此处理中文文本时，需要进行分词处理，将句子转为词的表示，这就是中文分词。

中文分词的三个难题：
分词规则，消除歧义和未登录词识别。

构建完美的分词规则便可以将所有的句子正确的划分，但是这根本无法实现，语言是长期发展自然而然形成的，而且语言规则庞大复杂，很难做出完美的分词规则。

在中文句子中，很多词是由歧义性的，在一句话也可能有多种分词方法。比如：”结婚/的/和尚/未结婚/的“，“结婚/的/和/尚未/结婚/的”，人分辨这样的句子都是问题，更何况是机器。

此外对于未登陆词，很难对其进行正确的划分。

目前主流分词方法：
基于规则，基于统计以及二者混合。

基于规则的分词：
主要是人工建立词库也叫做词典，通过词典匹配的方式对句子进行划分。其实现简单高效，但是对未登陆词很难进行处理。主要有正向最大匹配法，逆向最大匹配法以及双向最大匹配法。

正向最大匹配法（FMM）
FMM的步骤是：

（1）从左向右取待分汉语句的m个字作为匹配字段，m为词典中最长词的长度。

（2ÿ

最低0.47元/天解锁文章

hiyoungai

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
NLP系列-中文分词（基于词典）

中文分词概述词是最小的能够独立活动的有意义的语言成分，一般分词是自然语言处理的第一项核心技术。英文中每个句子都将词用空格或标点符号分隔开来，而在中文中很难对词的边界进行界定，难以将词划分出来。在汉语中，虽然是以字为最小单位，但是一篇文章的语义表达却仍然是以词来划分的。因此处理中文文本时，需要进行分词处理，将句子转为词的表示，这就是中文分词。中文分词的三个难题：分词规则，消除歧义和未登录词识别...
复制链接

扫一扫