中文句子的词分割算法：MaxMatch

最新推荐文章于 2024-06-19 14:01:19 发布

信谦

最新推荐文章于 2024-06-19 14:01:19 发布

阅读量6.1k

点赞数 3

文章标签： NLP 语音识别机器学习

本文链接：https://blog.csdn.net/dancegreen/article/details/79953387

版权

本文介绍了一种用于中文分词的高效算法——MaxMatch，并通过实例展示了其工作原理。该算法利用字典进行词汇查找，适合中文特点。文章还提到了评估分词效果的指标——词语错误率，并指出当前最佳的分词方法是基于监督机器学习的统计序列模型。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

今天阅读的时候，发现了一个分割句子中词语的算法：MaxMatch，这个算法在中文应用中效果很好。

这是一个贪心算法，在指定的字典(dictionary)中查找词汇并进行句子的分割。

下面是一个应用本算法的例子：

Input: 他特别喜欢北京烤鸭

Output: 他特别喜欢北京烤鸭

算法的伪代码如下：

这个算法在中文的应用中比英文好很多，因为中文词汇比英文短。

为了检验词汇分割的效果，我们可以使用词语错误率(word error rate)来衡量。

上述的算法是传统的算法。目前准确率最高的中文词汇分割算法是通过监督机器学习(supervised machine learning)训练的统计序列模型(statistical sequence model)，这个我们以后再写文章详细讨论。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

信谦

关注关注

3
点赞
踩
4

收藏

觉得还不错? 一键收藏
3
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

Python自然语言处理：词干、词形与MaxMatch算法

白马负金羁

04-06

1万+

自然语言处理中一个很重要的操作就是所谓的stemming 和 lemmatization，二者非常类似。它们是词形规范化的两类重要方式，都能够达到有效归并词形的目的，二者既有联系也有区别。基于贪婪策略设计的MaxMatch算法在中文自然语言处理中应用广泛，本文结合NLTK来演示在Python下进行NLP的一些技术。

Python自然语言处理之词干,词形与最大匹配算法代码详解

python爬虫程序学习教程

04-16

973

@本文来源于公众号：csdn2299，喜欢可以关注公众号程序员学府本文主要对词干提取及词形还原以及最大匹配算法进行了介绍和代码示例，Python实现，下面我们一起看看具体内容。自然语言处理中一个很重要的操作就是所谓的stemming和lemmatization，二者非常类似。它们是词形规范化的两类重要方式，都能够达到有效归并词形的目的，二者既有联系也有区别。 1、词干提取（stemming）...

3 条评论您还未登录，请先登录后发表或查看评论

Lucene中文切分原理及其他常见切分算法

ayi_5788的专栏

08-05

6742

1、什么是中文分词学过英文的都知道，英文是以单词为单位的，单词与单词之间以空格或者逗号句号隔开。而中文则以字为单位，字又组成词，字和词再组成句子。所以对于英文，我们可以简单以空格判断某个字符串是否为一个单词，比如I love China，love 和 China很容易被程序区分开来；但中文“我爱中国”就不一样了，电脑不知道“中国”是一个词语还是“爱中”是一个词语。把中文的句子切分成有意义的词，就

文本自动分割算法

weixin_34034670的博客

03-07

839

1.需求在数据清洗(ETL),日志文件分析，分隔符信息提取时，我们都会遇到如下常见的文本数据：中楼层/14层,东西,西直门南大街 3号院,1985年建,板楼中楼层/23层,南北,通惠南路6号,2003年建,板楼中楼层/12层,南北,通惠南路6号 1号院,2003年建,塔楼- 一个常见的处理思路，是按照分隔符，对文本进行切割。对于上面的文本，可以采用/,两种符号来切割。变成...

自然语言处理 -- 中文分词

qq_40337206的博客

04-26

1055

pom.xml引入jar <dependency> <groupId>edu.stanford.nlp</groupId> <artifactId>stanford-corenlp</artifactId> <version>3.9.2</versi...

Chinese word segmentation 中文词分割

yaochuyi的博客

06-06

4965

转自： https://www.cnblogs.com/DjangoBlog/p/6889421.html 现有分词介绍分词方法大致分为两种：基于词典的机械切分基于统计模型的序列标注切分 1. 基于词典的机械划分 1.1 基于词典的机械划分基于词典的方法本质上就是字符串匹配的方法，将一串文本中的文字片段和已有的词典进行匹配，如果匹配到，则此文字片段就作为一个分词结果。...

基本算法--拆分词句

qq_40666620的博客

10-27

304

拆分词句描述给定一个字符串s和一组单词dict，判断s是否可以用空格分割成一个单词序列，使得单词序列中所有的单词都是dict中的单词（序列可以包含一个或多个单词）。例如: 给定s=“nowcode”； dict=["now", "code"]. 返回true，因为"nowcode"可以被分割成"now code". 我们设定f(n)是以第n个字符串结尾的子字符串是否能够被拆分词句, 可以推导出 f( n ) = f(n - i) && dict.count( s.substr(i,

中文分词的算法

01-13

总结来说，中文分词是通过各种算法和技术来将连续的汉字序列正确地分割成单个词汇的过程。这一过程对于理解中文文本、进行信息检索、情感分析等NLP任务至关重要。而上述的系统测试流程则体现了分词系统开发和优化中...

scws-1.1.7.rar_SCWS-1.1.7_scws_中文分词 C++_分词_开源

09-22

中文分词是自然语言处理中的基础步骤，它将连续的汉字序列分割成具有语义的词汇单元，这对于后续的文本分析、信息检索、机器翻译等任务至关重要。 SCWS采用了一种机械分词法，也称为基于规则的分词方法。这种方法...

mila-morphAnalyzer:包含分词器分析器标记器代码

05-15

`mila-morphAnalyzer`的分词器部分采用了先进的算法，例如基于词典的匹配、正向最大匹配（MaxMatch）或逆向最大匹配（Reverse MaxMatch），以及结合上下文信息的统计模型，以提高分词的准确性和效率。通过这些方法，...

日文中文英文等文本切分句子

03-09

对于日文以及英文和中文或者其他的文本类型的数据，基于NLTK和DOCX以及re模块对整个文本进行切分，得到一条条的句子作为RNN网络的初始训练数据

Max_Match算法

09-07

Max Match算法，对英文连续字符进行匹配使用，可筛选出连续英文字符中的英文单词。

中英文字符串分割算法C++C程序示例

06-10

<> 一些背景知识: 1. 一个汉字在c\c++的存储, 使用2个字节(char)存储; 2. 汉字存储的第一个char, 其值一定大于'~'(0111 1110=126)，否则将导致识别歧义; 此处, 使用"单ASCII字符"来表示非单ASCII字符的判断，可以根据以下规则(主要R3, R4); : 一个字符串的长度==1，那肯定是一个ASCII字符； : 一个字符串的长度==2，且第1个ASCII字符的编码小于'~'；那肯定是2个单ASCII字符； -- (PS: "") : 一个字符串的长度==3，且中间的ASCII字符的编码小于'~'；那第3个肯定是单ASCII字符； (前2个是否构成1个汉字不能确定) : (基于R3)如果第pos个位置的ASCII字符编码小于'~'，那从下标pos,pos+1处拆分字符串 (下标pos归前串),将不会导致乱码; A 或者 B 的选择，需要知道以下信息： (1). 从 cut_base_pos 开始到 pos_B 结束的这段字符串内，最后一个单ASCII字符的结束下标 p 在此基础上，若使用: y -- 表示单ASCII字符(已确定的)； x -- 表示可能是单ASCII字符，也可能是汉字的半个ASCII存储码；那么一段长度为N的字符串,按照存储的ASCII码可以表示为一串如下的字符串(不包含[]) "x .. x][x .. x y x .. x][x .. x", 其中 s,e表示当前正在分析的一段子串(0<=s<e<=N, 下标e-s = 期望的分割长度cut_size) ^ ^ ^ ^ ^ 0 s p e N 在【s, e】之间, 查找结束下标p 的思路: 从e开始向s查找, 找到第一个y 后 break; 记录下标p, 则从位置p开始, 是一个正确的分割(cut); 但此分割并不是一个最好的分割. 可以在位置p上, 再加上 2K 个长度, 使 p+2K 与 pos_B 最接近即可. 可以认为从2K个长度的内容是K个汉字(实际上并不一定..), 但并不影响这个最佳分割的正确性！ :）

切分句子（非正则）

01-23

897

/** * @function * @param source 待分句的句子 * @param div 分隔符 * @param include 结果中是否包含分隔符 * @return */ public static String[] split(String source, String div, boolean include) { StringTokeni

NLP：将中文/英文文档切分多个句子

日常学习与专研的记录

06-04

1244

本文介绍如何利用 SpaCy 将中文、英文文档切分成多个句子。

【草稿】关于文本句子分割（中文+英文）以及向量处理

weixin_43098506的博客

08-24

2815

草稿，关于大语言模型相关项目研究内容

中文句子拆分词语

博客

01-24

6482

不用AI实现中文句子拆分成词语前两天老师布置了一样作业，就是把输入英文句子中D打头的单词全部拆分出来，题目没有说输入好的文字是怎么样的。可能是这样的：This is a apple 也可能是这样的：Thisisaapple 看起来很复杂。。。我当时想到的是用人工智能来进行语义识别。但是学校作业不可能这么麻烦。而且找不到现成的接口。后面发现题目单词是一个一个输入的。。。所以我们就加大难度...

NLP之nltk：基于nltk库实现句子分词及标注对应词性、句子分割、波特词干算法进行词干提取代码案例实现