HMM最大匹配分词算法（Python）

最新推荐文章于 2023-03-09 10:06:50 发布

rebellion51

最新推荐文章于 2023-03-09 10:06:50 发布

阅读量1.9k

点赞数

分类专栏： nlp 文章标签： python HMM

本文链接：https://blog.csdn.net/rebellion51/article/details/46683307

版权

本文介绍了使用最大正向匹配算法进行中文分词的实践，通过Python实现。虽然此算法简单，但准确率有限，主要用于机器粗分。文中提到的召回率和正确率均为100%，并提及了受到'Blueliner,fighting!!!'的启发。" 119835978,7852142,Java实现AES/ECB/PKCS7Padding加密解密,"['Java', '加密算法', '信息安全']

摘要由CSDN通过智能技术生成

正向最大匹配算法是我国最早提出的解决中文分词问题的算法，因其简单易操作，至今仍作为机器分词的粗分算法，在今天看来，这种算法的准确率远不够高，无法达到令人满意的要求。这只是一次练习。

待切分文本是：
我和你共同创造美好的新生活

词典：
共同，创造，美好，的，新，生活

预期分词效果：
我和你共同创造美好的新生活

# Python 3.4.3

lexicon = ('共同','创造','美好','的','新','生活') # 为了方便，词典直接写在程序里。
wordSeg = []    # 新建列表存放切分好的词
maxWordLen = 3

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

rebellion51

关注关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

HMM实现中文分词python实现作业

10-27

在自然语言处理（NLP）领域，中文分词是一项基础且关键的任务，它涉及到将连续的汉字序列分割成有意义的词汇...在实际应用中，HMM分词算法通常与其他NLP任务结合，如词性标注和命名实体识别，共同提高整个系统的性能。

分词算法的python实现（正向最大匹配法）

AimeeLee01的博客

10-03

5657

正向最大匹配法又称MM法，其基本思想是: 假设分词词典中的最长词由i个汉字字符组成，则用被处理文档的当前字符串中前i个字作为匹配字段查找词典。若词典中存在这样一个字词，则匹配成功，匹配字段作为一个词被切分出来，否则匹配失败。应将匹配字段中的最后一个字去掉，对剩下的字串重新进行匹配处理。如此进行下去，直到匹配成功。然后取下一个字字串进行匹配处理，直到文档被扫描完为止。下面是我用pytho

参与评论您还未登录，请先登录后发表或查看评论

用正向和逆向最大匹配算法进行中文分词（续）

时空霹雳的专栏

07-15

2858

本文是用正向和逆向最大匹配算法进行中文分词

Python---正向、逆向和双向最大匹配算法

qq_41982466的博客

08-22

7595

使用python实现正向、逆向和双向最大匹配算法正向最大匹配 class leftMax(object): def __init__(self,dict_path): self.dictionary = set() #定义字典 self.maximum = 0 #最大匹配长度 with open(dict_path,'r'...

【python自然语言处理】规则分词（最大匹配法）

m0_62464865的博客

03-09

1106

基于规则的分词，主要是通过维护词典，在切分语句时，将语句的每个字符串与词表中的词逐一匹配，找到则切分，否则不切分。以上主要总结了三种规则匹配方法，正向最大匹配法，逆向最大匹配法，和双向最大匹配算法，并给出了相应的代码实现，以上代码都可以直接运行出结果。

python3 中文分词正向反向最大匹配与HMM 分词

bingheshidai_1234的博客

06-25

939

数据所需数据集：https://pan.baidu.com/s/15EKb378-ds_5FNF9614Q1g 提取码：ebkd 代码如图 #反向匹配 class LMM(): def __init__(self, dic_path): self.dictionary = set() self.maximum = 0 # 读取词典 ...

用python实现前向分词最大匹配算法的示例代码

09-16

为了解决这个问题，可以结合其他分词方法，如后向最大匹配、双向最大匹配，或者使用更复杂的统计模型，如隐马尔可夫模型（HMM）和条件随机场（CRF）。总之，前向最大匹配算法是中文分词的一种基础方法，适合于词典...

python中文分词教程之前向最大正向匹配算法详解

09-21

本文主要探讨的是前向最大正向匹配算法（Forward Maximum Matching, FMM），这是一种广泛应用于中文分词的基础算法。前向最大正向匹配算法的核心思想是从文本的左侧开始，尝试匹配尽可能长的词汇。在执行过程中，...

hmm_HMM_python_中文分词_

10-02

基于隐马尔可夫算法，中文分词模型，字典，训练集

python实现中文分词FMM算法实例

09-21

但在处理大规模文本或要求高精度的场景下，可能需要更复杂的分词算法，如HMM（隐马尔科夫模型）、CRF（条件随机场）或者深度学习方法，例如LSTM（长短期记忆网络）和BERT（双向Transformer）。这些方法通常需要更大...

正向最大匹配算法实现中文分词

09-23

中文分词一直都是中文自然语言处理领域的基础研究。目前，分词系统绝大多数都是基于中文词典的匹配算法。其中最为常见的是最大匹配算法 (Maximum Matching，以下简称MM算法) 。MM算法有三种：一种正向最大匹配，一种逆向最大匹配和双向匹配。本程序实现了正向最大匹配算法。本程序还可以从我的github上面下载：https://github.com/Zehua-Zeng/Maximum-Matching-Algorithm

一个简单的分词系统（可以选择正向最大匹配分词或逆向最大匹配）

03-03

使用正向最大匹配FMM分词以及逆向最大匹配BMM分词但不是同时使用

python正向最大匹配分词和逆向最大匹配分词

10-12

python正向最大匹配分词和逆向最大匹配分词完整的源代码分享，运行使用后对相关技术人员很有分享价值，为开发人员节省开发时间和提高开发思路是很不错的选择

基于词库的双向最大匹配算法（博文）

10-20

python 双向最大匹配算法双向最大匹配算法双向最大匹配算法

python 实现机械分词（1）-正向最大匹配算法