分词：浅谈中文分词与jieba源码

最新推荐文章于 2023-03-21 08:16:42 发布

lpty

最新推荐文章于 2023-03-21 08:16:42 发布

阅读量3.4k

点赞数 2

分类专栏：自然语言自然语言基础

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sinat_33741547/article/details/78690440

版权

本文介绍了中文分词的重要性、难点，重点解析了jieba分词工具的源码，包括前缀词典、有向无环图DAG、最大切分策略以及未登录词的HMM模型实现，旨在深入理解jieba分词机制。

摘要由CSDN通过智能技术生成

一、前言

1、什么是中文分词？

中文文本，从形式上看是由汉字、标点符号等组成的一个字符串。由字组成词，再组成句子、文章等。那么分词，就是按照一定的规则把字符串重新组合成词序列的过程。

2、为什么要分词？

（1）在中文里面，词是最小的能够独立活动的有意义的语言成分

（2）英文中单词以空格作为自然分界，虽然也有短语划分的问题。但中文词没有一个形式上的分界，相对而言难度大了许多

（3）分词作为中文自然语言处理的基础工作，质量的好坏对后面的工作影响很大

3、分词的难点？

（1）歧义消解问题

输入待切分句子：提高人民生活水平

可以切分输出：提高/人民/生活/水平

或者切分输出：提/高人/民生/活水/平

可以看到，明显第二个输出为歧义切分。

（2）未登录词识别

未登录词指的是在已有的词典中，或者训练语料里面没有出现过的词，分为实体名词，专有名词及新词。

4、怎么分词？

（1）基于字典、词库匹配的分词

机械分词算法，将待分的字符串与一个充分大的机器词典中的词条进行匹配。

分为正向匹配和逆向匹配；最大长度匹配和最小长度匹配；单纯分词和分词与标注过程相结合的一体化方法。所以常用的有：正向最大匹配，逆向最大匹配，最少切分法。

实际应用中，将机械分词作为初分手段，再利用其他方法提高准确率。

（2）基于词频统计的分词

统计分词，是一种全切分方法。切分出待分语句中所有的词，基于训练语料词表中每个词出现的频率，运用统计模型和决策算法决定最优的切分结果。

（3）基于知识理解的分词

主要基于句法、语法分析，并结合语义分析，通过对上下文内容所提供信息的分析对词进行定界。

这类方法试图让机器具有人类的理解能力，需要使用大量的语言知识和信息，目前还处在试验阶段。

二、jieba分词源码解析

jieba分词，目前是python中文分词方面比较好的工具。支持精确、全模式及搜索引擎模式的分词，具体可以请看jieba文档：https://github.com/fxsjy/jieba

在文档中，jieba列出了工具实现的算法策略：

1）、基于前缀词典实现高效的词图扫描，生成句子中汉字所有可能成词情况所构成的有向无环图 (DAG)

2）、采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合

3）、对于未登录词，采用了基于汉字成词能力的 HMM 模型，使用了 Viterbi 算法

接下来我们来看看，具体jieba是怎么实现这些算法的。

1、前缀词典

前缀词典，实际上可以认为是一个词频词典（即：

最低0.47元/天解锁文章

关注

2
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
分词：浅谈中文分词与jieba源码

一、前言1、什么是中文分词？中文文本。从形式上看是由汉字、标点符号等组成的一个字符串。由字组成词，再组成句子、文章等。那么分词，就是按照一定的规则把字符串重新组合成词序列的过程。2、为什么要分词？（1）在中文里面，词是最小的能够独立活动的有意义的语言成分（2）英文中单词以空格作为自然分界，虽然也有短语划分的问题。但中文词没有一个形式上的分界，相对而言难度大了许多（3）分词作
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。