分词:浅谈中文分词与jieba源码

本文介绍了中文分词的重要性、难点,重点解析了jieba分词工具的源码,包括前缀词典、有向无环图DAG、最大切分策略以及未登录词的HMM模型实现,旨在深入理解jieba分词机制。
摘要由CSDN通过智能技术生成

一、前言

1、什么是中文分词?

中文文本,从形式上看是由汉字、标点符号等组成的一个字符串。由字组成词,再组成句子、文章等。那么分词,就是按照一定的规则把字符串重新组合成词序列的过程。

2、为什么要分词?

(1)在中文里面,词是最小的能够独立活动的有意义的语言成分

(2)英文中单词以空格作为自然分界,虽然也有短语划分的问题。但中文词没有一个形式上的分界,相对而言难度大了许多

(3)分词作为中文自然语言处理的基础工作,质量的好坏对后面的工作影响很大

3、分词的难点?

(1)歧义消解问题

输入待切分句子:提高人民生活水平

可以切分输出 :提高/人民/生活/水平

或者切分输出:提/高人/民生/活水/平

可以看到,明显第二个输出为歧义切分。

(2)未登录词识别

未登录词指的是在已有的词典中,或者训练语料里面没有出现过的词,分为实体名词,专有名词及新词。

4、怎么分词?

(1)基于字典、词库匹配的分词

机械分词算法,将待分的字符串与一个充分大的机器词典中的词条进行匹配。

分为正向匹配和逆向匹配;最大长度匹配和最小长度匹配;单纯分词和分词与标注过程相结合的一体化方法。所以常用的有:正向最大匹配,逆向最大匹配,最少切分法。

实际应用中,将机械分词作为初分手段,再利用其他方法提高准确率。

(2)基于词频统计的分词

统计分词,是一种全切分方法。切分出待分语句中所有的词,基于训练语料词表中每个词出现的频率,运用统计模型和决策算法决定最优的切分结果。

(3)基于知识理解的分词

主要基于句法、语法分析,并结合语义分析,通过对上下文内容所提供信息的分析对词进行定界。

这类方法试图让机器具有人类的理解能力,需要使用大量的语言知识和信息,目前还处在试验阶段。

二、jieba分词源码解析

jieba分词,目前是python中文分词方面比较好的工具。支持精确、全模式及搜索引擎模式的分词,具体可以请看jieba文档:https://github.com/fxsjy/jieba

在文档中,jieba列出了工具实现的算法策略:

1)、基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图 (DAG)

2)、采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合

3)、对于未登录词,采用了基于汉字成词能力的 HMM 模型,使用了 Viterbi 算法

接下来我们来看看,具体jieba是怎么实现这些算法的。

1、前缀词典

前缀词典,实际上可以认为是一个词频词典(即:

  • 2
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值