中文分词原理及分词工具介绍

最新推荐文章于 2024-08-02 02:19:06 发布

小小打工人001

最新推荐文章于 2024-08-02 02:19:06 发布

阅读量1.4k

点赞数

文章标签：自然语言处理机器学习 python 算法人工智能

本文链接：https://blog.csdn.net/JennyWang0520/article/details/106346464

版权

中文分词学习记录

中文分词

中文分词

首先，我们将介绍中文分词的思想和方法。
分词就是将连续的字序列按照一定的规范重新组合成词序列的过程(来自百度百科)。中文分词(Chinese Word Segmentation)指的是将一串串汉字序列切分为单个的字，继而重新组合为词的过程。
中文分词工具有很多，当下国内比较流行的中文分词工具有盘古分词、Yaha分词、jieba分词、SnowNLP、清华THULAC、北大PKUSEG、NLPIR，上述分词工具均已在github上开源。本文中也会重点介绍一些jieba分词的原理及应用。

实现方法

基于字符串匹配的分词方法
基于理解的分词方法
基于统计的分词方法

基于字符串匹配的分词方法

基于字符串匹配的分词方法又称机械分词方法，它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行匹配，若在词典中找到某个字符串，则匹配成功（也就是识别出一个词）

在对字符串进行匹配时，需要对该字符串进行扫描，按照扫描方向的不同，基于字符串匹配的分词方法可以分为正向匹配和逆向匹配。按照不同长度优先匹配的不同，可以分为最大/长匹配和最小/短匹配。常见的有以下几种方法：

正向最大匹配法(从左到右的方向)
逆向最大匹配法(从右到左的方向)
最小切分(每一句中切出的词数最小)
双向最大匹配(1和2的结合)

这些算法的优点是速度快，时间复杂度保持在O(n)，实现简单，效果可以。但对歧义和未登录词处理效果不佳。实际使用的分词系统，都是把基于字符串匹配的分词作为一种初分手段，还需通过利用各种其它的语言信息来进一步提高切分的准确率。

基于理解的分词方法

这种分词方法是通过让计算机模拟人对句子的理解，达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析，利用句法信息和语义信息来处理歧义现象。它通常包括三个部分：分词子系统、句法语义子系统、总控部分。在总控部分的协调下，分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断，即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性，难以将各种语言信息组织成机器可直接读取的形式，因此目前基于理解的分词系统还处在试验阶段。

基于统计的分词方法

基于统计的分词方法指的是在给出大量已经分词的文本，利用统计机器学习模型学习词语切分的规律（称为训练），从而实现对未知文本的切分。例如最大概率分词方法和最大熵分词方法等。随着大规模语料库的建立，统计机器学习方法的研究和发展，基于统计的中文分词方法渐渐成为了主流方法。
主要的统计模型有：N元文法模型(N-gram)，隐马尔可夫模型(Hidden Markov Model ，HMM)，最大熵模型(ME)，条件随机场模型(Conditional Random Fields，CRF)等。

工具介绍

结巴分词

项目地址：https://github.com/fxsjy/jieba

（1）精确模式：试图将句子最精确地切开，适合文本分析；

（2）全模式：把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义；

（3）搜索引擎模式：在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。

jieba分词过程中主要涉及如下几种算法：

（1）基于前缀词典实现高效的词图扫描，生成句子中汉字所有可能成词情况所构成的有向无环图 (DAG)；

（2）采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合；

（3）对于未登录词，采用了基于汉字成词能力的 HMM 模型，采用Viterbi 算法进行计算；

（4）基于Viterbi算法做词性标注；

（5）基于tf-idf和textrank模型抽取关键词；

SnowNLP

项目地址：https://github.com/isnowfy/snownlp

SnowNLP是一个python写的类库，可以方便的处理中文文本内容，是受到了TextBlob的启发而写的。SnowNLP主要包括如下几个功能：

（1）中文分词（Character-Based Generative Model）；

（2）词性标注（3-gram HMM）；

（3）情感分析（简单分析，如评价信息）；

（4）文本分类（Naive Bayes）

（5）转换成拼音（Trie树实现的最大匹配）

（6）繁简转换（Trie树实现的最大匹配）

（7）文本关键词和文本摘要提取（TextRank算法）

（8）计算文档词频（TF，Term Frequency）和逆向文档频率（IDF，Inverse Document Frequency）

（9）Tokenization（分割成句子）

（10）文本相似度计算（BM25）

SnowNLP的最大特点是特别容易上手，用其处理中文文本时能够得到不少有意思的结果，但不少功能比较简单，还有待进一步完善。

北大PKUSEG

项目地址：https://github.com/lancopku/PKUSeg-python

pkuseg 具有如下几个特点：

高分词准确率：相比于其他的分词工具包，该工具包在不同领域的数据上都大幅提高了分词的准确度。根据北大研究组的测试结果，pkuseg 分别在示例数据集（MSRA 和 CTB8）上降低了 79.33% 和 63.67% 的分词错误率。
多领域分词：研究组训练了多种不同领域的分词模型。根据待分词的领域特点，用户可以自由地选择不同的模型。
支持用户自训练模型：支持用户使用全新的标注数据进行训练。

分词模式下，用户需要加载预训练好的模型。研究组提供了三种在不同类型数据上训练得到的模型，根据具体需要，用户可以选择不同的预训练模型。以下是对预训练模型的说明：