文本处理--中文分词

最新推荐文章于 2024-06-03 09:57:18 发布

紫砂痕

最新推荐文章于 2024-06-03 09:57:18 发布

阅读量5.6k

点赞数 2

分类专栏： NLP 文章标签：中文分词 NLP

本文链接：https://blog.csdn.net/qq_36047533/article/details/88201857

版权

NLP 专栏收录该内容

13 篇文章 1 订阅

订阅专栏

中文分词

1. 分词的定义：

1.1 百度百科：

中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。

1.2 维基百科：

Word segmentation is the problem of dividing a string of written language into its component words.

2. 分词的难点：

分词规范、歧义切分、未登录词识别。

2.1 分词规范：

对于词的抽象定义(词是什么)和词的具体界定(什么是词)迄今拿不出一个公认的、具有权威性的词表来。

2.2 歧义切分：

切分歧义是汉语分词研究中一个大问题，因为歧义字段在汉语文本中大量存在。处理这类问题可能需要进行复杂的上下文语义分析，甚至韵律分析(语气、重音、停顿等)。

2.3 未登录词识别：

未登录词又叫生词，一般有二种解释：第一种指的是已有的词表中没有收录的词；第二种指的是已有的训练语料中未曾出现过的词。在第二张解释下，又称之为集外词(out of vocabulary，OOV)。

3. 分词算法设计的原则

3.1 颗粒度越大越好：

用于进行语义分析的文本分词，要求分词结果的颗粒度越大，即单词的字数越多，所能表示的含义越确切，如：“公安局长”可以分为“公安
局长”、“公安局长”、“公安局长”都算对，但是要用于语义分析，则“公安局长”的分词结果最好（当然前提是所使用的词典中有这个词）

3.2 切分结果中非词典词越少越好，单字字典词数越少越好

切分结果中非词典词越少越好，单字字典词数越少越好，这里的“非词典词”就是不包含在词典中的单字，而“单字字典词”指的是可以独立运用的单字，如“的”、“了”、“和”、“你”、“我”、“他”。例如：“技术和服务”，可以分为“技术和服务”以及“技术
和服务”，但“务”字无法独立成词（即词典中没有），但“和”字可以单独成词（词典中要包含），因此“技术和服务”有1个非词典词，而“技术和服务”有0个非词典词，因此选用后者。

3.3 总体词数越少越好

总体词数越少越好，在相同字数的情况下，总词数越少，说明语义单元越少，那么相对的单个语义单元的权重会越大，因此准确性会越高。

4. 中文分词的三大分词法·

4.1 机械式分词法：

4.1.1定义：

基于字典，将文档中的字符串与字典中的词条进行逐一匹配。如果字典中找到某个字符串，则匹配成功，可以切分；否则不与切分。

4.1.2 优缺点：

速度快，时间复杂度可以保持在O（n），实现简单、实用性强，但机械分词法的最大缺点就是词典的完备性得不到保证，对歧义和未登录词处理效果不佳。。

4.1.3常见的字符串匹配方法：

(1) 正向最大匹配法（从左到右的方向）；

(2)逆向最大匹配法（从右到左的方向）；

(3) 双向最大匹配（进行从左到右、从右到左两次扫描）

最大匹配法：最大匹配是指以词典为依据，取词典中最长单词为第一个次取字数量的扫描串，在词典中进行扫描（为提升扫描效率，还可以跟据字数多少设计多个字典，然后根据字数分别从不同字典中进行扫描）。例如：词典中最长词为“中华人民共和国”共7个汉字，则最大匹配起始字数为7个汉字。然后逐字递减，在对应的词典中进行查找。有关正向最大匹配法、逆向最大匹配法、双向最大匹配的介绍与实现，请等待更新或者见下面两个参考链接：

https://blog.csdn.net/unixtch/article/details/76685429

https://blog.csdn.net/u013061183/article/details/78259727

4.2 基于语法和规则的分词法：

在分词的同时进行句法、语法分析，利用句法信息和语义信息进行词性标注，以解决分词歧义的现象。但因现有的语法知识和句法规则十分复杂，此种方法的分词效果还不能令人满意。

4.3 基于统计的分词法：

4.3.1 定义

根据字符串在语料中出现的统计频率来决定其是否构成词。词是字的组合，相邻的字同时出现的次数越多，就越有可能构成一个词。在给定大量已经分词的文本的前提下，利用统计机器学习模型学习词语切分的规律（称为训练），从而实现对未知文本的切分。例如最大概率分词方法和最大熵分词方法等。这种方法逐渐成为主流方法。

4.3.2 主要的统计模型：

主要的统计模型有：N元文法模型（N-gram），隐马尔可夫模型（Hidden Markov Model ，HMM），最大熵模型（ME），条件随机场模型（Conditional Random Fields，CRF）等。

4.3.3 基于统计的分词方法：

基于统计的分词方法包括：N-最短路径方法、基于词的n元语法模型的分词方法、由字构词的汉语分词方法、基于词感知机算法的汉语分词方法、基于字的生成式模型和区分式模型相结合的汉语分词方法。

5. 几种的中文分词算法：

（1）N最短路径法

（2）基于词的n元语法模型的分词方法

请等待更新或者详见以下链接：
https://blog.csdn.net/weixin_42398658/article/details/85014343

6. 常用的中文分词工具：

常用的中文分词工具有： jieba、SnowNLP（MIT）、pynlpir（大数据搜索挖掘实验室（北京市海量语言信息处理与云计算应用工程技术研究中心））、thulac（清华大学自然语言处理与社会人文计算实验室），具体用法见以下链接：

https://blog.csdn.net/gdh756462786/article/details/79102642

参考链接：

https://zhuanlan.zhihu.com/p/50716301

https://blog.csdn.net/u013061183/article/details/78259727

https://blog.csdn.net/gdh756462786/article/details/79102642

紫砂痕

关注

2
点赞
踩
17

收藏

觉得还不错? 一键收藏
0
评论
文本处理--中文分词

中文分词中文分词1. 分词的定义：1.1 百度百科：1.2 维基百科：2. 分词的难点：2.1 分词规范：2.2 歧义切分：2.3 未登录词识别：3. 分词算法设计的原则3.1 颗粒度越大越好：3.2 切分结果中非词典词越少越好，单字字典词数越少越好3.3 总体词数越少越好4. 中文分词的三大分词法·4.1 机械式分词法：4.1.1定义：4.1.2 优缺点：4.1.3常见的字...
复制链接

扫一扫

专栏目录