文本处理--中文分词

中文分词

1. 分词的定义:

1.1 百度百科:

中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。

1.2 维基百科:

Word segmentation is the problem of dividing a string of written language into its component words.

2. 分词的难点:

分词规范、歧义切分、未登录词识别。

2.1 分词规范:

对于词的抽象定义(词是什么)和词的具体界定(什么是词)迄今拿不出一个公认的、具有权威性的词表来。

2.2 歧义切分:

切分歧义是汉语分词研究中一个大问题,因为歧义字段在汉语文本中大量存在。处理这类问题可能需要进行复杂的上下文语义分析,甚至韵律分析(语气、重音、停顿等)。

2.3 未登录词识别:

未登录词又叫生词,一般有二种解释:第一种指的是已有的词表中没有收录的词;第二种指的是已有的训练语料中未曾出现过的词。在第二张解释下,又称之为集外词(out of vocabulary,OOV)。

3. 分词算法设计的原则

3.1 颗粒度越大越好:

用于进行语义分析的文本分词,要求分词结果的颗粒度越大,即单词的字数越多,所能表示的含义越确切,如:“公安局长”可以分为“公安
局长”、“公安局 长”、“公安局长”都算对,但是要用于语义分析,则“公安局长”的分词结果最好(当然前提是所使用的词典中有这个词)

3.2 切分结果中非词典词越少越好,单字字典词数越少越好

切分结果中非词典词越少越好,单字字典词数越少越好,这里的“非词典词”就是不包含在词典中的单字,而“单字字典词”指的是可以独立运用的单字,如“的”、“了”、“和”、“你”、“我”、“他”。例如:“技术和服务”,可以分为“技术 和服 务”以及“技术
和 服务”,但“务”字无法独立成词(即词典中没有),但“和”字可以单独成词(词典中要包含),因此“技术 和服 务”有1个非词典词,而“技术 和 服务”有0个非词典词,因此选用后者。

3.3 总体词数越少越好

总体词数越少越好,在相同字数的情况下,总词数越少,说明语义单元越少,那么相对的单个语义单元的权重会越大,因此准确性会越高。

4. 中文分词的三大分词法·

4.1 机械式分词法:

4.1.1定义:

基于字典,将文档中的字符串与字典中的词条进行逐一匹配。如果字典中找到某个字符串,则匹配成功,可以切分;否则不与切分。

4.1.2 优缺点:

速度快,时间复杂度可以保持在O(n),实现简单、实用性强,但机械分词法的最大缺点就是词典的完备性得不到保证,对歧义和未登录词处理效果不佳。。

4.1.3常见的字符串匹配方法:

(1) 正向最大匹配法(从左到右的方向);

(2)逆向最大匹配法(从右到左的方向);

(3) 双向最大匹配(进行从左到右、从右到左两次扫描)

最大匹配法:最大匹配是指以词典为依据,取词典中最长单词为第一个次取字数量的扫描串,在词典中进行扫描(为提升扫描效率,还可以跟据字数多少设计多个字典,然后根据字数分别从不同字典中进行扫描)。例如:词典中最长词为“中华人民共和国”共7个汉字,则最大匹配起始字数为7个汉字。然后逐字递减,在对应的词典中进行查找。 有关 正向最大匹配法、逆向最大匹配法、双向最大匹配的介绍与实现,请等待更新或者见下面两个参考链接:

https://blog.csdn.net/unixtch/article/details/76685429

https://blog.csdn.net/u013061183/article/details/78259727

4.2 基于语法和规则的分词法:

在分词的同时进行句法、语法分析,利用句法信息和语义信息进行词性标注,以解决分词歧义的现象。但因现有的语法知识和句法规则十分复杂,此种方法的分词效果还不能令人满意。

4.3 基于统计的分词法:

4.3.1 定义

根据字符串在语料中出现的统计频率来决定其是否构成词。词是字的组合,相邻的字同时出现的次数越多,就越有可能构成一个词。在给定大量已经分词的文本的前提下,利用统计机器学习模型学习词语切分的规律(称为训练),从而实现对未知文本的切分。例如最大概率分词方法和最大熵分词方法等。这种方法逐渐成为主流方法。

4.3.2 主要的统计模型:

主要的统计模型有:N元文法模型(N-gram),隐马尔可夫模型(Hidden Markov Model ,HMM),最大熵模型(ME),条件随机场模型(Conditional Random Fields,CRF)等。

4.3.3 基于统计的分词方法:

基于统计的分词方法包括:N-最短路径方法、基于词的n元语法模型的分词方法、由字构词的汉语分词方法、基于词感知机算法的汉语分词方法、基于字的生成式模型和区分式模型相结合的汉语分词方法。

5. 几种的中文分词算法:

(1)N最短路径法

(2)基于词的n元语法模型的分词方法

请等待更新或者详见以下链接:
https://blog.csdn.net/weixin_42398658/article/details/85014343

6. 常用的中文分词工具:

常用的中文分词工具有: jieba、SnowNLP(MIT)、pynlpir(大数据搜索挖掘实验室(北京市海量语言信息处理与云计算应用工程技术研究中心))、thulac(清华大学自然语言处理与社会人文计算实验室) ,具体用法见以下链接:

https://blog.csdn.net/gdh756462786/article/details/79102642

参考链接:

https://zhuanlan.zhihu.com/p/50716301

https://blog.csdn.net/u013061183/article/details/78259727

https://blog.csdn.net/gdh756462786/article/details/79102642

  • 2
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值