龙源期刊网
http://www.qikan.com.cn
警务应用中基于双向最大匹配法的中文分词
算法实现
作者:陶伟
来源:《电子技术与软件工程》
2016
年第
04
期
摘
要
中文分词是信息提取、信息检索、机器翻译、文本分类、自动文摘、自然语言理解
等中文信息处理领域的基础。目前中文分词依然是中文信息处理的瓶颈之一,本文对常见中文
分词算法进行研究,并针对警务应用的场景,在经典的
Jieba
中文分词算法的逆向匹配法基础
上提出双向最大匹配法,最后验证改进后的算法在中文分词准确度方面的提升。
【关键词】中文分词
双向最大匹配法
警务应用
1
研究背景
公安机关日常工作中采集到的数据,大多为碎片化数据,具多源、量大、且又离散如何有
效提取这些非结构化数据中的有效信息以方便警务应用系统进行进一步分析处理,为案件侦
破、情报分析等提供服务,关键技术就是利用中文分词算法将这些描述性的中文语句转变为结
构化数据。
2
中文分词技术简介
2.1
中文分词算法分类
中文分词技术属于自然语言处理技术范畴,现有分词算法分为基于规则的分词方法、基于
统计的分词算法和基于理解的分词方法。
基于规则的分词方法中占主流地位的是正向最大匹配法和逆向最大匹配法。由于汉语单字
成词的特点,
正向最小匹配和逆向最小匹配一般很少使用。逆向匹配的切分精度一般高于正
向匹配,遇到的歧义现象也比较少。由大数据量的统计表明正向和逆向最大匹配的错误率分别
为
1/ 169
和
1/ 245
,但这种精度还远远不能满足实际的需要。实际使用的分词系统,都是把机
械分词作为一种初分手段,还需通过利用各种其它的语言信息来进一步提高切分的准确率。
基于统计的方法是基于多个汉字同时出现的概率,
通过对语料库有监督或无监督的学
习,
得到描述一种语言的语言模型
(常用一阶隐马尔可夫模型(
1stHMM
)
)
,该方法优点
是只要有足够的训练文本即可降低未登录词的影响。
2.2 Jieba
分词算法