基于隐马尔科夫模型的中文分词研究

最新推荐文章于 2019-08-12 18:11:15 发布

lengyuhong

最新推荐文章于 2019-08-12 18:11:15 发布

阅读量8.6k

点赞数 2

分类专栏：搜索引擎文章标签：自然语言处理语言算法优化测试扩展

搜索引擎专栏收录该内容

43 篇文章 0 订阅

订阅专栏

基于隐马尔科夫模型的中文分词研究

魏晓宁

(南通大学计算机科学与技术学院，江苏南通226019)

摘要：一直以来，汉语自动分词是公认的汉语信息处理瓶颈。反思现有汉语自动分词技术，发现均有隐舍两大假设：语言是规律的、词具有确定边界这与语言的复杂性、组合性、动态性、模糊性特征不符。本文采用一种基于隐马尔科夫模型(HMM)的算法．通过CHMM(层叠形马尔科夫模型)进行分词，再做分层，既增加了分词的；隹确性，又保证了分词的效率。

关键词：自动分词；隐马尔科夫模型(HMM)；N一最短路径粗切分；统计模型

中图分类号：TP391 文献标识码：A 文章编号：1009—3044(2007)21—40885—02

汉语自动智能分词是中文信息处理的基础与关键随着中外文机器翻译研究的深入和自然语言理解．电子词典等中文词语处理技术应用的扩展．对汉语自动分同软件的要求越来越高近年来我国已经开发了多种现代书面汉语自动分词软件．国内众多研究机构已经在计算机汉语文本自动分词方面进行了大量的研究并取得了很多成就虽然这方面的研究和应用正在不断深入．但到目前为止还没有评价此类软件的标准模型和方法

1 中文分词方法

汉语自动分词不同于英文中的分词．汉语文本是大字符集上的连续字串．以字为单位．句子中所有的字连起来才能捕述一个意思中文句子和段落可以通过明显的分界符来简单划界．而句中词与词之间并没有明显的界限标志．因此在分词时尤为困难针对于中文语句的这一特性．在处理分词时就必须要考虑几个方面的问题词语切分、未定义词识别、词性标注。常用的分词方法有：1．基于字符串匹配的分词方法：2．基于统计的分词方法：3．基于规则和基于统计相结合

2 基于语料库的统计语言学方法

近年来．基于语料库分析的自然语言处理方法受到了越来越多的计算语言学家的重视和应用在规则方法即理性主义方法屡受挫折的事实面前．语料库语言学的发展促使计算语言学家们越来越重视数理统计在语言学中的应用传统语言学给我们积累了丰富的语言实例．但对于语

言规律的把握．人类至今还没有找到最好的方法。但是．数理统计方法已经发展的比较成熟．值得信赖。语料库是经过处理的大量领域文本的集合．通过对语料库中的文本进行统计分析．可以获取该类文本的某些整体特征或规律。如果能够充分地利用这些统计现象、规律．就可以构造基于语料库的统计学信息抽取算法统计的分析方法多种多样．近期研究的热点主要集中于由随机过程发展而来的理论和方法其中最重要的是应用隐马尔科夫模型(HMM)进行自然语言处理的方法。

3.隐马尔科夫模型(HMM)简介

3.1马尔科夫(Markov)过程的定义

一般地，考虑只取有限个(或可数个)值的随机过程{Xn=1．2 ⋯}：若Xn=i，就说过程在n时刻处于i状态，假设每当过程处于状态i，则过程在下一时刻处于状态j的概率P为一定值，即Vn≥1有：

这样的随机过程称为Markov链(给定过去的状态X1 ..，Xn-1 和现在的状态Xn 将来的状态Xn+1 的条件分布独立于过去的状态．只依赖于现在的状态— — 这就是Markov性)。

一个马尔科夫模型(MM)M就是一个Markov链加上一个转移概率矩阵显然．它可被视为一个随机有限状态自动机．其每个状态都代表一个可观察的事件．之间的转换都对应一定的概率

3.2 隐马尔科夫模型fHMM)的概念

对于马尔科夫模型而言．每个状态都是决定性地对应于一个可观察的物理事件．所以其状态的输出是有规律的然而．这种模型限制条件过于严格．在许多实际问题中无法应用于是人们将这种模型加以推广．提出了隐马尔科夫模型(HMM)。隐马尔科夫过程是一种双重随机过程。即：观察事件是依存于状态的概率函数．这是在HMM 中的一个基本随机过程．另一个随机过程为状态转移随机过程．但这一过程是隐藏着的．不能直接观察到．而只有通过生成观察序列的另外一个概率过程才能间接地观察到

对于隐马尔科夫模型的应用．在语音识别领域已经取得了很好的成效．在信息抽取领域的应用也正在不断的尝试和推广中

3.3 隐马尔科夫模型(HMM)的模型参数

3．4隐马尔科夫模型的训练与优化问题

隐马尔科夫模型可描述为X(A，B, Pi)，如何确定其中的A、B和百就是所谓的模型参数获取问题。

到目前为止．对于隐马尔科夫模型的参数选择和优化问题．还没有什么分析算法可以得到最优解。目前使用较广的处理方法是Baum—Welch估计算法(或称期望值修正法．即 EM法)。该算法是一种迭代算法．初始时刻由用户给出各参数的经验估计值．通过不断迭代．使个参数逐渐趋向更为合理的较优值。算法可简单描述如下：

4模块的主要功能及测试结果

本系统的主要设计思想是：先进行原子切分，然后在此基础上进行N一最短路径粗切分．找出前N个最符合的切分结果，生成二元分词表，再生成分词结果，接着进行词性标注并完成主要分词步骤分词模块的主要功能其第一步是原子分词。所谓原子，是指该短句中不可分割的最小语素单位但在进行原子切分之前，首先要进行断句处理。所谓断句．就是根据分隔符、回车换行符等语句的分隔标志．把源字符串分隔成多个稍微简单一点的短句，再进行分词处理．最后把各个分词结合起来，形成最终的分词结果。分成短句之后．即可进行原子分词。例如：索爱K一300型号的手机1元钱，则K一300、1都是一个原子，其它的每个汉字是一个原子。

按照这种方式．通过简单的汉字分割就形成了原子分词的结果．并对每个原子单位进行词性标注 npos=1表示是开始标记．npos=4表示结束标记．npos=0表示未识别词。经过原子分词之后，就可进行初次分词。经过原子分词后．源字符串成了一个个独立的最小语素单位下面的初次切分。就是把原子之间所有可能的组合都先找出来算法是用两个循环来实现．第一层遍历整个原子单位．第二层是找到一个原子时．不断把后面相邻的原子和该原子组合到一起．访问词典库看它能否构成_个有意义的词组系统在语料库评测中的测试结果：