本发明涉及一种基于HMM的中文分词方法,属于信息处理技术领域。
背景技术:
现代社会,中文分词在信息检索、机器翻译、信息过滤等信息处理中起着重要的作用,是信息处理的关键技术与难点。
一般地,作为主流的基于词典的中文分词虽然实现简单,但是过于依赖词典,容易造成歧义,导致错误切分,从而使得分词准确率低;同样地,基于统计模型的中文分词虽然在一定程度上能排除歧义,但是分词准确率也依赖于训练语料库,从而不能够达到理想的要求。
技术实现要素:
本发明要解决的技术问题是针对现有技术的局限和不足,提供一种基于HMM的中文分词方法,创新性地引入了HMM和分词词典的融合对中文分词方法进行改进,解决了单一的中文分词方法分词存在歧义,导致错误切分,以及切分效率低,从而使得分词准确率低的现象,致力于提高分词的准确性与可靠性。
本发明的技术方案是:一种基于HMM的中文分词方法,利益HMM和分词词典的融合对中文分词方法进行改进,具体步骤为:
①输入待切分的词串;
②使用分词词典用正向最大匹配的方法对输入的待切分的词串进行切分,得到若干种候选的分词结果;
③引入HMM,对步骤②得到的若干种候选的分词结果进行计算,得到最有可能的分词结果。