用HMM模型进行中文分词

最新推荐文章于 2022-03-11 17:25:33 发布

VIP文章 pku_zzy

最新推荐文章于 2022-03-11 17:25:33 发布

阅读量3.9k

点赞数

分类专栏： Machine Learing

本文链接：https://blog.csdn.net/PKU_ZZY/article/details/56479627

版权

中文分词任务，采用的是Sighan2004(backoff2005微软数据)数据。给出训练集和测试集，对测试集进行中文分词，要求给出的分词结果F-score尽量大。

首先是两个naive版本，但是对于这个特定的任务，虽然naive版本原理实现简单，但是效果却很好。

以选出匹配的单词尽可能长为目标分词，具体操作是从一个方向不断尝试匹配出最长单词，再进行下一次匹配，直到匹配完成为止。

同样以选出匹配的单词尽可能长为目标分词，具体操作可以给分词结果打分，找一个合适的打分函数下，匹配单词较长且单词出现次数较多则比较合算，同时希望求解打分函数最大值的复杂度比较低。
在上一篇report中详细介绍过我的双向最大匹配实现方法，原理简单但是效果很好，是我目前能实现效果最好的一个版本。

下面有四个基于概率的版本，算法相对高级一点。

*这四个版本都把分词结果看作汉字的4-tag序列(‘S’单字,’B’词首,’E’词尾,’M’词中)，那么分词转化为找到一个最合适的序列。

最大熵模型基于4-tag，并且使得分词留下信息量最大的信念来做，用到了信息论里的一些理论基础。

CRF模型基于4-tag的随机向量场方法，用到了一些概率方法。

与CRF相似的，HMM也是基于4-tag的概率模型，HMM模型找出概率最大的一个4-tag序列作为分词结果，其中的转移概率由训练获得。

读到有人写的源代码，但是具体还没有仔细学习过。等学习了自己实现一个专门写一篇report来阐述原理。

设 $l$ 为序列长度， $tag[0:l]$ 为tag序列， char[0:l

关注

专栏目录