在机器学习中,序列标注(Sequence labeling)是一种常见的模式识别任务,它用来给一组可观察对象打上状态(类别)标签。它可以解决NLP中的分词(Word Segement)、词性标注(Part-Of-Speech Tagging)、命名实体识别(Named Entity Recognition )等问题。常见的概率统计模型有:HMM、MEMM、CRF。
下面介绍利用最大熵统计算法进行分词的步骤。
第一步:工具包开发环境搭建
下载MEMM工具包,这里利用的是张乐博士最大熵模型工具包,参照里面的INSTALL步骤安装,同时,参照python文件夹的README安装python相关的包(Python extension of the C++ Maximum Entropy Modeling Toolkit)。
第二步:准备语料
这里利用的是SIGHAN提供的backoff 2005语料,将熟语料转换成工具包所需格式,即4-tag(BMES)格式。可参考52NLP网站的python代码<