条件随机场是一个非常重要的序列标注模型,在中文切词,词性标注,命名实体识别等自然语言处理场景下得到广泛应用,并且取得了相当不错的效果,目前比较流行的开源中文自然语言处理工具FuDanNLP就通过crf实现分词,实体识别等功能(C++实现的中科院分词工具ICTCLAS,python实现的结巴分词都使用的隐马模型,可见序列标注模型在分词领域有明显优势,至于这两个为什么没使用crf,我觉得可能是HMM更容易实现吧)。
之前也看过一些CRF的相关资料,使用CRF实现一些人名、地名识别功能;最近工作中又涉及到类似的工作,时间也比较充裕,决定写一些CRF相关的东西,就算当做学习笔记吧。主要从以下几个方面来写吧:
一、CRF基本理论
二、自己对CRF的理解
三、基于CRF++和人民日报98年1月份免费语料库实现一个简单的中文分词、人名、地名识别demo
http://www.tanghuangwhu.com/archives/162