github开源代码:https://github.com/lhyxcxy/nlp
安装CRF和安装maxent差不多,都是./configure,make,sudo su,make install。CRF提供了各种语言的工具包,有java、python、perl等。我用的是python语言工具包,
所以还要安装python工具包:进入CRF++-0.58/python,python setup.py build ,(sudo) python setup.py install。安装完成后,可以打开python shell ,然后输入 import CRFPP,看看是否可以成功import,如果可以,就说明安装成功了。
CRF的example里有一个seg目录,里面是一个关于日文分词的例子。日文和中文很相似,所以用这个例子来训练model最合适了。
这里的训练集文件使用1998年1月份的《人民日报》语料 ,下载地址http://download.csdn.net/detail/u013378306/9740867
由于生成训练数据集后,有22M,测试的话,建议只用一部分。