从
http://www.cnts.ua.ac.be/conll2000/chunking/下载了CoNLL 2000 shared task的训练和测试语料。
从
http://www.chokkan.org/software/crfsuite/下载了
Win32 binary文件,无需编译,直接使用。
注意,从
http://www.chokkan.org/software/crfsuite/下载的
Source package自带的chunking.py已经定义本任务的的特征矢量的模板。
在win10命令行下,运行以下命令生成CRFsuite规定的特征矢量文件:
<train.txt Python chunking.py >> train.crfsuite.txt
根据
http://www.chokkan.org/software/crfsuite/tutorial.html在win10下训练和测试,命令如下:
crfsuite learn -e2 train.crfsuite.txt test.crfsuite.txt
遗留问题:
1. 一边训练一边测试的输出(crfsuite learn -e2 train.crfsuite.txt test.crfsuite.txt)的结果如下,但不清楚什么是Item accuracy和Instance accuracy。
Macro-average precision, recall, F1: (0.604705, 0.576296, 0.581536)
Item accuracy: 45468 / 47377 (0.9597)
Instance accuracy: 1176 / 2012 (0.5845)
Item accuracy: 45468 / 47377 (0.9597)
Instance accuracy: 1176 / 2012 (0.5845)