通过追加-t, –textmodel参数可以输出文本格式的CRF模型文件,通过该模型文本,可以加深对条件随机场的理解或为其他应用所利用。本文旨在介绍CRF++的文本模型格式,具体读取与解码将集成到HanLP中一并开源。
训练
语料
以BMES标注语料为例:
那 S
音 B
韵 E
如 S
轻 B
柔 E
的 S
夜 B
风 E
, S
惊 S
溅 S
起 S
不 B
可 M
言 M
传 E
的 S
天 B
籁 E
。 S
注意字与标签之间的分隔符为制表符\t,否则会导致feature_index.cpp(86) [max_size == size] inconsistent column size错误。