1.将语料处理成CRF++工具要求的格式
- train.txt的格式如下:
(使用4tab,BEMS,字与标注之间以“\t”间隔,一个字一行。当然,这里还涉及到将空格切分的文本处理成标签的问题。可参考:https://blog.csdn.net/juanjuan1314/article/details/78892855)
迈 B
向 E
充 B
满 E
希 B
望 E
的 S
新 S
世 B
纪 E
- test.txt格式
(不是一句话一句话的语料直接放进去,要处理成类似训练语料的格式。)
共 B
同 B
创 B
造 B
美 B
好 B
的 B
新 B
世 B
纪 B
- template 特征模板:
(都是参考网上的博客的,没有进行改动。可以参考这篇有解释特征模板的文章:https://blog.csdn.net/qqywm/article/details/85088800。
对于一些详细的参数这篇文章也有说明。)
# Unigram template 模板
# unigram-features一元特征
U00:%x[-2,0]
U01:%x[-1,