问题描述
利用crf++ 进行序列标注问题实验已经有一段时间了,以前一直很顺畅,然而这两天却突然杀出个错误:
encoder.cpp(340) [feature_index.open(templfile, trainfile)] feature_index.cpp(174)[max_size == size] inconsistent column size: 4 3 train.data
也就是说数据中某些行只有3列,但是要求有4列
解决方案
1. 参考方案
上网搜了一波相似问题的解决,得到一下结果
1.1 分隔符问题
字与标签之间的分隔符为制表符\t,否则会导致feature_index.cpp(86) [max_size == size] inconsistent column size错误
1.2 空行的处理
crf_learn并不认可数据中使用’\n’作为sentence间的分割符(空行),但能够识别‘space(空格)\n’的空行分隔符。