实体竞赛最重要的是分数,而分数则对应着数据打标者当时对数据进行标注的心态。所以,有时候数据预处理的方法并不是理论上完美,实际就无敌的。因为打标者的心态不可知。
对于过长的文本,打标者的心态很可能是厌恶,那么在进行实体识别这种繁琐的人工标注过程中,他们可能只会看前半部分,把一些标签捞出来,而当前这条数据的后面的几个实体,因为在文本的最后面,有可能就草草标注了事。这样就导致很多的错误实体存在于长文本的后半段。
这样子,我们通过计算信息熵的方法设置的动态回割方法,反而不够小白直接截断文本进行命名实体识别的成绩高。
因为我们在保证长文本信息最大程度不丢失的前提下,保留了过多标注者草草标注的错误标注实体,模型在学习的过程中偏向了错误标注。
这也就是经验过拟合的由来,我们往往被过去的经验所主导,不自觉地偏向了理论至上的一块,反倒是忽略了现实中最重要的人为因素,而比赛的最终关键点就是去拟合人为因素造成的误差。
有个成语叫“大道至简”,最简单的往往是最好的。