命名实体识别竞赛中的经验过拟合

实体竞赛最重要的是分数,而分数则对应着数据打标者当时对数据进行标注的心态。所以,有时候数据预处理的方法并不是理论上完美,实际就无敌的。因为打标者的心态不可知。

对于过长的文本,打标者的心态很可能是厌恶,那么在进行实体识别这种繁琐的人工标注过程中,他们可能只会看前半部分,把一些标签捞出来,而当前这条数据的后面的几个实体,因为在文本的最后面,有可能就草草标注了事。这样就导致很多的错误实体存在于长文本的后半段。

这样子,我们通过计算信息熵的方法设置的动态回割方法,反而不够小白直接截断文本进行命名实体识别的成绩高。

因为我们在保证长文本信息最大程度不丢失的前提下,保留了过多标注者草草标注的错误标注实体,模型在学习的过程中偏向了错误标注。

这也就是经验过拟合的由来,我们往往被过去的经验所主导,不自觉地偏向了理论至上的一块,反倒是忽略了现实中最重要的人为因素,而比赛的最终关键点就是去拟合人为因素造成的误差。

有个成语叫“大道至简”,最简单的往往是最好的。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值