命名实体识别竞赛中的经验过拟合

最新推荐文章于 2024-05-28 09:25:21 发布

「已注销」

最新推荐文章于 2024-05-28 09:25:21 发布

阅读量474

点赞数 1

文章标签： java 机器学习人工智能 nlp 自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Chile_Wang/article/details/108945754

版权

实体竞赛最重要的是分数，而分数则对应着数据打标者当时对数据进行标注的心态。所以，有时候数据预处理的方法并不是理论上完美，实际就无敌的。因为打标者的心态不可知。

对于过长的文本，打标者的心态很可能是厌恶，那么在进行实体识别这种繁琐的人工标注过程中，他们可能只会看前半部分，把一些标签捞出来，而当前这条数据的后面的几个实体，因为在文本的最后面，有可能就草草标注了事。这样就导致很多的错误实体存在于长文本的后半段。

这样子，我们通过计算信息熵的方法设置的动态回割方法，反而不够小白直接截断文本进行命名实体识别的成绩高。

因为我们在保证长文本信息最大程度不丢失的前提下，保留了过多标注者草草标注的错误标注实体，模型在学习的过程中偏向了错误标注。

这也就是经验过拟合的由来，我们往往被过去的经验所主导，不自觉地偏向了理论至上的一块，反倒是忽略了现实中最重要的人为因素，而比赛的最终关键点就是去拟合人为因素造成的误差。

有个成语叫“大道至简”，最简单的往往是最好的。

「已注销」

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
命名实体识别竞赛中的经验过拟合

实体竞赛最重要的是分数，而分数则对应着数据打标者当时对数据进行标注的心态。所以，有时候数据预处理的方法并不是理论上完美，实际就无敌的。因为打标者的心态不可知。对于过长的文本，打标者的...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。