dice系数交叉熵_数据不平衡问题成“千年”难题，看ACL新方法Dice Loss如何有效解决！...

最新推荐文章于 2024-04-10 19:06:25 发布

weixin_39765796

最新推荐文章于 2024-04-10 19:06:25 发布

阅读量1k

点赞数

文章标签： dice系数交叉熵

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39765796/article/details/111538517

版权

本文介绍ACL 2020论文《Dice Loss for Data-imbalanced NLP Tasks》，探讨如何使用Dice Loss解决自然语言处理任务中的数据不平衡问题，以提高基于F1评分的表现。实验表明，Dice Loss在词性标注、命名实体识别、问答等任务上取得显著效果提升。

摘要由CSDN通过智能技术生成

文章来源于微信公众号：AI科技评论

原文链接：请点击

文章仅用于学习交流，如有侵权请联系删除

本文介绍的是 ACL 2020 论文《Dice Loss for Data-imbalanced NLP Tasks》，论文作者来自香侬科技、浙江大学。作者 | 香侬科技编辑 | 丛末

在本文中，我们提出用Dice Loss缓解大量NLP任务中的数据不平衡问题，从而能够提高基于F1评分的表现。Dice Loss 形式简单且十分有效，将Cross Entropy Loss替换为Dice Loss能够在词性标注数据集CTB5、CTB6、UD1.4，命名实体识别数据集CoNLL2003、OntoNotes5.0、MSRA、OntoNotes4.0，和问答数据集SQuAD、Quoref上接近或超过当前最佳结果。

自然语言处理中的“不平衡”数据集

在各类自然语言处理任务中，数据不平衡是一个非常常见的问题，尤其见于序列标注任务中。比如，对词性标注任务来说，我们一般使用BIEOS，如果我们把O视为负例，其他视为正例，那么负例数和正例数之比是相当大的。

这种不平衡会导致两个问题：训练与测试失配。占据绝大多数的负例会支配模型的训练过程，导致模型倾向于负例，而测试时使用的F1指标需要每个类都能准确预测；

简单负例过多。负例占绝大多数也意味着其中包含了很多简单样本，这些简单样本对于模型学习困难样本几乎没有帮助，反而会在交叉熵的作用下推动模型遗忘对困难样本的知识。

总的来说，大量简单负例会在交叉熵的作用下推动模型忽视困难正例的学习，而序列标注任务往往使用F1衡量，从而在正例上预测欠佳直接导致了F1值偏低。

在本文，我们认为这种问题是交叉熵本身的特点带来的：交叉熵“平等”地看待每一个样本，无论正负，都尽力把它们推向1(正例)或0(负例)。但实际上，对分类而言，将一个样本分类为负只需要它的概率＜0.5即可，完全没有必要将它推向0。

基于这个观察，我们使用现有的Dice Loss，并提出一个基于Dice Loss的自适应损失——DSC，在训练时推动模型更加关注困难的样本，降低简单负例的学习度，从

最低0.47元/天解锁文章

weixin_39765796

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
dice系数交叉熵_数据不平衡问题成“千年”难题，看ACL新方法Dice Loss如何有效解决！...

文章来源于微信公众号：AI科技评论原文链接：请点击文章仅用于学习交流，如有侵权请联系删除本文介绍的是 ACL 2020 论文《Dice Loss for Data-imbalanced NLP Tasks》，论文作者来自香侬科技、浙江大学。作者 | 香侬科技编辑 | 丛末在本文中，我们提出用Dice Loss缓解大量NLP任务中的数据不平衡问题，从而能够提高基于F1评分的表现。Dice Los...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。