《Cost-Sensitive BERT for Generalisable Sentence Classification with Imbalanced Data》阅读笔记

最新推荐文章于 2021-06-16 13:18:57 发布

VIP文章 jshnaoko

最新推荐文章于 2021-06-16 13:18:57 发布

阅读量265

点赞数

分类专栏： NLP

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jshnaoko/article/details/115331483

版权

https://arxiv.org/pdf/2003.11563.pdf

1.常见NLP数据增强+BERT在失衡数据上的表现

任务为2分类。正负样本比例为28% vs. 72%（这里以正/负指代文中的propaganda/non-propaganda）。

BERT模型采用BERT_base，增加全连接层，用于对句子编码分类。

常见NLP数据增强方法详见https://arxiv.org/pdf/1901.11196.pdf

评估结果如下：

用同一份数据集中75%训练，25%测试时（即在相似的数据上验证），没有数据增强的BERT性能最佳。

可能是因为有上下文的word embedding并不能从数据增强中受益。

在不相似的数据上验证时，同义词插入和词去除也没有带来性能增益（甚至更差），而上采样比无数据增强的性能高4%。同义词插入和词去除性能差可能是因为引入了噪声，上采样没有。因而，上采样带来一些泛化能力。

进一

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
《Cost-Sensitive BERT for Generalisable Sentence Classification with Imbalanced Data》阅读笔记

https://arxiv.org/pdf/2003.11563.pdf1.常见NLP数据增强+BERT在失衡数据上的表现任务为2分类。正负样本比例为28% vs. 72%（这里以正/负指代文中的propaganda/non-propaganda）。BERT模型采用BERT_base，增加全连接层，用于对句子编码分类。常见NLP数据增强方法详见https://arxiv.org/pdf/1901.11196.pdf评估结果如下：用同一份数据集中75%训练，25%测试...
复制链接

扫一扫

专栏目录

jshnaoko CSDN认证博客专家 CSDN认证企业博客

码龄8年

31: 原创

54万+: 周排名

178万+: 总排名

2万+: 访问

: 等级

482: 积分

14: 粉丝

14: 获赞

6: 评论

34: 收藏

私信

关注

热门文章

分类专栏

最新评论

RASA中的填槽
@林峰: 老师你好，请问我将DATE实体映射成TIME实体该怎么写呢？比如我输出中秋节，rasa会判定为DATE，但是我想要的是TIME
RASA中的填槽
短迪大魔王: 针对第二个情况，停止写表单，想要修改填写过的信息该咋办
搜索推荐资料整理
ctotalk: 不错，学习了。
Google Dialogflow中的基本概念
不吃西红柿丶: 我听过最壮丽的诗句，是落霞与孤鹜齐飞。不过那是别人的景色，我的世界里，最壮丽的景色是卿笑与艳阳同媚
三分钟了解循环排序
不吃西红柿丶: 写的不错，学习了，学习的道路上一起进步，也期待你的关注与支持！

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。