SemEval-2022 Task 6 有意讽刺检测

寒商

已于 2022-08-04 16:02:59 修改

阅读量740

点赞数 2

文章标签：深度学习自然语言处理人工智能

于 2022-08-04 15:58:50 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Leon14138/article/details/126160033

版权

YNU-HPCC at SemEval-2022 Task 6: Transformer-based Model for Intended Sarcasm Detection in English and Arabic

本篇随便讲下论文，这是我们在SemEval-2022 Task6的相关工作，本篇论文在Task6榜单上取得了 12/43 (21/32), 11/22, and 3/16 (8/13) 的排名。

官方的排行榜

任务介绍

官方的主页：semeval2022-isarcasmeval

其实就是三个在英语、阿拉伯语数据集下的分类任务：

Task A：很简单的二分类任务，给定句子，判断是否具有讽刺意义
Task B：与A类似，不过是多标签分类任务，且只有英语数据
Task C：给定两个句子，一个是有讽刺的句子，一个是同义但无讽刺的转述，判断讽刺句子的位置。是个句子对分类任务。

模型介绍

没做多大的创新，正如主办方所言,
在这里插入图片描述

我们使用的和其他参赛者并无多大区别，都是BERT及其变种，预训练+Fine-tuning的两段式，差异主要在数据处理上。结构如下图所示，
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

主要难点及解决方案

难点：

数据高度不平衡，体现在Task B中，Task B的标签数据分布如下所示：
在这里插入图片描述

标签数量差异十分巨大，且除此之外还有大量的非讽刺标签存在。

解决方案：

当时考虑过独立训练每个标签，缺点是丧失了标签之间的关联性（虽然我也不知道他们之间的关联性是啥），相对来说在训练每个独立二分类器的时候，还是比较容易选取相对平衡的训练集。然而这个方案对于标签太少的（如understatement）依旧没啥办法。

也考虑过数据增强，然而数据增强可能会损失句子的讽刺意义，担心引入太多脏数据，所以没有采用。

最后效果比较好的，还是采用了Label-Power（就是一个分类器来输出多个标签）方案。训练数据选取上只用了一小部分非讽刺标签，避免模型过度关注非讽刺标签。另外就是在损失函数上使用了WBCE(带有权重的BCE)，来增大模型对数量少的标签的关注度。WBCE以及权重计算方法如下所示：
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

Task C的训练集构造

这个也讲讲吧，这个任务是最平衡的了，果然我处理不平衡不如别人，只在这个任务上取得了还不错的排名。

我们设有讽刺的文本为tweet，无讽刺的转述为rephrase，无非就两种可能的句子对，（tweet，rephrase）或（rephrase，tweet）。

数据集中有tweet列和rephrase列，那就很好办了，在模型介绍里我们看到了Task C输入部分的样子。
在这里插入图片描述

显然，我们需要两个句子来输入，tweet、rephrase作为Sentence A、B（B、A），然后给对应的标签0（1），即

(tweet，rephrase) as 0
(rephrase，tweet) as 1

结果

实验细节和结果分析不想讲太多，论文和代码都有。

官方给的主要评估指标：

SubTask A: F1-score for the sarcastic class.
SubTask B: Macro-F1 score.
SubTask C: Accuracy.

我们尝试的各种方法结果如下所示，加粗的是我提交上去的结果，不一定是我们实验中最好的方案（他只记最后一次提交的结果，我还以为是最好的，，，，坑啊）

在这里插入图片描述

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

寒商 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。