SemEval-2022 Task 6 有意讽刺检测

YNU-HPCC at SemEval-2022 Task 6: Transformer-based Model for Intended Sarcasm Detection in English and Arabic

本篇随便讲下论文,这是我们在SemEval-2022 Task6的相关工作,本篇论文在Task6榜单上取得了 12/43 (21/32), 11/22, and 3/16 (8/13) 的排名。

官方的排行榜

论文

Github

任务介绍

官方的主页:semeval2022-isarcasmeval

其实就是三个在英语、阿拉伯语数据集下的分类任务:

  • Task A:很简单的二分类任务,给定句子,判断是否具有讽刺意义
  • Task B:与A类似,不过是多标签分类任务,且只有英语数据
  • Task C:给定两个句子,一个是有讽刺的句子,一个是同义但无讽刺的转述,判断讽刺句子的位置。是个句子对分类任务。

模型介绍

没做多大的创新,正如主办方所言,
在这里插入图片描述

我们使用的和其他参赛者并无多大区别,都是BERT及其变种,预训练+Fine-tuning的两段式,差异主要在数据处理上。结构如下图所示,
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

主要难点及解决方案

难点:

数据高度不平衡,体现在Task B中,Task B的标签数据分布如下所示:
在这里插入图片描述

标签数量差异十分巨大,且除此之外还有大量的非讽刺标签存在。

解决方案:

当时考虑过独立训练每个标签,缺点是丧失了标签之间的关联性(虽然我也不知道他们之间的关联性是啥),相对来说在训练每个独立二分类器的时候,还是比较容易选取相对平衡的训练集。然而这个方案对于标签太少的(如understatement)依旧没啥办法。

也考虑过数据增强,然而数据增强可能会损失句子的讽刺意义,担心引入太多脏数据,所以没有采用。

最后效果比较好的,还是采用了Label-Power(就是一个分类器来输出多个标签)方案。训练数据选取上只用了一小部分非讽刺标签,避免模型过度关注非讽刺标签。另外就是在损失函数上使用了WBCE(带有权重的BCE),来增大模型对数量少的标签的关注度。WBCE以及权重计算方法如下所示:
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

Task C的训练集构造

这个也讲讲吧,这个任务是最平衡的了,果然我处理不平衡不如别人,只在这个任务上取得了还不错的排名。

我们设有讽刺的文本为tweet,无讽刺的转述为rephrase,无非就两种可能的句子对,(tweet,rephrase)或(rephrase,tweet)。

数据集中有tweet列和rephrase列,那就很好办了,在模型介绍里我们看到了Task C输入部分的样子。
在这里插入图片描述

显然,我们需要两个句子来输入,tweet、rephrase作为Sentence A、B(B、A),然后给对应的标签0(1),即

  • (tweet,rephrase) as 0
  • (rephrase,tweet) as 1

结果

实验细节和结果分析不想讲太多,论文和代码都有。

官方给的主要评估指标:

  • SubTask A: F1-score for the sarcastic class.
  • SubTask B: Macro-F1 score.
  • SubTask C: Accuracy.

我们尝试的各种方法结果如下所示,加粗的是我提交上去的结果,不一定是我们实验中最好的方案(他只记最后一次提交的结果,我还以为是最好的,,,,坑啊)

在这里插入图片描述

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

寒商

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值