反讽检测(Sarcasm Detection)

本文总结了两篇关于反讽检测的研究论文,第一篇提出多模态方法,创建了包含文本、视觉和听觉信息的MUStARD数据集,通过多模态特征融合进行反讽检测;第二篇则利用单模态文本,通过Multi-dimensional Intra-Attention Recurrent Network捕捉词对之间的矛盾关系,达到state-of-the-art效果,并提高可解释性。
摘要由CSDN通过智能技术生成

最近在看反讽检测的文章,才读了几篇,写一下小结,看得还是挺费劲,也挺懵的,写个阅读笔记,让自己好好重新理解一下。

Towards Multimodal Sarcasm Detection

第一篇读的是Towards Multimodal Sarcasm Detection (An Obviously Perfect Paper) ,标题就很有意思,斜体的Obviously就是在这就带有自嘲,反语的含义,也切合了本文的主题,反讽检测。

这篇文章提出了一个数据集叫做[Multimodal Sarcasm Detection Dataset](https://github. com/soujanyaporia/MUStARD) (简称MUStARD), 数据集来源于流行的TV shows,不仅包含了最基本的文本信息,还包含了视觉和听觉的信息,文章用的是audiovisual utterance来表示一条数据,每个utterance都包含了它的context of historical utterances,这篇论文提出用多模态的方法来做反讽检测,因为多模态能提供更多的有利信息。

论文主要的贡献

  1. 创建了一个新的数据集MUStARD,包含了多模态(mutlimodal)和会话语境(conversational context)的特征。
  2. 举了些在某些特定场景下不同的模态中反讽中特有的矛盾or不协调很明显的例子,强调使用多模态方法的重要性。
  3. 和一些baseline对比,多模态比单模态表现出明显的优势。
  4. 提供了对话的前几轮,作为上下文信息。可能会引申出新的sub-task:基于上下文语境的反讽检测(类似的好像之前就已经有了,比如SARC,不过这篇论文强调他们提供了每个说话者之前说的话,SARC只是提供了当前评论的上一条评论)

论文谈了一些related work,Sarcasm in Text就不谈了,Sarcasm in Speech里说到了Rockwell (2000) 发现较慢的语速和强力的语调大概率是反讽的一个标志,这篇论文也是从这些工作中获得的motivation,加入了语音的信息。

论文的主要方法

  1. 文本特征使用了BERT,一条utterance用一个dim=768的vector表示,上下文语境是由average每个句子得到的。论文也尝试了pre-trained dim=300的GloVe,不过表现比较差。

  2. 语音特征提取的方法用了Librosa库,因为我本人没有语音方面的知识,因此在这不班门弄斧了。

  3. 图像特征是每f帧抽取一帧出来,用 pool5 layer of an ImageNet pretrained ResNet-152 来提取特征,每帧的图像是一个dim=2048的vector。

融合特征的方式就是简单的concatenate(这应该将来有更好的办法融合)。

实验结果

依赖speaker

不依赖speaker,表现明显相比上面下降,而且多模态相比单模态提升也很小。

提出的改进方向

  1. 分析音频信道的时间位置
  2. 捕捉说话者的面部表情和他正在说的话之间的mismatches
  3. 上下文语境信息用的是average pooling,丢失了时间信息

未来研究方向

  1. 多模态特征融合
  2. 多人对话语境
  3. 使用神经网络的baseline
  4. 对话者的目的,意图,依赖关系(Poria et al., 2019)
  5. 主要说话者的定位,抽帧的方式可能难以捕捉说话者的面部表情和手势的变化

Reasoning with Sarcasm by Reading In-between

第二篇读的是Reasoning with Sarcasm by Reading In-between,ACL 2018的一篇反讽检测论文,这篇论文不同于上一篇,使用的是上下文无关的方式,且只针对文本来做检测。提出了一个能够 look in-between 的 attention-based 的神经网络,使得模型能够较准确地对反讽语句中常见的矛盾/不协调(contrast and incongruity)进行建模,在 Twitter, Reddit 和 Internet Argument Corpus 数据集上达到了 state-of-the-art,并且提升了可解释性。

论文中提到了反讽检测可以给 opinion mining applications 带来巨大的 benefits。

反讽通常出现在两种情况:1.明显的矛盾、冲突的情感,比如“一部优秀的催眠影片”。2.作者表达的情感与其境况悬殊的差异,比如“我车被偷了,真棒!”。

提出反讽语句中通常具有矛盾的word pairs,表达两种冲突、相反的情绪,例如

  • I absolutely love to be ignored!
  • Yay!!! The best thing to wake up to is my neighbor’s drilling.
  • Perfect movie for people who can’t fall asleep.

论文的主要贡献

  1. 基于上述原因,作者认为捕捉语句中的word pairs之间的关系很有用,即looking in-between,所以提出了一个 Multi-dimensional Intra-Attention Recurrent Network (MIARN) 来对句子中的每个 word pair 进行建模,作者说他们的Intra-attention可以被当做一个 self-targeted co-attention (Xiong et al., 2016),不仅可以捕捉词间关系(word-word relation),还可以捕捉长程依赖关系(long-range dependencies)

  2. MIARN 在 Twitter, Reddit 和 IAC数据集上达到了 SOTA,且截至发表时是第一个在反讽检测任务上能够提供可解释性结果的 attention 模型

论文的主要方法

  1. 计算 word pair relation,对两个word w i w_{i} wi, w j w_{j} wj,使用线性变换计算二者的关系,得到一个 scalar score
    s i j = W a ( [ w i ; w j ] ) + b a s_{ij} = W_{a}([w_{i};w_{j}]) + b_{a} sij=Wa([wi;wj])+ba
    W a ∈ R 2 n × 1 , b a ∈ R W_{a} \in \mathbb{R}^{2n\times 1},b_{a} \in \mathbb{R} W

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值