最近在看反讽检测的文章,才读了几篇,写一下小结,看得还是挺费劲,也挺懵的,写个阅读笔记,让自己好好重新理解一下。
Towards Multimodal Sarcasm Detection
第一篇读的是Towards Multimodal Sarcasm Detection (An Obviously Perfect Paper) ,标题就很有意思,斜体的Obviously就是在这就带有自嘲,反语的含义,也切合了本文的主题,反讽检测。
这篇文章提出了一个数据集叫做[Multimodal Sarcasm Detection Dataset](https://github. com/soujanyaporia/MUStARD) (简称MUStARD), 数据集来源于流行的TV shows,不仅包含了最基本的文本信息,还包含了视觉和听觉的信息,文章用的是audiovisual utterance来表示一条数据,每个utterance都包含了它的context of historical utterances,这篇论文提出用多模态的方法来做反讽检测,因为多模态能提供更多的有利信息。

论文主要的贡献
- 创建了一个新的数据集MUStARD,包含了多模态(mutlimodal)和会话语境(conversational context)的特征。
- 举了些在某些特定场景下不同的模态中反讽中特有的矛盾or不协调很明显的例子,强调使用多模态方法的重要性。
- 和一些baseline对比,多模态比单模态表现出明显的优势。
- 提供了对话的前几轮,作为上下文信息。可能会引申出新的sub-task:基于上下文语境的反讽检测(类似的好像之前就已经有了,比如SARC,不过这篇论文强调他们提供了每个说话者之前说的话,SARC只是提供了当前评论的上一条评论)
论文谈了一些related work,Sarcasm in Text就不谈了,Sarcasm in Speech里说到了Rockwell (2000) 发现较慢的语速和强力的语调大概率是反讽的一个标志,这篇论文也是从这些工作中获得的motivation,加入了语音的信息。

论文的主要方法
-
文本特征使用了BERT,一条utterance用一个dim=768的vector表示,上下文语境是由average每个句子得到的。论文也尝试了pre-trained dim=300的GloVe,不过表现比较差。
-
语音特征提取的方法用了Librosa库,因为我本人没有语音方面的知识,因此在这不班门弄斧了。
-
图像特征是每f帧抽取一帧出来,用 pool5 layer of an ImageNet pretrained ResNet-152 来提取特征,每帧的图像是一个dim=2048的vector。
融合特征的方式就是简单的concatenate(这应该将来有更好的办法融合)。
实验结果
依赖speaker

不依赖speaker,表现明显相比上面下降,而且多模态相比单模态提升也很小。

提出的改进方向
- 分析音频信道的时间位置
- 捕捉说话者的面部表情和他正在说的话之间的mismatches
- 上下文语境信息用的是average pooling,丢失了时间信息
未来研究方向
- 多模态特征融合
- 多人对话语境
- 使用神经网络的baseline
- 对话者的目的,意图,依赖关系(Poria et al., 2019)
- 主要说话者的定位,抽帧的方式可能难以捕捉说话者的面部表情和手势的变化
Reasoning with Sarcasm by Reading In-between
第二篇读的是Reasoning with Sarcasm by Reading In-between,ACL 2018的一篇反讽检测论文,这篇论文不同于上一篇,使用的是上下文无关的方式,且只针对文本来做检测。提出了一个能够 look in-between 的 attention-based 的神经网络,使得模型能够较准确地对反讽语句中常见的矛盾/不协调(contrast and incongruity)进行建模,在 Twitter, Reddit 和 Internet Argument Corpus 数据集上达到了 state-of-the-art,并且提升了可解释性。
论文中提到了反讽检测可以给 opinion mining applications 带来巨大的 benefits。
反讽通常出现在两种情况:1.明显的矛盾、冲突的情感,比如“一部优秀的催眠影片”。2.作者表达的情感与其境况悬殊的差异,比如“我车被偷了,真棒!”。
提出反讽语句中通常具有矛盾的word pairs,表达两种冲突、相反的情绪,例如
- I absolutely love to be ignored!
- Yay!!! The best thing to wake up to is my neighbor’s drilling.
- Perfect movie for people who can’t fall asleep.
论文的主要贡献
-
基于上述原因,作者认为捕捉语句中的word pairs之间的关系很有用,即looking in-between,所以提出了一个 Multi-dimensional Intra-Attention Recurrent Network (MIARN) 来对句子中的每个 word pair 进行建模,作者说他们的Intra-attention可以被当做一个 self-targeted co-attention (Xiong et al., 2016),不仅可以捕捉词间关系(word-word relation),还可以捕捉长程依赖关系(long-range dependencies)
-
MIARN 在 Twitter, Reddit 和 IAC数据集上达到了 SOTA,且截至发表时是第一个在反讽检测任务上能够提供可解释性结果的 attention 模型
论文的主要方法

-
计算 word pair relation,对两个word w i w_{i} wi, w j w_{j} wj,使用线性变换计算二者的关系,得到一个 scalar score
s i j = W a ( [ w i ; w j ] ) + b a s_{ij} = W_{a}([w_{i};w_{j}]) + b_{a} sij=Wa([wi;wj])+ba
W a ∈ R 2 n × 1 , b a ∈ R W_{a} \in \mathbb{R}^{2n\times 1},b_{a} \in \mathbb{R} W