反讽检测(Sarcasm Detection)

最新推荐文章于 2024-05-10 20:00:00 发布

TianHongZXY

最新推荐文章于 2024-05-10 20:00:00 发布

阅读量4.9k

点赞数 3

分类专栏：深度学习笔记 nlp 文章标签：反讽检测反讽识别自然语言处理文本分类

本文链接：https://blog.csdn.net/qq_40367479/article/details/103443540

版权

本文总结了两篇关于反讽检测的研究论文，第一篇提出多模态方法，创建了包含文本、视觉和听觉信息的MUStARD数据集，通过多模态特征融合进行反讽检测；第二篇则利用单模态文本，通过Multi-dimensional Intra-Attention Recurrent Network捕捉词对之间的矛盾关系，达到state-of-the-art效果，并提高可解释性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

最近在看反讽检测的文章，才读了几篇，写一下小结，看得还是挺费劲，也挺懵的，写个阅读笔记，让自己好好重新理解一下。

Towards Multimodal Sarcasm Detection

第一篇读的是Towards Multimodal Sarcasm Detection (An Obviously Perfect Paper) ，标题就很有意思，斜体的Obviously就是在这就带有自嘲，反语的含义，也切合了本文的主题，反讽检测。

这篇文章提出了一个数据集叫做[Multimodal Sarcasm Detection Dataset](https://github. com/soujanyaporia/MUStARD) (简称MUStARD), 数据集来源于流行的TV shows，不仅包含了最基本的文本信息，还包含了视觉和听觉的信息，文章用的是audiovisual utterance来表示一条数据，每个utterance都包含了它的context of historical utterances，这篇论文提出用多模态的方法来做反讽检测，因为多模态能提供更多的有利信息。

论文主要的贡献

创建了一个新的数据集MUStARD，包含了多模态(mutlimodal)和会话语境(conversational context)的特征。
举了些在某些特定场景下不同的模态中反讽中特有的矛盾or不协调很明显的例子，强调使用多模态方法的重要性。
和一些baseline对比，多模态比单模态表现出明显的优势。
提供了对话的前几轮，作为上下文信息。可能会引申出新的sub-task：基于上下文语境的反讽检测(类似的好像之前就已经有了，比如SARC，不过这篇论文强调他们提供了每个说话者之前说的话，SARC只是提供了当前评论的上一条评论)

论文谈了一些related work，Sarcasm in Text就不谈了，Sarcasm in Speech里说到了Rockwell (2000) 发现较慢的语速和强力的语调大概率是反讽的一个标志，这篇论文也是从这些工作中获得的motivation，加入了语音的信息。

论文的主要方法

文本特征使用了BERT，一条utterance用一个dim=768的vector表示，上下文语境是由average每个句子得到的。论文也尝试了pre-trained dim=300的GloVe，不过表现比较差。
语音特征提取的方法用了Librosa库，因为我本人没有语音方面的知识，因此在这不班门弄斧了。
图像特征是每f帧抽取一帧出来，用 pool5 layer of an ImageNet pretrained ResNet-152 来提取特征，每帧的图像是一个dim=2048的vector。

融合特征的方式就是简单的concatenate(这应该将来有更好的办法融合)。

实验结果

依赖speaker

不依赖speaker，表现明显相比上面下降，而且多模态相比单模态提升也很小。

提出的改进方向

分析音频信道的时间位置
捕捉说话者的面部表情和他正在说的话之间的mismatches
上下文语境信息用的是average pooling，丢失了时间信息

未来研究方向

多模态特征融合
多人对话语境
使用神经网络的baseline
对话者的目的，意图，依赖关系(Poria et al., 2019)
主要说话者的定位，抽帧的方式可能难以捕捉说话者的面部表情和手势的变化

Reasoning with Sarcasm by Reading In-between

第二篇读的是Reasoning with Sarcasm by Reading In-between，ACL 2018的一篇反讽检测论文，这篇论文不同于上一篇，使用的是上下文无关的方式，且只针对文本来做检测。提出了一个能够 look in-between 的 attention-based 的神经网络，使得模型能够较准确地对反讽语句中常见的矛盾/不协调(contrast and incongruity)进行建模，在 Twitter, Reddit 和 Internet Argument Corpus 数据集上达到了 state-of-the-art，并且提升了可解释性。

论文中提到了反讽检测可以给 opinion mining applications 带来巨大的 benefits。

反讽通常出现在两种情况：1.明显的矛盾、冲突的情感，比如“一部优秀的催眠影片”。2.作者表达的情感与其境况悬殊的差异，比如“我车被偷了，真棒！”。

提出反讽语句中通常具有矛盾的word pairs，表达两种冲突、相反的情绪，例如

I absolutely love to be ignored!
Yay!!! The best thing to wake up to is my neighbor’s drilling.
Perfect movie for people who can’t fall asleep.

论文的主要贡献

基于上述原因，作者认为捕捉语句中的word pairs之间的关系很有用，即looking in-between，所以提出了一个 Multi-dimensional Intra-Attention Recurrent Network (MIARN) 来对句子中的每个 word pair 进行建模，作者说他们的Intra-attention可以被当做一个 self-targeted co-attention (Xiong et al., 2016)，不仅可以捕捉词间关系(word-word relation)，还可以捕捉长程依赖关系(long-range dependencies)
MIARN 在 Twitter, Reddit 和 IAC数据集上达到了 SOTA，且截至发表时是第一个在反讽检测任务上能够提供可解释性结果的 attention 模型

论文的主要方法

计算 word pair relation，对两个word $w_{i}$ , $w_{j}$ ，使用线性变换计算二者的关系，得到一个 scalar score
$s_{ij} = W_{a}([w_{i};w_{j}]) + b_{a}$
$W_{a} \in \mathbb{R}^{2n\times 1},b_{a} \in \mathbb{R}$

最低0.47元/天解锁文章