论文阅读之Meme-ingful Analysis: Enhanced Understanding of Cyberbullying in Memes Through Multimodal Exp..

论文地址

Meme-ingful Analysis: Enhanced Understanding of Cyberbullying in
Memes Through Multimodal Explanations

主要内容

这篇文章的主要内容是关于如何通过多模态解释来增强对网络霸凌(cyberbullying)在模因(memes)中的理解。文章首先指出,互联网模因在传播政治、心理和社会文化观念方面具有显著影响力,但同时也被用于网络霸凌。尽管已经开发了许多基于深度学习的模型来检测具有攻击性的多模态模因,但关于模型可解释性的研究还相对较少。文章介绍了MultiBully-Ex,这是第一个用于从混合代码网络霸凌模因中生成多模态解释的基准数据集。该数据集强调了视觉和文本模态,以解释为什么给定的模因是网络霸凌。

文章提出了一种基于对比语言-图像预训练(CLIP)投影的多模态共享-私有多任务方法,用于模因的视觉和文本解释。实验结果表明,使用多模态解释进行训练可以提高生成文本理由的性能,并更准确地识别支持决策的视觉证据,从而实现可靠的性能提升。

文章还讨论了相关工作,包括网络霸凌检测和模型可解释性方面的研究。此外,文章详细介绍了MultiBully-Ex数据集的创建过程,包括注释训练和主要注释。文章还介绍了所提出的模型的方法论,包括多模态霸凌解释(MExCM)的形式化定义,CLIP投影基础的跨模态颈部,视觉信息文本序列模型,以及语言敏感的视觉分割模型。最后,文章展示了定量和定性分析的结果,并讨论了未来工作的方向和当前研究的局限性。

主要贡献

文章的主要贡献可以总结为以下三点:

1.提出新型任务(MExCCM):文章首次提出了多模态解释混合代码网络霸凌模因(Multimodal Explanation of Code-Mixed Cyberbullying Memes, MExCCM)的任务。这个任务旨在处理多模态输入,并为目标模因生成文本和视觉解释,以说明其为何构成网络霸凌。

2.创建新的数据集(MultiBully-Ex):文章介绍了MultiBully-Ex,这是第一个用于多模态解释的混合代码网络霸凌模因数据集。该数据集手动强调了模因中的文本和图像模态,以展示其为何被视为霸凌内容。

3.提出新的模型架构:文章提出了一个基于CLIP(Contrastive Language-Image Pretraining)投影的多模态共享-私有多任务方法,用于模因的视觉和文本解释。这个架构包括CLIP投影基础的跨模态颈部(Cross-Modal Neck),视觉信息文本序列模型(Vision-Informed Textual Seq2Seq model),以及语言敏感的视觉分割模型(Linguistically-Sensitive Visual Segmentation model)。这些组件共同工作,以提高生成文本理由的性能,并更准确地识别支持决策的视觉证据。

文章的实验结果表明,使用多模态解释进行训练可以显著提高模型在生成文本理由和识别支持决策的视觉证据方面的性能。这些贡献不仅推动了网络霸凌检测领域的研究,也为多模态解释模型的发展提供了新的方向。

模型图

在这里插入图片描述
基于CLIP投影的(CP)多模式共享私有多任务体系结构。视觉知情文本Seq2Seq模型由一个粉红色的虚线框表示。跨模态投影颈部由蓝色虚线框表示。语言敏感视觉分割模型由红色虚线框表示。Lx表示transformer层数

技术细节

首先是中间部分(CLIP Projection-Based Cross-Modal Neck):在这里插入图片描述
对于输入的数据
图像通过CLIP得到图像特征在这里插入图片描述

文本通过OCR得到,然后通过CLIP得到文本特征在这里插入图片描述

二者拼接起来得到融合特征
然后经过视觉投影-视觉门控模块(Gated Visual Projec-
tion (GV P )),往上走,用于帮助生成解释文本,可以表示为
在这里插入图片描述

经过文本投影-文本门控模块,往下走,用于帮助生成解释图像(文本同理)

然后是上面的部分,用于生成文本的解释(Vision-Informed Textual Seq2Seq Model)
在这里插入图片描述
这个模块主要是由左边的编码器和右边的解码器组成

该视觉感知编码器包括三个子组件:
1)多头自注意(MSA),
2)前馈网络(FNN),
3)文本视觉融合(TVF)
每个子层后面都有一个残差连接和层归一化

其中MSA(多头自注意)和FNN(前馈网络)组件是标准的transformer层

TVF也是用注意力机制实现(文章试了两种)

右侧的解码器可以是BART等

Lx表示有L个层叠加

左边的输入为OCR得到的文本然后加上位置编码,右边的输入是中间部分传上来的(可以看作是图像信息)。

下面部分(Linguistically Sensitive Visual Segmentation Model)用于输出图像解释
在这里插入图片描述
是基于transformer的的编码器-解码器架构

使用了UNet架构

编码器和解码器通过残差连接

左边的输入是图像+位置编码,右边是中间传下来的(可以看作是文本信息)

文章中还提到了一种特殊的训练策略,称为损失优先级(loss prioritization),这是一种按顺序关注不同任务的方法。在这种方法中,模型在训练的不同阶段会优先考虑不同的损失函数。例如,模型可能在前几个训练周期中主要关注生成损失,然后在后续周期中同时关注生成损失和分割损失。这种方法的目的是让模型在训练的不同阶段专注于不同的任务,从而在最终的模型中实现多任务的平衡和优化。

实验结果

在这里插入图片描述
文本和视觉可解释性的多任务模型的结果
其中:
A1:点积注意力,
A2:多头注意力,
CP-UNet:基于CLIP投影的UNet,
RW:随机权重,
DC:Dice系数,
JS:Jaccard相似性,
mIOU:并集上的平均交集。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Icy Hunter

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值