论文阅读之Align before Attend: Aligning Visual and Textual Features for Multimodal Hateful Content Detect

文章介绍了AlignbeforeAttend方法,通过上下文感知的注意力框架对视觉和文本特征进行对齐,以提高多模态仇恨模因检测的性能。实验结果在MUTE和MultiOFF数据集上表现出色,展示了对低资源语言的适应性和复杂模因理解的挑战。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

论文地址

Align before Attend: Aligning Visual and Textual Features for Multimodal
Hateful Content Detection

主要内容

这篇文章的主要内容是介绍了一种用于多模态仇恨内容检测的新方法,特别是针对图像和文本结合的模态,如模因(memes)。文章提出了一个上下文感知的注意力框架,用于在融合视觉和文本特征之前对它们进行对齐。这种方法特别关注于如何有效地捕捉视觉和文本特征之间的相互作用,并通过中间融合创建有意义的多模态表示。

文章的主要贡献包括:

开发了一个注意力框架,用于检测多模态仇恨模因,特别是针对视觉和文本模态的特征对齐。
对英语和非英语语言(特别是孟加拉语)的两个基准仇恨模因数据集MUTE和MultiOFF进行了广泛的评估,证明了所提出方法的有效性。
进行了消融研究,以检验BERT基础嵌入在检测仇恨模因中的影响,并研究了模型的定量和定性错误,以了解其局限性。
文章还讨论了相关工作,包括仇恨内容检测和多模态融合技术,并提出了一个名为多模态上下文感知-跳跃连接融合(MCA-SCF)框架的方法。该框架通过注意力层计算视觉和文本特征之间的对齐权重,然后使用这些权重创建多模态上下文表示。最后,将这些表示与模态特定的特征结合起来,用于分类。

文章的实验部分详细描述了数据集、基线模型、评估指标和比较结果。实验结果表明,所提出的方法在MUTE和MultiOFF数据集上的F1分数分别为69.7%和70.3%,比现有最先进的系统分别提高了大约2.5%和3.2%的性能。

最后,文章讨论了模型的局限性,包括对低资源语言的适应性、对复杂模因内容理解的挑战,以及由于缺乏真实世界模因数据集而限制了性能评估的范围。作者计划将来将模型应用于类似领域,如伤害和侵略性内容的检测,以展示其在多样化和具有挑战性的类别中的鲁棒性。

模型图

在这里插入图片描述
文本和图像信息分别编码,然后特征对齐。融合、最后进行分类。

技术细节

MCA-SCF框架如下:

首先数据预处理,图片resize到150*150*3并归一化,文本去除特殊字符截取长度60。

在这里插入图片描述
然后使用ResNet50预训练模型提取视觉特征,在后面还自己加了池化层和密集层,用于训练。

密集层如下:
在这里插入图片描述
G是池化结果,W,b是训练参数,V就是得到的视觉特征
在这里插入图片描述
然后使用Bi-LSTM对文本进行编码,embedding_size=60
在这里插入图片描述
正向反向拼接起来得到文本特征

在这里插入图片描述
得到图像特征和文本特征后。使用注意力机制对齐特征。
这里使用的是加性注意力机制:
在这里插入图片描述
v,W都是可训练参数。

然后使用对齐注意力权重,分别得出注意力分配后的文本和图像特征值
在这里插入图片描述
最后将注意力分配后的文本和图像特征值和开始得到的特征值全都拼接起来
在这里插入图片描述
得到最终的融合特征送进去分类。

实验结果

数据集如下(两个基准仇恨模因数据集)
在这里插入图片描述
在这里插入图片描述
其中WF是指 weighted F1-score

还有些实验,就先不看了。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Icy Hunter

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值