论文地址
Align before Attend: Aligning Visual and Textual Features for Multimodal
Hateful Content Detection
主要内容
这篇文章的主要内容是介绍了一种用于多模态仇恨内容检测的新方法,特别是针对图像和文本结合的模态,如模因(memes)。文章提出了一个上下文感知的注意力框架,用于在融合视觉和文本特征之前对它们进行对齐。这种方法特别关注于如何有效地捕捉视觉和文本特征之间的相互作用,并通过中间融合创建有意义的多模态表示。
文章的主要贡献包括:
开发了一个注意力框架,用于检测多模态仇恨模因,特别是针对视觉和文本模态的特征对齐。
对英语和非英语语言(特别是孟加拉语)的两个基准仇恨模因数据集MUTE和MultiOFF进行了广泛的评估,证明了所提出方法的有效性。
进行了消融研究,以检验BERT基础嵌入在检测仇恨模因中的影响,并研究了模型的定量和定性错误,以了解其局限性。
文章还讨论了相关工作,包括仇恨内容检测和多模态融合技术,并提出了一个名为多模态上下文感知-跳跃连接融合(MCA-SCF)框架的方法。该框架通过注意力层计算视觉和文本特征之间的对齐权重,然后使用这些权重创建多模态上下文表示。最后,将这些表示与模态特定的特征结合起来,用于分类。
文章的实验部分详细描述了数据集、基线模型、评估指标和比较结果。实验结果表明,所提出的方法在MUTE和MultiOFF数据集上的F1分数分别为69.7%和70.3%,比现有最先进的系统分别提高了大约2.5%和3.2%的性能。
最后,文章讨论了模型的局限性,包括对低资源语言的适应性、对复杂模因内容理解的挑战,以及由于缺乏真实世界模因数据集而限制了性能评估的范围。作者计划将来将模型应用于类似领域,如伤害和侵略性内容的检测,以展示其在多样化和具有挑战性的类别中的鲁棒性。
模型图
文本和图像信息分别编码,然后特征对齐。融合、最后进行分类。
技术细节
MCA-SCF框架如下:
首先数据预处理,图片resize到150*150*3并归一化,文本去除特殊字符截取长度60。
然后使用ResNet50预训练模型提取视觉特征,在后面还自己加了池化层和密集层,用于训练。
密集层如下:
G是池化结果,W,b是训练参数,V就是得到的视觉特征
然后使用Bi-LSTM对文本进行编码,embedding_size=60
正向反向拼接起来得到文本特征
得到图像特征和文本特征后。使用注意力机制对齐特征。
这里使用的是加性注意力机制:
v,W都是可训练参数。
然后使用对齐注意力权重,分别得出注意力分配后的文本和图像特征值
最后将注意力分配后的文本和图像特征值和开始得到的特征值全都拼接起来
得到最终的融合特征送进去分类。
实验结果
数据集如下(两个基准仇恨模因数据集)
其中WF是指 weighted F1-score
还有些实验,就先不看了。