摘要
现有的VQA模型都有严重的语言先验问题,然而,尽管现有VQA方法都将VQA视为一个分类任务,但是目前还没有研究从答案特征空间学习的角度解决此问题。因此,我们设计一个自适应的边缘余弦损失以正确区分每个问题类型下的频繁和稀疏答案特征空间,因此,语言模态中的有限制的模式在很大程度上减少了,我们的方法引入的语言先验也将更少。我们将该损失函数应用到基线模型中,并在两个VQA-CP基准上评估有效性,实验结果表明我们的自适应的边缘余弦损失可以极大提高基线模型,平均获得15%的绝对增益,从答案特征空间学习角度有效的验证了解决语言先验的潜力。
一、介绍
战胜语言先验问题的很多努力可以被大致分为两类:1)平衡有偏见的数据集;2)纠正VQA模型。我们认为,从有偏见的数据集中学习到的特征空间无法明确的区分答案,并且是减轻语言先验影响的关键。我们在图1b中可视化了问题类型how many的答案的2维嵌入特征,可以看到在这两种特征空间中,基线的不同答案实际上是相互交织在一起的,在这一现象的基础上,我们进一步假设:如果我们通过操纵答案所学习到的特征空间正确地分离答案,这对克服语言先验有益?
这项工作的主要目标是在相应的问题类型下为角度空间中的不同答案引入一个自适应的边缘,它可以有效分离答案嵌入。为此,我们首先通过L2标准化答案特征x和权重向量Wi,将softmax损失函数重述为一个余弦损失,决策边界可以通过x和Wi间角度的余弦函数计算,之后采用一个适应的边缘mi来分离答案特征,其中mi是基于相应问题类型下答案ai的训练集统计量来计算。理想情况下,对于每个给定的问题及相应的问题类型,频繁的答案在较小边缘的角度空间中更宽,而稀疏的答案在较大边缘的角度空间中跨度更紧密(图1c)。