ACM MM 2024 | 突破传统方法局限!用语义正确性评估视觉问答生成结果

37a4040c973bc24f7149ad5fecffe6b8.gif

©PaperWeekly 原创 · 作者 | 季慧山

单位 | 中科院信工所博士生

研究方向 | 计算机视觉

d59840af36eecbe980a506717377b5e4.png

第 32 届 ACM 国际多媒体会议(ACM Multimedia 2024)预计于 10 月 28 日至 11 月 1 日在澳大利亚墨尔本举行。本届会议共收到 4385 篇有效投稿,其中 1149 篇被录用,录用率为 26.20%。而在这 1149 篇录用的投稿中,仅有 174 篇被进一步评选为 Oral,Oral 接受率为 3.97%。本文将要介绍的是 Oral Presentation 中的一篇优选论文。

abe994668d01cb938ae8bdc8560fa775.png

论文标题:

Towards Flexible Evaluation for Generative Visual Question Answering

中文标题:

针对视觉问答生成结果的灵活评估

论文作者:

Huishan Ji, Qingyi Si, Zheng Lin, Weiping Wang

项目地址:

https://github.com/jihuishan/flexible_evaluation_for_vqa_mm24

论文地址:

http://arxiv.org/abs/2408.00300

afb69c3206d57de95c234ee90b0ad126.png

研究背景

dee408ea9aa515a1d28df2494abb6a21.png

▲ 图1. 不同多模态大模型对于同一问题的不同形式的回答

随着多模态大语言模型(MLLM)的快速发展,如何公平准确地评估这些模型的多模态理解能力成为了一个关键问题。视觉问答(VQA)作为一个成熟的测试领域,在评估模型的视觉理解和语言生成能力方面发挥着重要作用。

然而,现有的 VQA 评估方法存在局限性,尤其是严格的“完全匹配”评估策略(只有当模型生成结果与数据集标注完全相同时才能得分)限制了 MLLM 展示其真实的多模态理解和文本生成能力,抑制了丰富的回答生成。

传统的 VQA 评估将问题处理为一个分类问题,而答案往往局限于预定义的类别中,这与 MLLM 生成多样化回答的趋势不符。这种评估方法不仅难以评估 MLLM 的多样化生成能力,而且在面对零样本测试时更是困难重重。因此,当前的 VQA 评估标准亟需改进,以便能够更好地对 MLLM 生成的多样化回答进行公平的评估。

基于此,本文提出了基于语义相似度的评估方法,用于评估 VQA 数据集上的开放式生成回答。这种评估方法旨在弥补现有方法的不足,使得评估标准能够更好地对齐于人类的判断,同时能够容纳多种回答形式,并确保即使在回答形态上存在差异时,评估结果仍然具有一致性。

14c23ec1d8bfed43d7973bbd4bf13f16.png

研究动机

本文的目的在于突破传统评估方法的局限,提出一种基于语义相似度的灵活评估方法(打分器),能够更准确、公平地衡量 MLLMs 生成的多样化回答。通过引入更符合人类判断的评估标准,本文旨在推动 VQA 领域评估标准的进步,从而促进 MLLMs 在多模态理解和生成能力上的进一步发展。

edbaa0fcf56f446d6d379e37e50bdc0f.png

研究思路

4.1 任务特点

首先,现有的语义相似度任务(如 STS 系列任务,Semantic Textual Similarity)与 VQA 生成结果评估任务之间有着显著的不同。

  1. 判别粒度:STS 任务更关注文本的整体意义,而 VQA 生成结果评估则要求更细粒度的语义判别。在 VQA 生成结果评估任务中,打分器需要将回答和标准答案在给定问题下进行相似度比较。而由于问题相同,两者之间有大量的语义重叠,需要进行细粒度的相似度判别。

  2. 形态差异:STS 任务中的文本通常较长,而 VQA 的标准答案往往非常简短(例如一个单词或短语),且多模态大模型在回答时的生成内容常常是一个完整的句子。这种长度上的差异使得基于 n-gram 的评估方法(如 BLEU)在处理 VQA 任务时容易受到回答长度和上下文的影响,而模型在面对较大的长度差异(一个词 vs 一整个句子)时可能表现不佳。

  3. 分布偏移:STS 任务中的文本来自通用领域,而 VQA 数据集往往针对特定的子任务,如知识性问题或推理性问题。因此,不同 VQA 数据集之间存在显著的分布差异,这种分布上的偏移使得评估模型在不同数据集上的表现不一致。

因此,综合考虑以上因素,本文在参考了先前语义相似度数据集和方法的基础上,提出了全新的评估数据集和方法。

4.2 新数据集

为了衡量不同的打分器在评估生成结果时的优劣(和人类评估的接近程度)并尽可能真实地模拟人类在对 VQA 生成结果进行评分时的场景,本文还使用数据增强结合人工标注的方式,提供了一个评估不同打分器的数据集(AVE, Assessing VQA Evaluators),构造过程如图 2 所示。

构造数据集时,首先收集多个多模态大模型在多个 VQA 数据集上的原始回答,随后使用人工对每个答案的正确性进行评分。接着对回答进行数据增强。增强方法包括使用 chatgpt 将其改写为一整个句子,和使用 wordnet 对单个词或短语进行近义词或同义词的替换,并使用 chatgpt 引入一个形态的转变(如从单数变为复数,动词加上时态等)。最后使用人工对生成的增强数据进行清洗,确保每个增强的数据都不改变原始回答的含义。   

3368ead57a2f5d8db8f107973105ff9c.png

▲ 图2. 新数据集(AVE)构建过程。不同的 part 指不同的数据增强方法。

另一方面,为了能衡量不同的打分器模型在该数据集上的表现,本文设计了三种量化指标:Alignment,Consistency 和 Generalization。其中,Alignment 指的是和人类的打分趋势有多接近。

比如,在 10 分制下,人类对 4 个样本的打分为 2,4,6,8,而模型如果能在 5 分制下打分为 1,2,3,4,则认为 Alignment 为 1。Alignment 使用 spearman 系数来计算两个序列之间的相关性。Consistency 指的是不同长度但含义相同的答案的评分有多接近,使用方差来评估。Generalization 指的是对基于不同 VQA 数据集生成的答案的评估效果有多接近,使用它们的方差作为指标。

4.3 方法

经过测试发现,现有的衡量语义相似度的方法在该数据集上表现较差,尤其是在 Part 2 和 3 上的 alignment,以及整体的 consistency 指标较差。即,除了整体和人类评估的差异较大之外,模型不能很好地衡量不同长度和不同形式(但表达相同含义)的回答。

因此,本文针对该任务场景,采用常用的对比学习损失,设计了多种预训练任务,旨在帮助模型增强对细粒度差异的辨别能力,同时更为一致地评估不同长度和形式的回答,来构造本文提出的 SFVE(Semantically Flexible VQA Evaluator)。

采用的预训练任务包括:

1. 沿用常用的对比学习方法中使用的 NLI 数据集(MNLI 和 SNLI)来保证基本的语义相似度区分能力;

2. 利用多个已有的带有多个备选答案 VQA 数据集的训练集,将不同的备选答案互相作为正样本,将同一个问题的正确答案和随机答案作为负样本;

3. 将多个 VQA 数据集的训练集的短答案通过 wordnet 替换为近义词后使用 chatgpt 改变时态,作为正样本,随机答案作为负样本;

4. 使用 chatgpt 将标准答案和问题整合到一个陈述句中,从而形成一个完整的句子作为回答,并作为正样本,负样本为随机答案和问题进行整合的结果。   

32992f53c15c24fae91b85b9e657e7f8.png

▲ 图3. 模型结构

如图 3 所示,在训练时,通过对比学习,增强模型对细粒度差异的区分能力,并对齐不同长度和形式的回答。使用的对比学习损失如下:

0fc2eca67b107a59433790da51d54ce1.png

其中,sim(x,y) 指的是向量 x 和 y 之间的 cosine 距离。

47713451e27cd5a8a24c5cc65e9e70dc.png

实验结果   

7cb30b6639cd17f0351a4c22a40315fe.png

▲ 图4. 主实验结果。其中,SFVE-base 和 large 分别基于 RoBERTa-base 和 large 经由预训练任务训练得到。SFVE-LLaMA2-7b 来自 LLaMA2-7b,使用 prompt“summarize the text Question:{Q} Answer:{A} in a single word:”后提取第一个生成词的隐空间向量作为特征计算 cosine 相似度。

如图 4 所示,本文所提出的方法相较于其他 baseline 而言大幅提高了和人类打分的对齐性,同时保证了较高的 consistency 和 generalization。对于 LLM 和 API 中的 ChatGPT,本文在测试时,要求其在给定问题下,评估标准答案和给定回答的相似度得分。

API 中的后两个模型为嵌入模型(即对一个输入提取其嵌入向量),本文采用和前文中 encoder 相同的做法,对嵌入后的向量计算 cosine 相似度作为得分。可以发现,在 125M 的 RoBERTa-base 和 355M 的 RoBERTa-large 的基础上,本文提出的 SFVE 方法显著超过了所有其他 baseline,包括 7b 的 LLM、ChatGPT 和顶尖的嵌入模型。

值得注意的是,尽管公式化的方法,如 BLEU 和 ROUGE,它们和人类打分的对齐性极差,但是它们的 generalization 也就是在不同来源的数据上却取得了极高的泛化性。文中认为,这是由于该指标一方面是公式化的指标,与实际词汇分布关联较小;另一方面,由于这些公式化的指标完全不能进行该任务,因此其对不同来源的数据一视同仁,接近随机猜测,因此泛化性极高。   

0b35190299ffcbfcb6027e6be60ffd61.png

▲ 图5. 消融实验结果

从图 5 中的消融实验可以发现,文中设计的预训练任务或多或少地都对最终的结果有一定的贡献。其中,移除 Synonym and Antonym(即不适用 wordnet 来定义近义词,并且不使用 ChatGPT 来将单个词进行变形)后,会导致性能的大幅下降,说明模型原本对不同形式的单个词的理解有较大差异,与人类的认知没有对齐。

同时,移除 generated descriptions 之后,尽管在 Part 1 和 3 上都有下降,但在 Part 2 上下降最多(Part 2 对应不同长度但含义相同的回答),说明模型原本对不同长度的答案并不能很好地处理,需要专门地对齐训练。

166456fe84dfc422b8c8732d7d963e57.png

总结

本文提出了一项实用任务,即利用语义正确性来评估开放式 VQA(视觉问答)回答,从而促进对多模态大模型(MLLMs)多模态理解能力的评估。我们提出了评估 VQA 评估器的三个关键属性,即alignment、consistency 和 generalization。

此外,本文提出了一个新的数据集(AVE),用于评估不同的打分器的表现。基于对比学习和精心设计的预训练任务,本文还提供了一个语义灵活的 VQA 评估器(SFVE),在 VQA 评估中表现显著优于现有评估器,并且其训练方案相对通用,在 encoder-only 和 decoder-only 结构下都有良好的表现。

关于作者

本文作者来自中国科学院信息工程研究所和中国科学院大学。作者列表:季慧山、佀庆一、林政和王伟平。其中,第一作者季慧山是中国科学院信息工程研究所博士生(https://github.com/jihuishan),通讯作者为中国科学院信息工程研究所研究员、博士生导师林政(主页:https://people.ucas.ac.cn/~linzheng)。

更多阅读

e2ca71f8cbcc89bde7abfba20ce90818.png

fe833548cea66ad703c622e8178b4dcb.png

148027193e978a6e49ae83d3c2407591.png

e17000da5a860688a31fc8a227d85b7b.gif

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

2791e40d25d5b3014f30095a4aa6dd34.png

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

·

·

36721ec6cf81f18ad240207d40e71978.jpeg

  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
经导师精心指导并认可、获 98 分的毕业设计项目!【项目资源】:微信小程序。【项目说明】:聚焦计算机相关专业毕设及实战操练,可作课程设计与期末大作业,含全部源码,能直用于毕设,经严格调试,运行有保障!【项目服务】:有任何使用上的问题,欢迎随时与博主沟通,博主会及时解答。 经导师精心指导并认可、获 98 分的毕业设计项目!【项目资源】:微信小程序。【项目说明】:聚焦计算机相关专业毕设及实战操练,可作课程设计与期末大作业,含全部源码,能直用于毕设,经严格调试,运行有保障!【项目服务】:有任何使用上的问题,欢迎随时与博主沟通,博主会及时解答。 经导师精心指导并认可、获 98 分的毕业设计项目!【项目资源】:微信小程序。【项目说明】:聚焦计算机相关专业毕设及实战操练,可作课程设计与期末大作业,含全部源码,能直用于毕设,经严格调试,运行有保障!【项目服务】:有任何使用上的问题,欢迎随时与博主沟通,博主会及时解答。 经导师精心指导并认可、获 98 分的毕业设计项目!【项目资源】:微信小程序。【项目说明】:聚焦计算机相关专业毕设及实战操练,可作课程设计与期末大作业,含全部源码,能直用于毕设,经严格调试,运行有保障!【项目服务】:有任何使用上的问题,欢迎随时与博主沟通,博主会及时解答。
经导师精心指导并认可、获 98 分的毕业设计项目!【项目资源】:微信小程序。【项目说明】:聚焦计算机相关专业毕设及实战操练,可作课程设计与期末大作业,含全部源码,能直用于毕设,经严格调试,运行有保障!【项目服务】:有任何使用上的问题,欢迎随时与博主沟通,博主会及时解答。 经导师精心指导并认可、获 98 分的毕业设计项目!【项目资源】:微信小程序。【项目说明】:聚焦计算机相关专业毕设及实战操练,可作课程设计与期末大作业,含全部源码,能直用于毕设,经严格调试,运行有保障!【项目服务】:有任何使用上的问题,欢迎随时与博主沟通,博主会及时解答。 经导师精心指导并认可、获 98 分的毕业设计项目!【项目资源】:微信小程序。【项目说明】:聚焦计算机相关专业毕设及实战操练,可作课程设计与期末大作业,含全部源码,能直用于毕设,经严格调试,运行有保障!【项目服务】:有任何使用上的问题,欢迎随时与博主沟通,博主会及时解答。 经导师精心指导并认可、获 98 分的毕业设计项目!【项目资源】:微信小程序。【项目说明】:聚焦计算机相关专业毕设及实战操练,可作课程设计与期末大作业,含全部源码,能直用于毕设,经严格调试,运行有保障!【项目服务】:有任何使用上的问题,欢迎随时与博主沟通,博主会及时解答。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值