SwapMix: Diagnosing and Regularizing the Over-Reliance on Visual Context in ... ——2022 CVPR 论文笔记

这篇论文关注VQA模型对视觉上下文的过度依赖问题,提出了SwapMix方法来诊断和增强模型的鲁棒性。通过交换图像中不相关对象的特征,研究模型在类别和属性扰动下的表现。实验显示,这种方法可以有效地减少模型对视觉上下文的依赖,但也可能牺牲部分整体准确性。此外,具有完美视觉的VQA模型在鲁棒性上表现出色,预训练模型在某些情况下则表现出更强的上下文依赖性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

        这是今年4月份读的一篇论文了,个人认为这篇文章idea非常有趣,可解释性较强,符合VQA方向的发展趋势。

本文从一个新的角度来研究VQA模型的鲁棒性visual context

• 作者认为VQA模型过度依赖visual context,即图像中不相关的对象来进行预测。提出一种名为 SwapMix 的扰动方法,来诊断模型对visual context的依赖与评估模型的鲁棒性。
• 在模型训练阶段,还能使用SwapMix进行 数据增强
• 在MCAN和LXMERT模型上进行实验。

论文链接:https://arxiv.org/abs/2204.02285

code: https://github.com/vipulgupta1011/swapmix

 背景

        当前主流的VQA模型主要有两类,一类是基于注意力的模型,最具代表性的就是MCAN,另一类是大规模预训练模型,比如说

评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值