![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
多模态研究
文章平均质量分 94
乄洛尘
2024年立下Flag, 6月份毕业(*^▽^*)~
如有问题请留言或私信,笔者看到后会第一时间回复呦~
论文阅读笔记系列保持不定期更新,稳定更新的话估计得等6月份之后啦~
展开
-
VL系列 Exchanging-based Multimodal Fusion with Transformer 论文阅读笔记
最近有提出基于交换的方法用于视觉-视觉融合,旨在交换学习到的 embedding 到另一个模态,然而大多数方法将多模态输入特征投影到低维空间中且不能应用于序列数据。于是本文提出一种基于交换多模态 Transformer 模型 MuSE 用于文本-视觉融合。首先使用两个独立的编码器将多模态特征映射到低维空间上,然后应用两个解码器来归一化 embedding 并将其推入到相同的空间。原创 2023-09-10 20:23:53 · 1169 阅读 · 19 评论 -
VL 模型 Open-Set Domain Adaptation with Visual-Language Foundation Models 论文阅读笔记
无监督域适应在知识迁移中很管用。由于目标域标签的缺失和一些未知类别的存在,开放域适应 open-set domain adaptation (ODA) 是个不错的解决办法。现有的 ODA 方法旨在解决源域和目标域的分布迁移问题,而大多数方法微调那些训练在 ImageNet 上的源域模型。最近的视觉语言基础模型 visual-language foundation models (VLFM),例如 CLIP 对大多数迁移分布鲁棒,直觉上应该能够提升 ODA 的性能。原创 2023-08-06 19:06:56 · 1012 阅读 · 0 评论 -
视觉+语言预训练+微调:CAVL: Learning Contrastive and Adaptive Representations of Vision and Language 论文笔记
首先说明视觉语言预训练的目的、作用。指出目前在预训练阶段存在语言混淆问题,同时需要大量的计算资源在下游任务上微调。本文提出简单、有效的学习对比视觉语言的自适应表示方法CAVision andLanguage,即 CAVL。具体来说,在预训练过程中引入一组成对的对比损失来对齐整个句子和图像,在微调阶段引入两个轻量化的自适应网络来减少模型的参数及节约计算资源,加快训练速度。在 6 个数据集 VQA、VCR、NLVR、RPG、TIR、零样本 ZS-TIR 上性能很好,且减小预训练时间 76.17%。原创 2023-04-18 20:35:48 · 946 阅读 · 9 评论 -
DETR系列之 MDETR - Modulated Detection for End-to-End Multi-Modal Understanding 论文笔记
时隔几个月没完整地写一篇论文笔记了,下一个目标,开始行动了。前排提出,这篇文章的结构、布局、语言不太合理。原创 2022-09-16 10:01:42 · 967 阅读 · 0 评论 -
结合 Swin-Transformer 的 LAVT: Language-Aware Vision Transformer for Referring Image Segmentation 论文笔记
这篇文章同样是参考图像分割,区别于上一篇:无卷积结构(那就纯ransformer)的参考图像分割:ReSTR: Convolution-free Referring Image Segmentation Using Transformers,这篇结合了当下最主流的 Swim-Transformer 网络,性能着实强悍,且新颖度很高,是篇好论文。......原创 2022-07-02 14:31:53 · 1369 阅读 · 0 评论 -
无卷积结构(那就纯ransformer)的参考图像分割:ReSTR: Convolution-free Referring Image Segmentation Using Transformers
快速过一篇论文: ReSTR: Convolution-free Referring Image Segmentation Using Transformers,新颖的话也谈不上多新颖,目前的 Transformer 都快烂大街了,其中的一些结构可以借鉴下,说不定是涨点神器。原创 2022-07-01 15:28:03 · 1417 阅读 · 0 评论 -
胶囊网络之 Found a Reason for me? Weakly-supervised Grounded Visual Question Answering using Capsules论文笔记
这是一篇其他文章里面的参考文献,感觉比较有新意。然后一搜,果然,CSDN 也有一篇 博文,但可惜是翻译后的文章,未能满足我的要求,最重要的是没有核心算法框架图与 LaTeX 公式,因此特地再开一篇博文。更新一:2021年4月15日,跑了一下源码,对本文EM算法和矩阵形状进行补充,高亮显示。原创 2022-03-24 20:35:11 · 3646 阅读 · 6 评论 -
MCAN论文进阶——MoVie: Revisting Modulated Convolutions for Visual Counting and Beyond 论文笔记
本文是 VQA 2021 Challenge 的冠军,方法上没有太复杂,主要是结合 Defense grid 的思路和 MCAN 的方法,再根据自己的 idea 做出一些创新,最终夺冠的模型采用了 32 个models 的 ensemble。原创 2022-03-13 19:03:41 · 5247 阅读 · 2 评论 -
VQA2021年之后的方向启蒙:Human-Adversarial Visual Question Answering 论文笔记
这是一篇关于VQA数据集的拓展数据集文章,即提出了一种新的数据集Adversarial VQA(AdVQA),也就是对抗性的VQA数据集,该数据集专门收集了SOTA模型不能正确回答的问题,并得出现有VQA模型的能力仍然不足的结论,推荐2021年之后还在研究VQA方向的同学可以深挖。原创 2021-12-23 19:54:50 · 2445 阅读 · 3 评论 -
WeaQA:Weak Supervision via Captions for Visual Question Answering 论文笔记
这是一篇采用弱监督方式解决VQA的文章,与上一篇:Visual Question Answering with Textual Representations for Images 论文笔记有异曲同工之妙,但是这一篇更加花里胡哨一点。前者只采用问题+图像描述作为VQA模型的输入,后者采用图像+视觉字幕的方法取代监督的Q-A问答对,也就是本文标题所说的WeaQA。另外,前者采用的图像描述中包含了视觉字幕,这两者我一开始以为差不多的工作,看完后发现两篇文章都有各自的idea。原创 2021-12-17 19:31:18 · 661 阅读 · 0 评论 -
MLP Architectures for Vision-and-Language Modeling: An Empirical Study 笔记
这是一篇实验性质的论文,重点在于结论,这也是笔者第一次接触到这类文章,总体来说,重点关注实验结论,至于实验过程,还是尽量看懂其实验的步骤,无需过度理解。另外,参考文献中的一些文章值得细细阅读,会在博文最后面给出。原创 2021-12-15 19:55:04 · 2627 阅读 · 2 评论 -
Visual Question Answering with Textual Representations for Images 论文笔记
Visual Question Answering with Textual Representations for Images 论文笔记一、Abstract二、引言三、方法3.1 Language-only 数据3.1.1 Questions and Answers3.1.2 Image Description3.1.3 Synthetic Data3.2 VQA中的数据增强3.2.1 Hypernym and Hyponym Replacement3.2.2 Color Inversion3.2.3原创 2021-12-14 16:03:01 · 305 阅读 · 0 评论 -
Introspective Distillation for Robust Question Answering 论文笔记
Introspective Distillation for Robust Question Answering 论文笔记一、Abstract二、引言三、Related work3.1 视觉问答3.2 Extractive Question Answering3.3 Ensemble-based methods for debiasing3.4 Knowledge Distillation四、内省蒸馏4.1 ID-Teacher and OOD-Teacher4.2 Introspection of Ind原创 2021-12-05 16:44:58 · 3347 阅读 · 4 评论 -
Regularizing Attention Networks for Anomaly Detection in Visual Question Answering 论文笔记
Regularizing Attention Networks for Anomaly Detection in Visual Question Answering 论文笔记一、Abstract写在前面这是一篇关于VQA模型鲁棒性的文章,笔者也是第二次接触这类文章,(打个小广告,上一次的文章已经写出来了,关注一下即可获取最新关于VQA论文解读),文章读起来还是有那么一点拗口的,主旨是提出了对于VQA模型的5种反常场景,判断模型能不能够识别出来以及作者提出的注意力方法来识别这五种场景。论文地址:gul原创 2021-12-03 16:50:35 · 419 阅读 · 0 评论 -
Reducing Language Biases in Visual Question Answering with Visually-Grounded Question Encoder 论文笔记
Reducing Language Biases in Visual Question Answering with Visually-Grounded Question Encoder 论文笔记一、Abstract二、引言写在前面 这篇文章同样之前已经看过一遍,现在重新拿出来复习一下,这篇文章有个最牛皮的效果就是并未减小VQA模型在VQAv2数据集上的精度,反而增加了该精度,目前我看到的文章only this能做到这一点,值得称赞????!论文链接:Reducing Language Biase原创 2021-11-20 18:55:39 · 2022 阅读 · 0 评论 -
LPF: A Language-Prior Feedback Objective Function for De-biased Visual Question Answering 论文笔记
LPF: A Language-Prior Feedback Objective Function for De-biased Visual Question Answering 论文笔记一、摘要二、引言三、方法3.1 An arbitrary VQA model写在前面 这是一篇关于VQA中bias的文章,由于我之前看过一遍,这里点一下核心创新点在于将question-only分支加上了一个动态的权重阈值。由于没有代码,只需弄懂文章表达的意思即可。文章链接:LPF: A Language-Pri原创 2021-10-24 09:15:17 · 327 阅读 · 0 评论 -
Are VQA Systems RAD? Measuring Robustness to Augmented Data with Focused Interventions 论文阅读笔记
Are VQA Systems RAD? Measuring Robustness to Augmented Data with Focused Interventions 论文阅读笔记一、Abstract二、引言三、Robustness to Counterfactuals3.1 Model Robustness3.2 Counterfactual Augmentations四、Robustness with RAD and CADs4.1 实验步骤Baseline AugmentationsModels原创 2021-09-30 17:07:32 · 207 阅读 · 0 评论 -
In Factuality: Efficient Integration of Relevant Facts for Visual Question Answering 论文笔记
In Factuality: Efficient Integration of Relevant Facts for Visual Question Answering 论文笔记一、Abstract二、引言写在前面 最近看了几篇论文,不是太想写博客,原因是有的论文写的真是晦涩难懂,各种高级语法措辞真是令人头疼。今天读的这一篇论文语法还能接受,但就我看来也是属于那种食之无味弃之可惜的“鸡肋”文章。这篇文章最主要的在于其结论:UNITER网络在KVQA数据集上不会关注图像特征,也就是说你在网络中使用了图像原创 2021-09-25 12:49:55 · 170 阅读 · 0 评论 -
Check It Again: Progressive Visual Question Answering via Visual Entailment 论文笔记
Check It Again: Progressive Visual Question Answeringvia Visual Entailment 论文笔记一、Abstract二、引言三、Related Work3.1 Language-Priors Methods3.2 Answer Re-rankingvia Visual Entailment 论文笔记)写在前面这是一篇关于VQAv2.0数据集de-bias的论文,方法也很清晰,英语表达上也可以借鉴一番,是篇好文章。论文题目:Check I原创 2021-09-14 11:06:39 · 348 阅读 · 0 评论 -
Greedy Gradient Ensemble for Robust Visual Question Answering论文笔记
很长一段时间没写博客了,时间真是太紧了,好好学习~分享一篇ICCV2021的文章,关于VQA中的bias,评价数据集为VQA-CP-v2和VQA-v2原创 2021-08-19 21:23:23 · 752 阅读 · 2 评论 -
ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision内容理解
这篇文章作为一系列多模态理解的第一篇,从这里记录本人研究内容相关话题,期待后来者共同学习,共同进步,也顺便作为笔记备份。原创 2021-06-25 17:45:42 · 5336 阅读 · 10 评论 -
Graph Relation Transformer: Incorporating Edge Relations into the Transformer Architecture 论文笔记
Graph Relation Transformer: Incorporating Edge Relations into theTransformer Architecture 论文笔记一、AbstractTransformer Architecture 论文笔记)写在前面这篇论文是CVPR2021 Workshop的第五篇,也是比较短的一篇文章,3页(含参考文献)。见名知意,和图神经网络相关的Transformer,这类文章看着就比较新,因为理论上来说我目前看到的文章还没有把图神经网络和Tran原创 2021-07-18 10:40:25 · 279 阅读 · 0 评论 -
Dealing with Missing Modalities in the VQ Answer-Difference Prediction Task through知识蒸馏 笔记
Dealing with Missing Modalities in the Visual Question Answer-Difference Prediction Task through Knowledge Distillation 论文笔记一、Abstract二、引言三、相关工作1、Answer Difference in VQA Datasets2、Generalized Knowledge Distillation四、Methodology1、Problem Definition2、Propos原创 2021-07-15 21:34:27 · 271 阅读 · 0 评论 -
Biases and Reasoning Patterns in VQA 笔记
这是VQA2021 workshop的第三篇,内容不多,3页,最后一页为参考文献。本文可以看做是CVPR2021上两篇文章的总结:1、 Roses are Red, Violets are Blue But Should VQA expect Them To?2、 How transferable are reasoning patterns in vqa?从本文的趋势来看,虽然今年的大部分文章在 关注预训练,但是仍然有 专注于数据集bias的工作,再一个,后面工作的趋势必然是走 轻量化的路子,学术原创 2021-07-09 17:15:37 · 336 阅读 · 0 评论 -
Separating Skills and Concepts for Novel Visual Question Answering 论文笔记
Separating Skills and Concepts for Novel Visual Question Answering 论文笔记一、Abstract二、引言写在前面这是CVPR2021 VQA Workshop的第三篇论文,大胆预言一下是针对Novel Visual Question Answering数据集的。论文链接:Separating Skills and Concepts for Novel Visual Question Answering代码链接:github切忌:勿坐原创 2021-07-07 16:35:06 · 667 阅读 · 2 评论 -
Learning Reasoning Mechanisms for Unbiased Question-based Counting论文笔记
Learning Reasoning Mechanisms for Unbiased Question-based Counting论文笔记一、引言二、Novel out-of-distribution datasets1、TallyQA-CP2、TallyQA-Odd-Even三、Spatial Counting Network四、Result1、State-of-the-art models are biased2、Spatial Counting Network总结写在前面照例,本篇论文出自CVP原创 2021-06-28 09:27:47 · 171 阅读 · 0 评论 -
Point and Ask: Incorporating Pointing into VQA论文笔记
Point and Ask: Incorporating Pointing into VQA论文笔记一、Abstract二、引言部分三、相关Work写在前面这是第二篇论文笔记了,好好学习,多读论文多读书学习。论文链接:Point and Ask: Incorporating Pointing into VQA代码已开源:Github一、Abstract重点蓝色部分:点出本文内容:考虑包含一个空间点推理式的视觉问答;本文contribution:1:引入并促进了一种 point-input的原创 2021-06-27 15:58:58 · 404 阅读 · 0 评论