计算机视觉
文章平均质量分 84
但愿此生,从未邂逅
编程小白,求指导
展开
-
GQA数据集介绍
GQA,这是一个用于真实世界视觉推理和组合问答的新数据集。2200万个不同的推理问题,所有这些问题都带有表示其语义的功能程序。答案分布受到严格控制。11.3万张图像、2200万个问题,推理能力有对象和属性识别、传递关系跟踪、空间推理、逻辑推理和比较。原创 2023-03-13 23:11:35 · 1373 阅读 · 0 评论 -
ViLT:Vision-and-Language Transformer Withoout Convolution or Region Supervision
如今,在多模态领域,同样采取先预训练,再进行微调的方式。原创 2022-12-14 09:16:12 · 285 阅读 · 0 评论 -
LXMERT:Learning Cross-Modality Encoder Representations from Transformers
针对视觉和语言模态对的大规模预训练和微调的模型。原创 2022-12-13 11:54:22 · 195 阅读 · 0 评论 -
VQA-CP v2数据集和VQA v2数据集
数据集介绍原创 2022-11-11 22:00:58 · 1528 阅读 · 12 评论 -
反事实VQA论文阅读
简单地排除额外的分支不能利用良好的上下文。事实上,对于最近的去偏VQA方法来说,从整体中分离出好的和坏的仍然具有挑战性。传统的VQA无法解开单模态语言相关性和多模态推理,即直接和间接影响。语言偏差可以通过估计Q对A的直接因果效应,即纯语言效应来识别。本文的主要贡献有三个方面。首先,我们的反事实推理框架是第一个将VQA中的语言偏差表述为因果效应的框架。其次,我们为最近的去偏VQA工作提供了一种基于因果关系的新型解释[11,14]。第三,我们的因果关系是通用的,适用于不同的基线VQA架构和融合策略。原创 2022-11-04 10:33:08 · 498 阅读 · 3 评论 -
不要采取简单的方法:基于集成的方法,用于避免已知的数据集偏差
视觉问答:一个vqa系统以一张图片和一个关于这张图片形式自由、开放式的自然语言问题作为输入,以生成的自然语言答案作为输出。原创 2022-10-27 20:36:50 · 532 阅读 · 0 评论 -
一、目标检测入门VOC2012
本文介绍的网络可以理解为SSD目标检测的简化版本,可以让我们很好的入门。原创 2022-08-24 18:08:52 · 2627 阅读 · 1 评论 -
CS231n+assignment2(一)
cs231n作业二详解+代码原创 2022-07-31 19:44:10 · 1661 阅读 · 3 评论