自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 收藏
  • 关注

原创 An Empirical Study of Training End-to-End Vision-and-Language Transformers

视觉和语言 (VL) 预训练已被证明在各种 VL 下游任务上非常有效。虽然最近的工作表明,完全基于 Transformer 的 VL 模型比以前的基于区域的方法更有效,但它们在下游任务上的性能通常会显着下降。在本文中,我们提出了 METER(多模态端到端转换器),通过它,我们系统地研究如何以端到端的方式设计和预训练一个完全基于变压器的 VL 模型。(例如 CLIP-ViT、Swin 转换器)、(例如 RoBERTa、DeBERTa)、(例如,合并注意力与共同注意)、(例如,仅编码器与编码器-解码器)和。

2023-04-01 17:04:17 356

原创 GQA数据集介绍

GQA,这是一个用于真实世界视觉推理和组合问答的新数据集。2200万个不同的推理问题,所有这些问题都带有表示其语义的功能程序。答案分布受到严格控制。11.3万张图像、2200万个问题,推理能力有对象和属性识别、传递关系跟踪、空间推理、逻辑推理和比较。

2023-03-13 23:11:35 1505

原创 ViLT:Vision-and-Language Transformer Withoout Convolution or Region Supervision

如今,在多模态领域,同样采取先预训练,再进行微调的方式。

2022-12-14 09:16:12 297

原创 LXMERT:Learning Cross-Modality Encoder Representations from Transformers

针对视觉和语言模态对的大规模预训练和微调的模型。

2022-12-13 11:54:22 206

原创 VQA-CP v2数据集和VQA v2数据集

数据集介绍

2022-11-11 22:00:58 1551 12

原创 Check It Again:论文整理

文本蕴含:文本间的推理关系,又称为文本蕴含关系,作为一种基本的文本间语义联系,广泛存在于自然语言文本中。简单的来说文本蕴含关系描述的是两个文本之间的推理关系,其中一个文本作为前提,另一个文本作为假设,如果根据前提P能够推理出假设H,那么就说P蕴含H,记作P->H(前提->假设)。视觉蕴含:也就是把前提改成了图片,而不是之前的文字,由图片来推出假设是否成立。

2022-11-11 13:09:15 336

原创 反事实VQA论文阅读

简单地排除额外的分支不能利用良好的上下文。事实上,对于最近的去偏VQA方法来说,从整体中分离出好的和坏的仍然具有挑战性。传统的VQA无法解开单模态语言相关性和多模态推理,即直接和间接影响。语言偏差可以通过估计Q对A的直接因果效应,即纯语言效应来识别。本文的主要贡献有三个方面。首先,我们的反事实推理框架是第一个将VQA中的语言偏差表述为因果效应的框架。其次,我们为最近的去偏VQA工作提供了一种基于因果关系的新型解释[11,14]。第三,我们的因果关系是通用的,适用于不同的基线VQA架构和融合策略。

2022-11-04 10:33:08 514 3

翻译 反事实VQA翻译

VQA模型有可能趋于把依赖语言偏差当作一个捷径,因而无法充分学习图像和语言中多模态知识。最近的去偏方法提出了在推理过程中排除语言先验。然而,他们未能区分“好”语言语境和整体上的“坏”语言偏见。在本文中,我们研究了如何减少语言偏见。在VQA中,在因果效应的激励下,我们提出了一个反事实推理框架,这让我们能够将语言偏见捕获为问题对答案的直接因果效应,并通过从总因果效应中减去直接语言效应来减少语言偏见。

2022-11-03 09:09:29 621

原创 pycharm连接服务器

说明:主要有两种方法。

2022-11-01 09:32:39 1686

原创 不要采取简单的方法:基于集成的方法,用于避免已知的数据集偏差

视觉问答:一个vqa系统以一张图片和一个关于这张图片形式自由、开放式的自然语言问题作为输入,以生成的自然语言答案作为输出。

2022-10-27 20:36:50 544

原创 一、目标检测入门VOC2012

本文介绍的网络可以理解为SSD目标检测的简化版本,可以让我们很好的入门。

2022-08-24 18:08:52 2651 1

原创 目标检测详解

图像中若有多个我们感兴趣的目标,我们不仅想知道他们的类别,还想知道他们的具体位置,称为目标检测。提示:以下是本篇文章正文内容之所以被称为两阶段,因其对图片的两阶段处理,基于区域(Region based)的方法。

2022-08-19 11:50:54 2134

原创 图像数据读取和数据扩增

图像数据 ➡ 图像索引文件 ➡ 使用Dataset构建数据集 ➡ 使用DataLoader读取数据。

2022-08-10 15:57:19 352

原创 CS231n+assignment2(一)

cs231n作业二详解+代码

2022-07-31 19:44:10 1789 3

原创 Cifar-10训练记录

任务是对10个类别的对象进行分类,使用cifar-10数据集。cifar-10数据集共有60000张彩色图像,大小为32*32*3,一共有10个类别,每个类别6000张。其中50000张用于训练,10000用于测试。

2022-07-26 18:16:51 1624 2

原创 PyTorch学习笔记——PyTorch模块和基础实战

人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。

2022-06-29 14:04:29 801 1

原创 栈和队列概念和实现

前言栈和队列目录一、栈1.1栈的概念以及结构1.2栈的实现二、队列2.1队列的概念以及结构2.2队列的实现一、栈1.1栈的概念以及结构栈是一种特别的线性表。其只允许在一端进行插入和删除元素的操作。进行数据插入删除操作一端称为栈顶,另一端称为栈底。栈中的数据元素遵循后进先出(LIFO)的原则。压栈:栈的插入操作叫做进栈/压栈/入栈,入数据在栈顶。出栈:栈的删除操作叫做出栈。出数据也在栈顶。1.2栈的实现数组:相当于顺序表的尾插尾删,用尾去做了栈顶,非常适合,唯一缺陷是:空间不够需要增容。链

2021-06-08 08:57:42 188

原创 数据结构之线性表

前言线性表是最常用且最简单的一种数据结构。简言之,一个线性表是n 个数据元素的有限序列。线性表在逻辑上是一种线性结构,也就是说连续的一条直线,但是在物理结构上并不一定是连续的,线性表在物理上存储时,通常以数组和链式结构存储。目录二、线性表2.1顺序表2.1.1顺序表的实现二、线性表2.1顺序表2.1.1顺序表的实现概念及结构顺序表是用一段物理地址连续的存储单元依次存储数据元素的线性结构一般情况下采用数组存储。在数组上完成增删查改。顺序表一般可以分为:1.静态顺序表:使用定长数组存储。2

2021-05-26 14:59:06 182

原创 字符串函数的实现

前言c语言中对字符和字符串的处理十分频繁,但是c语言本身是没有字符串类型的,字符串通常放在常量字符串中。字符串常量适用于那些不对他进行修改的字符串函数。字符函数和字符串函数一、求字符串长度strlen二、长度不受限制的字符串函数strcpystrcatstrcmp一、求字符串长度strlen二、长度不受限制的字符串函数strcpystrcatstrcmp...

2021-05-24 17:09:13 248

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除