金克丝、-CSDN博客

原创＜＜深度学习，计算机视觉，自然语言处理＞＞问题链接汇总（持续更新）

1、什么是归一化，它与标准化的区别是什么？2、如何确定CNN的卷积核通道数和卷积输出层的通道数？3、你有哪些深度学习（rnn、cnn）调参的经验？

2021-12-23 14:50:02 924

原创＜＜计算机视觉NeurIPS＞＞2022：GLIPv2: Unifying Localization and VL Understanding

建立一个通用的，可以同时处理任务(image classification、object detection和segmentation等等)和任务(VQA和image captioning等等)的在过去一两年广为关注，这需要模型能够有效的统一和任务。然而，这两种任务有很大的区别：localization是仅视觉的任务，需要细粒度的输出(例如，bounding boxes或pixel masks)，而VL understanding强调不同模态信息之间的融合。

2022-09-30 00:34:31 884 1

原创＜＜计算机视觉CVPR＞＞2022：Grounded Language-Image Pre-training

Visual recognition 模型通常只能预测一组固定的预先确定的目标类别，这限制了在现实世界的可扩展能力，因为对于新的视觉概念类别和新的任务领域需要新的标注数据。CLIP可以在大量图像文本对上有效地学习的视觉表征，因为大规模匹配的图像文本对包含的视觉概念比任何预定义的概念都更广泛，预训练的CLIP模型语义丰富，可以在zero-shot下轻松地迁移到下游的图像分类和文本图像检索任务中。为了获得对图像的细粒度理解。

2022-09-28 17:57:50 553

原创＜＜视觉问答NeurIPS＞＞2022：REVIVE: Regional Visual Representation Matters in Knowledge-Based VQA

虽然在中得到了广泛的研究应用，但在中却鲜有使用，尽管这两种任务都需要依赖视觉信息来输出答案。作者观察到，在目前最先进的 knowledge-based VQA 方法中：1)从整个图像或利用滑动窗口的方式提取视觉特征来检索知识，而忽略了对象区域内部/之间的重要关系；2)最终的预测模型没有很好地利用视觉特征，这在一定程度上是反直觉的。因此，他们只是将检索到的知识和问题融合为一个纯自然语言处理(NLP)任务来预测答案，而在预测答案的时候忽略了视觉信息。在本文中，作者提出了一种基于知识的VQA方法。

2022-09-26 18:31:26 470

原创＜＜视觉问答AAAI＞＞2022：Multi-Modal Answer Validation for Knowledge-Based VQA

knowledge-based visual question answering是指模型不仅需要图像的视觉信息和问题的语义信息，还需要图像中的对象所蕴含的外部知识才能够正确的回答问题。这些知识通常以各种形式出现，包括视觉知识、文本知识和常识知识，也可以从各种来源获得，如图像搜索引擎、百科全书文章和概念关系知识库，如图1，每个问题都需要不同类型的外部知识。当前大多数knowledge-based VQA方法遵循两阶段框架，模型首先检索与问题和图像相关的知识，再由一个单独的融合理解模型预测答案。

2022-09-25 21:00:43 282

原创＜＜视觉问答AAAI＞＞2022：An Empirical Study of GPT-3 for Few-Shot Knowledge-Based VQA

(VQA)是指模型不仅需要图像的视觉信息和问题的语义信息，还需要图像中的对象所蕴含的外部知识才能够正确的回答问题，例如模型在回答“图像中涉及到的八大奇迹之一全长是多少？”这一问题时，模型不仅要识别出图像中的八大奇迹之一万里长城，更需要外部知识来回答这个问题。现有的方法首先从外部知识资源库中检索知识，然后对检索到的知识、输入图像和问题进行融合推理，进行答案预测。然而，这种两阶段方法可能会导致不匹配，从而潜在地限制VQA的性能。例如，检索到的知识可能是有噪声的，与问题含义无关；推理过程中。

2022-09-15 19:24:18 892

原创＜＜视觉问答IJCAI＞＞2022：Declaration-based Prompt Tuning for Visual Question Answering

近年来，“预训练+微调”范式在跨模态任务中取得了巨大的成功，例如视觉问答(VQA)，首先通过自监督任务(如MLM、ITM和ITC)在大规模图文数据集上训练优化visual-language pre-training模型，再通过添加一个新的特定于任务的目标函数(如answer prediction)进行微调以适应下游任务(如VQA)。然而，预训练任务目标和微调任务目标形式的不一致性。

2022-09-14 20:04:18 396

原创＜＜多模态预训练—泛读系列（一）＞＞ViLBERT—(NeurIPS-2019)，VL-BERT—(ICLR-2020)，VisualBERT—(ACL-2020)

介绍：ViLBERT，一种用于学习图像和自然语言的任务不可知的联合表征的模型，将BERT架构扩展到多模态双流架构，两个独立的分支分别处理视觉和文本输入，co-attention层用以交互图像和文本。在自动收集的大型captions数据集上通过两个预训练任务对模型进行预训练，然后将其迁移到多个视觉和语言下游任务中，视觉问答、视觉常识推理、引用表达式和基于caption的图像检索。......

2022-08-01 22:21:22 1297

原创＜＜多模态预训练—泛读＞＞2022：Bridging Video-text Retrieval with Multiple Choice Questions

目录问题与方案一、Introduction二、Related Work三、Method3.1、Dual-encoder for Video-text Pre-training: a revisit3.2、Multiple Choice Questions 3.3、Pre-training Objectives3.4、Model Architecture3.4.1、VideoFormer3.4.2、TextFormer3.4.3、BridgeFormer四、Experiments五、Conclusion

2022-07-03 22:43:11 718

原创＜＜深度学习＞＞优化算法详细笔记

对于几乎所有的机器学习算法，最后一般都可以归结为最优化问题，也就是归结为求一个目标函数的极值问题，因此对于一个确定的损失函数，就需要寻找一个最佳的映射函数，使得对输入映射出的输出值与真实值的损失最小，而使得损失最小的那一组参数就是我们需要的模型参数。不管是机器学习还是深度学习的模型，通常映射函数会非常复杂，甚至包含上千亿参数量，因此，在高维空间中，的局部极值肯定不止一个，但是全局最小值一定是存在的，局部极值我们称之为局部最优点，全局最小值我们称之为全局最优点，因此我们就希望有一个算法能够帮助

2022-06-30 22:39:32 596 2

原创＜＜多模态预训练—泛读＞＞2022：BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Unders

目录问题与方案：一、Introduction二、Related Work2.1、Vision-language Pre-training2.2、Knowledge Distillation2.3、Data Augmentation三、Method3.1. Model Architecture3.2、Pre-training Objectives3.3、CapFilt四、Experiments and Discussions五、Conclusion 视觉语言预训练（VLP）通过对大规模网络上的图像

2022-06-30 01:14:46 1247

原创＜＜多模态预训练—泛读＞＞2022：mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal Skip-connec

目录问题与方案1、Introduction2、Related Work2.1、Vision-Language Pre-training2.2、Skip-connection3、mPLUG3.1、Model Architecture3.2、Cross-modal Skip-connected Network3.3、Pre-training Tasks四、Experiments五、Conclusion 学习VLP模型的一个巨大挑战是在这两种模态之间找到良好的对齐方式，以缩小两者之间的语义差距。先前

2022-06-29 16:29:30 1221

原创 NLP预训练模型汇总

awesome-pretrained-chinese-nlp-models 略。一文看懂从BERT到ALBERT文献阅读笔记：NEZHA

2022-06-28 23:09:35 202

原创＜＜多模态预训练＞＞2022：CoCa: Contrastive Captioners are Image-Text Foundation Models

目录Abstract1、Introduction2、Related Work3、Approach3.1、Natural Language Supervision3.2、Contrastive Captioners Pretraining3.3、Contrastive Captioners for Downstream Tasks4、Experiments5、Conclusion 对于视觉和视觉语言问题，已经探索了一些基础的模型：在这项工作中，我们统一了single-encoder

2022-06-24 00:02:18 2644 4

原创＜＜多模态预训练and视频问答＞＞2022：LAVENDER: Unifying Video-LanguageUnderstanding as Masked Language Modeling

目录Abstract：一、Introduction二、Related Work三、LAVENDER3.1、Model Architecture3.2、Our Unified Framework4、Experiments5、Conclusion and Discussion of Broader Impact 基于transformer的大规模预训练已成为NLP和VL研究的主流。随着image-text预训练的巨大成功，视频语言（VidL）预训练也受到了越来越多的关注。通过在大量视频文本对上对端

2022-06-23 11:38:01 502

原创＜＜视觉问答IJCAI＞＞2022：Declaration-based Prompt Tuning for Visual Question Answering

目录摘要：一、介绍二、Related Work2.1、Pre-trained Vision-language Models2.2、Cross-modal Prompt Tuning三、Methodology3.1、PreliminaryPre-training-then-fine-tuning paradigm3.2 Declaration-based Prompt TuningTextual Adaptation via Declaration Generat...

2022-05-18 22:24:06 665

原创＜＜视觉问答NeurIPS＞＞2021：Multimodal Few-Shot Learning with Frozen Language Models

目录摘要：一、介绍二、Related Work三、The Frozen Method3.1、ArchitecturePre-trained Auto-regressive Language ModelsVision EncoderVisual Prefix3.2、Training3.3、Interface at Inference Time3.4、Few-Shot Learning Definitions四、Experiments: A Multi-Mod..

2022-05-18 14:44:36 1170 2

原创＜＜视觉问答＞＞2021：Learning Compositional Representation for Few-shot Visual Question Answering

摘要现有的视觉问答方法在数据量大的情况下表现良好，但在数据缺乏的情况下，对新的问题、对象、答案类别等准确度有限。然而，人类却可以快速适应这些新的类别，因为人们会组织以前见过的概念来描述新的类别，而深度学习方法几乎无法探索这些概念。在本文中，我们建议从有足够数据的答案中提取属性，然后将这些属性组合起来，以约束少数几个few-shot的学习。我们生成了few-shot VQA数据集，其中包含各种答案及其属性，无需人工操作。利用这个数据集，我们构建了属性网络，通过从图像的部分而不是整个图像...

2022-05-17 00:20:35 1006

原创＜＜视觉问答＞＞2022：CLIP Models are Few-shot Learners: Empirical Studies on VQA and Visual Entailment

摘要：CLIP在各种视觉任务中表现出非凡的zero-shot能力，以前CLIP只被认为是一个强大的视觉编码器。然而，在经过大规模图像文本对的预训练后，CLIP本身也应该具备一些视觉语言任务的few-shot能力。我们的实验表明，CLIP可以成为一个强大的视觉语言few-shot学习器，我们首先评估了CLIP在vqa任务中的zero-shot性能，并展示了CLIP在visual entailment任务中的zero-shot跨模态迁移能力。然后，我们提出了一种参数有效的微调策略，以提高...

2022-05-15 19:21:54 3125 2

原创＜＜视觉问答＞＞2022：SwapMix: Diagnosing and Regularizingthe Over-Reliance on Visual Context in VQA

先看一下下面这篇论文对VQA任务语言偏差的介绍Greedy Gradient Ensemble for Robust Visual Question Answering摘要虽然VQA发展迅速，但之前的工作对当前VQA模型的健壮性提出了担忧。在这项工作中，我们从一个新的角度研究了VQA模型的稳健性：视觉上下文。我们认为，这些模型过度依赖视觉的上下文部分，即图像中与正确的、应该注意到的对象所不相关的对象来进行预测（就是shortcut bias）。为了衡量模型对视觉上下文的依赖程度并...

2022-04-27 14:35:08 1139 14

原创＜＜视觉问答＞＞2022：MuKEA: Multimodal Knowledge Extraction and Accumulation for Knowledge-based VQA

`目录摘要一、介绍二、Related Work三、Methodology3.1、Multimodal Knowledge Triplet Extraction3.2、Knowledge Triplet Representation Learning3.3、Knowledge Accumulation and Prediction四、Experiments4.1、Comparison with State-of-the-Art Methods4.2、Ablati..

2022-04-26 14:12:42 4733 1

原创＜＜视觉问答＞＞2022：Dual-Key Multimodal Backdoors for Visual Question Answering

目录后门攻击摘要一、Introduction二：Related Work三、Methods3.1、Threat Model3.2、Backdoor Design3.3、Optimized Patches3.4、Detectors and Models3.5、Backdoor Training3.6、Metrics四、Design Experiments4.1、Visual Trigger Design4.2、Poisoning Percentage..

2022-04-25 21:25:32 1595 2

原创＜＜视觉问答＞＞2021：Zero-shot Visual Question Answering usingKnowledge Graph

目录摘要：一、介绍二、相关工作2.1、Visual Question Answering2.2、Zero-shot VQA三、Preliminaries四、Methodology4.1 Main Idea4.2 Establishment of Multiple Feature Spaces4.3 Answer Mask via Knowledge五、实验5.1 Datasets and Metrics5.2 Implementation Detail..

2022-04-23 21:14:23 3846

原创＜＜视觉Transformer＞＞2021：Bottleneck Transformers for Visual Recognition

本专栏只研究vision Transformer的原理，对实验不做过多研究。目录摘要：一、介绍二、相关工作三、方法四、实验五、结论摘要：我们提出了BoTNet，这是一个概念简单但功能强大的主干架构，它将自注意结合到多个计算机视觉任务中，包括图像分类、目标检测和实例分割。通过在ResNet的最后三个bottleneck blocks中使用全局自注意替换空间卷积，并且不做其他改变，我们的方法在实例分割和对象检测方面显著改善了基线，同时减少了参数。通过Bo...

2021-12-28 22:29:13 2572

原创＜＜视觉Transformer＞＞2020：Visual Transformers: Token-based Image Representation and Processing for CV

本专栏只研究vision Transformer的原理，对实验不做过多研究。目录摘要：一、介绍二、相关工作三、Visual Transformer3.1. Tokenizer3.1.1 Filter-based Tokenizer3.1.2 Recurrent Tokenizer3.2. Transformer3.3. Projector四、Using Visual Transformers in vision models五、实验六、结论摘要...

2021-12-27 22:02:45 2098

原创＜＜视觉Transformer＞＞2021：An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale

本专栏只研究vision Transformer的原理，对实验不做过多研究。目录摘要：一、介绍二、相关工作三、方法3.1 VISIONTRANSFORMER(VIT)3.2 FINE-TUNING ANDHIGHERRESOLUTION四、结论摘要：虽然Transformer体系结构已经成为自然语言处理任务的标准结构，但它在计算机视觉上的应用仍然有限。在视觉方面，注意力要么与卷积网络结合使用，要么用于替代卷积网络的某些组件，同时保持其整体结构不变...

2021-12-25 16:51:51 1451

原创＜＜多模态预训练and视觉问答＞＞2019：LXMERT: Learning Cross-Modality Encoder Representations from Transformers

摘要：视觉语言推理需要理解视觉概念、语言语义，以及最重要的，这两种模式之间的对齐和关系。因此，我们提出LXMERT(利用Transformers学习跨模态编码器表示)框架来学习这些视觉和语言的关系，在LXMERT中，我们构建了一个大规模的Transformer模型，该模型由三个编码器组成：对象关系编码器、语言编码器和跨模态编码器，接下来，为了赋予我们的模型连接视觉和语言语义的能力，我们使用大量的图像和句子对对模型进行预训练，通过五个不同的具有代表性的预训练任务：掩码语言模型、掩蔽对象...

2021-12-24 14:24:28 821

原创＜＜视觉问答＞＞2021：Linguistically Routing Capsule Network forOut-of-distribution Visual Question Answerin

摘要：对分布不同的测试数据的泛化是视觉问答中一个重要但尚未充分探讨的主题，当前最先进的VQA模型经常利用数据和标签之间的有偏差的相关性，当测试和训练数据具有不同的分布时，这会导致很大的性能下降。人类可以通过组合已有的概念来识别新的概念，胶囊网络具有表示部分-整体层次结构的能力，受此启发，作者提出使用胶囊来表示部分，并引入“语言路由”来建模部分到整体的层次结构。具体来说，作者首先将视觉特征与单个问题词作为原子部分进行融合，然后我们引入了“语言路由”来重加权两层胶囊之间的连接，这样：1)...

2021-12-23 13:37:27 1104

原创＜＜视觉问答＞＞2021：Separating Skills and Concepts for Novel Visual Question Answering

目录摘要：一、介绍二、相关工作三、Skill-Concept Composition in VQA四、方法4.1. Concept Grounding4.2. Skill Matching4.3. Training Procedure 五、实验5.1. Novel Skill-Concept Composition VQA5.2. Novel-Concept VQA5.3. Analysis六、结论摘要：对数据分布...

2021-12-21 16:12:01 948 1

原创＜＜视觉问答＞＞2021：Found a Reason for me? Weakly-supervised Grounded Visual Question Answering using Capsu

目录摘要一、介绍二、相关工作三、方法四、细节补充五、数据集六、实验结果6.1. Comparison to baseline method七、结论摘要 grounding VQA任务是指VQA数据集不光有对问题的答案的标注，还有与问题直接相关的图像区域的标注，普通的数据集根据输入的图像和问题，得到预测的答案，预测值与真值做loss，带图像区域标注的VQA数据集，模型可以额外输出问题所注意到的预测的图像的区域，再与真值做loss，强迫模型去学习视...

2021-12-19 15:03:33 853

原创＜＜视觉问答＞＞2021：How Transferable are Reasoning Patterns in VQA?

目录摘要：一、介绍二、相关工作三、Analysis of Reasoning Patterns3.1. Visual noise vs. models with perfect-sight3.3、Attention modes and task functions摘要：视觉问答(VQA)任务因为具有语言偏差和捷径偏差的问题，往往会阻碍模型学习真正的依靠图像进行推理。经典的模型通过从训练集中去除偏差数据，或者在模型里添加问题分支来消除偏差。本文作者认为视觉的...

2021-12-18 22:48:00 1582

原创＜＜视觉问答＞＞2021：Roses are Red, Violets are Blue... But Should VQA expect Them To?

目录摘要一、介绍二、相关工作三、GQA-OOD: a benchmark for OOD settings四、实验4.1、Evaluation of the proposed metric4.2. Analysis of VQA model error distributions4.3. Re-evaluating bias-reduction methods4.4. Comparison with other benchmarks五、结论摘要 ...

2021-12-18 16:47:58 386

原创＜＜视觉问答＞＞2021：Check It Again: Progressive Visual Question Answering via Visual Entailment

一、介绍二、相关工作三、方法3.1、Candidate Answer Selecting3.2、Answer Re-ranking3.2.1、Answer Re-ranking3.2.2、VQA As Visual Entailment3.2.3、Re-Ranking based on VE3.3、Inference Process四、实验4.1、实验设置4.2、实验设置细节五、结论摘要：大多数2020年的VQA模型虽然依靠...

2021-12-17 23:02:21 306

原创＜＜视觉问答＞＞2021：Mind Your Outliers，Investigating the Negative Impact of Outliers on Active Learning VQA

一、介绍二、实验设置2.1、实验流程2.2、VQA模型2.3、主动学习方法三、实验结果四、通过数据集映射图分析五、集体离群值六、结论七、附录前言主动学习将分类、识别等传统任务的样本效率提高了一个数量级，但在VQA任务中，各种各样的主动学习方法都无法超越随机选择样本的方法。为了理解这种差异，作者在4个数据集、5个模型上，分析了8种主动学习方法，将这种差异归咎于集体异常值——主动学习方法喜欢获取模型无法学习的样本（例如，需要OCR询问图像中文本...

2021-12-17 19:21:35 398

金克丝的博客

原创＜＜深度学习，计算机视觉，自然语言处理＞＞问题链接汇总（持续更新）

原创＜＜计算机视觉NeurIPS＞＞2022：GLIPv2: Unifying Localization and VL Understanding

原创＜＜计算机视觉CVPR＞＞2022：Grounded Language-Image Pre-training

原创＜＜视觉问答NeurIPS＞＞2022：REVIVE: Regional Visual Representation Matters in Knowledge-Based VQA

原创＜＜视觉问答AAAI＞＞2022：Multi-Modal Answer Validation for Knowledge-Based VQA

原创＜＜视觉问答AAAI＞＞2022：An Empirical Study of GPT-3 for Few-Shot Knowledge-Based VQA

原创＜＜视觉问答IJCAI＞＞2022：Declaration-based Prompt Tuning for Visual Question Answering

原创＜＜多模态预训练—泛读系列（一）＞＞ViLBERT—(NeurIPS-2019)，VL-BERT—(ICLR-2020)，VisualBERT—(ACL-2020)

原创＜＜多模态预训练—泛读＞＞2022：Bridging Video-text Retrieval with Multiple Choice Questions

原创＜＜深度学习＞＞优化算法详细笔记

原创＜＜多模态预训练—泛读＞＞2022：BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Unders

原创＜＜多模态预训练—泛读＞＞2022：mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal Skip-connec

原创 NLP预训练模型汇总

原创＜＜多模态预训练＞＞2022：CoCa: Contrastive Captioners are Image-Text Foundation Models

原创＜＜多模态预训练and视频问答＞＞2022：LAVENDER: Unifying Video-LanguageUnderstanding as Masked Language Modeling

原创＜＜视觉问答IJCAI＞＞2022：Declaration-based Prompt Tuning for Visual Question Answering

原创＜＜视觉问答NeurIPS＞＞2021：Multimodal Few-Shot Learning with Frozen Language Models

原创＜＜视觉问答＞＞2021：Learning Compositional Representation for Few-shot Visual Question Answering

原创＜＜视觉问答＞＞2022：CLIP Models are Few-shot Learners: Empirical Studies on VQA and Visual Entailment

原创＜＜视觉问答＞＞2022：SwapMix: Diagnosing and Regularizingthe Over-Reliance on Visual Context in VQA

原创＜＜视觉问答＞＞2022：MuKEA: Multimodal Knowledge Extraction and Accumulation for Knowledge-based VQA

原创＜＜视觉问答＞＞2022：Dual-Key Multimodal Backdoors for Visual Question Answering

原创＜＜视觉问答＞＞2021：Zero-shot Visual Question Answering usingKnowledge Graph

原创＜＜视觉Transformer＞＞2021：Bottleneck Transformers for Visual Recognition

原创＜＜视觉Transformer＞＞2020：Visual Transformers: Token-based Image Representation and Processing for CV

原创＜＜视觉Transformer＞＞2021：An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale

原创＜＜多模态预训练and视觉问答＞＞2019：LXMERT: Learning Cross-Modality Encoder Representations from Transformers

原创＜＜视觉问答＞＞2021：Linguistically Routing Capsule Network forOut-of-distribution Visual Question Answerin

原创＜＜视觉问答＞＞2021：Separating Skills and Concepts for Novel Visual Question Answering

原创＜＜视觉问答＞＞2021：Found a Reason for me? Weakly-supervised Grounded Visual Question Answering using Capsu

原创＜＜视觉问答＞＞2021：How Transferable are Reasoning Patterns in VQA?

原创＜＜视觉问答＞＞2021：Roses are Red, Violets are Blue... But Should VQA expect Them To?

原创＜＜视觉问答＞＞2021：Check It Again: Progressive Visual Question Answering via Visual Entailment

原创＜＜视觉问答＞＞2021：Mind Your Outliers，Investigating the Negative Impact of Outliers on Active Learning VQA

空空如也

空空如也