smile909-CSDN博客

原创 ECCV 2020 Representation Learning on Visual-Symbolic Graphs for Video Understanding

动机自然视频中的事件通常产生于演员和目标之间的时空交互，并且涉及多个共同发生的活动和目标类。因此，需要开发能够对时空视觉和语义上下文进行有效建模的算法。捕捉这种上下文的一种方法是使用基于图的建模，它在计算机视觉中有着丰富的历史。传统的基于图的方法，例如使用概率图模型，主要侧重于在符号而不是信号/视觉表示的层次上对上下文进行建模。然而，最近的进步使得图结构化数据的表示学习能够使用称为图神经网络（GNNs）的深层架构，这些架构学习如何通过聚合来自其邻居的消息来迭代更新节点表示。视频可以表

2021-05-18 23:30:24 393

原创 ACL 2020 MART: Memory-Augmented Recurrent Transformer for Coherent Video Paragraph Captioning

动机本文目标是生成一个段落（多个句子），条件是输入具有几个预定义的事件片段的视频。为视频生成多句子描述是最具挑战性的任务之一，因为它不仅要求视频的视觉相关性，而且要求段落中句子之间基于语篇的连贯性。最近，Transformer已被证明比RNN更有效，在许多顺序建模任务中展示了卓越的性能。之前将transformer模型引入视频段落captioning任务的方法，Transformer操作在分离的固定长度的段上，没有跨段的任何信息流。Transformer架构仍然不能很好地建模历史信息。因此，为了生成更

2021-05-17 21:05:15 820

原创 EMNLP 2020 Beyond Instructional Videos: Probing for More Diverse Visual-Textual Grounding on YouTube

动机从无标签的网络视频中进行预训练已经迅速成为在许多视频待处理任务中实际获得高性能的的手段。通过预测语音内容和自动语音识别(ASR) token之间的grounded关系来学习特征。然而，先前的训练前工作仅限于教学录像；作者希望这个领域是相对“容易”的：在教学视频中，演讲者通常会引用文字描述的目标/动作。即期望视频帧和ASR token中的语义信息在教学视频中可以很容易地关联起来。相似模型是否可以在更多样化的视频语料库上进行训练？如果是，哪些类型的视频“grounded”，哪些类型不“grounde

2021-05-16 23:11:42 718

原创 EMNLP 2020 BiST: Bi-directional Spatio-Temporal Reasoning for Video-Grounded Dialogues

动机基于视频的对话是非常具有挑战性的，这是因为(i)包含空间和时间变化的视频的复杂性，以及(ii)用户在视频或者多个对话轮中查询不同片段和/或不同目标的话语的复杂性。然而，现有的基于视频的对话方法往往关注于表面的时间级视觉线索，而不是从视频中获取更细粒度的空间信号。作者的方法旨在通过双向推理框架从视频中检索细粒度信息来挑战基于视频的对话来解决这一问题。与视频对话相关的任务是视频问答和视频captioning。之前在这些研究领域的努力，如 Tgif-qa、GRU-EVEhft+sem-(CI)明确地考

2021-05-16 00:00:09 420

原创 ACL 2020 Video-Grounded Dialogues with Pretrained Generation Language Models

动机预训练好的语言模型在改善各种下游NLP任务方面已显示出显著的成功，这是由于它们能够在文本数据中建立依赖关系和生成自然反应。本文利用预训练好的语言模型来提高视频对话的效果。基于Transformer的预训练好的语言模型的神经结构已经被用来学习视觉-文本NLP任务的跨模态表征。它可以应用于捕捉不同类型输入模式（文本和图像）之间的各种依赖关系，并具有适当的客观损失函数。这些模型的多头attention机制可以检测输入文本中的每个token与输入图像中的每个图像块或空间对象之间的长程依赖关系。作者的动机是

2021-05-14 22:47:21 345

原创 EMNLP 2020 VMSMO: Learning to Generate Multimodal Summary for Video-based News Articles

动机多模态新闻能够显著提高用户对信息性的满意度。目前流行的一种多媒体新闻形式是为用户提供一段生动的视频和一篇相应的新闻文章，这种形式被CNN、BBC等有影响力的新闻媒体以及Twitter、Weibo等社交媒体所采用。自动生成多模态摘要，即选择合适的视频封面帧，生成合适的文章文本摘要，可以帮助编辑节省时间，读者更有效地做出决策。在实际应用中，输入通常是由数百帧组成的视频，且通常需要选择封面图。因此，视频中的时间依赖性不能简单地用静态编码方法来建模。视频的封面图片应该是整个视频的突出点，而文本摘要也

2021-05-13 23:12:39 563

原创 CVPR 2020 Character Matters: Video Story Understanding with Character-Aware Relations

动机与短视频和GIF不同，视频故事包含清晰的情节和主要人物列表。如果没有识别出人物和角色名字之间的联系，一个模型就无法获得对情节的真正理解。视频故事问答(VSQA)提供了一种有效的评估模型更高层次理解能力的方法。然而，目前的VSQA方法只是从场景中提取一般的视觉特征。通过这种方法，它们仍然倾向于只学习表面上的相关性。视频问答的任务在最近的许多研究中得到了探索。然而，这些方法仅仅是利用预训练好的CNN从视频帧或视频帧的一部分中提取视觉特征，而忽略了视频场景内部的角色特征，使得其模型缺乏对场景的深度

2021-05-10 23:10:20 421

原创 CVPR 2020 Modality Shifting Attention Network for Multi-modal Video Question Answering

动机VQA具有挑战性，因为它需要同时使用图像和文本执行细粒度推理的能力。视频问答（VideoQA）和多模态视频问答（MVQA）都是这种需要推理的任务。与VQA或VideoQA相比，MVQA是一项更具挑战性的任务，因为它（1）需要确定与QA相关的时间时刻，（2）还需要对视频和字幕模态进行推理。MVQA的第一个挑战是在所有有助于回答问题的异构模态中定位关键时刻。然而，以往的时间attention往往过于模糊或不准确地关注视频和字幕的重要区域，从而在推理过程中引入噪声。除了定性地评估预测到的at

2021-05-09 22:31:58 527

原创 TMT: A Transformer-based Modal Translator for Improving Multimodal Sequence Representations in Audio

TMT: A Transformer-based Modal Translator for Improving Multimodal Sequence Representations in Audio Visual Scene-aware Dialog（arXiv CS.CL 2020）动机视听场景感知对话(AVSD)利用给定的场景、视频、音频和对话中的前转历史生成对问题的响应。AVSD被认为是最具挑战性的任务之一，因为系统需要识别对话的历史以及视觉和声学数据来准确回答问题。AVSD任务中的一个挑战

2021-05-07 22:17:28 421

原创 CVPR 2020 ActBERT: Learning Global-Local Video-Text Representations

动机目前已有许多视频和语言任务来评估模型在视频-文本联合表征学习中的能力，视频数据是学习跨模态表征的自然来源。文本描述由现成的自动语音识别(ASR)模型自动生成。这对于模型在实际应用程序中的部署更具有可缩放性和通用性。在本文中，作者致力于以一种自监督的方式学习联合视频-文本表示。尽管监督学习在各种计算机视觉任务中取得了成功，但近年来，基于无标记数据的自监督表征学习引起了越来越多的关注。在自监督学习中，一个模型首先在一个代理损失的大量未标记数据上进行预训练。微调过程进一步帮助预训练好的模型在下游任务中得

2021-05-06 21:10:55 1003 1

原创 AAAI 2021 Structured Co-reference Graph Attention for Video-grounded Dialogue

动机基于视频的对话系统(VGDS)允许AI引擎“观察”（（即理解一个视频）和“对话”（即，在一个对话中交流理解）。具体地说，给定一个视频，由一系列QA对组成的对话历史，以及一个关于视频的后续问题，目标是推断一个自由形式的自然语言回答问题。近年来，基于视频的对话系统被提出来推进VQA以基于视频与人类进行有意义的对话。虽然最近的努力在提高反应的质量方面取得了很大的进展，但业绩仍然远远不能令人满意。目前的VGDS仍然面临以下两个挑战：（1）如何推导多模态间的指代关系；（2）如何在具有复杂时空动态的视频丰富的

2021-05-06 21:04:19 562

原创 UniVL: A Unifified Video and Language Pre-Training Model for Multimodal Understanding and Generation

动机随着近年来自然语言处理和图像语言任务的预训练技术的成功，一些视频语言预训练工作逐渐被开发出来，以改进视频文本相关的下游任务。多模态视频语言任务的研究和应用都具有重要的意义。近年来，针对多模态任务提出了许多视觉语言预训练模型。以往的模型大多只对模型进行理解任务上的预训练，这导致了生成任务的预训练与finetune不一致。与这些作品不同的是，作者专注于针对视频和文本预训练做统一表示。作者通过一个编码器-解码器范例，对理解任务和生成任务进行了预训练。虽然并发工作VideoAsMT具有与作者类似的编

2021-05-06 20:54:37 1606 1

原创 CVPR 2020 Knowledge-Based Video Question Answering with Unsupervised Scene Descriptions

动机在过去几年里，人工智能已经向类人推理方向取得了重大进展。这是通过模拟受限任务中的人类智能片段而实现的，在这些任务中，机器的性能很容易评估。在这些任务中，视频故事问答作为一个测试床出现，以近似真实世界的情况，其中不仅物体之间的空间关系是重要的，而且过去、现在和未来事件之间的时间一致性。为了理解电影，人们不断地对特定场景中的情节和动作进行推理，并将它们与已经看过的全部故事情节联系起来。受此启发，视频故事问答也需要利用视频故事的结构，不仅要考虑当前场景中发生的事情，而且要考虑在先前场景中获得的知识。之

2021-05-06 20:45:42 387

原创 CVPR 2021 VX2TEXT: End-to-End Learning of Video-Based Text Generation From Multimodal Inputs

动机人工智能的基本目标之一是开发能够可靠地理解现实世界并与人类进行网络语言交流的对话式多模态系统。近年来，通过采用大规模基准，评估解释视听信息和将这一理解转化为自然语言的能力，这一领域的进展取得了显著进展。主要任务包括用于图像或视频captioning、问题回答的数据集(QA)以及视听对话。为了在这样的基准上表现出色，该模型必须完成以下3个目标：（1）从每个模态中提取显著信息；（2）有效地组合不同的线索来处理给定的查询；（3）生成结果并以人类可理解的文本呈现。第一个通过系统消融经验地证明了与应用于

2021-05-06 20:37:07 865

原创 Self-supervised Pre-training and Contrastive Representation Learning for Multiple-choice Video QA

AAAI 2021 Self-supervised Pre-training and Contrastive Representation Learning for Multiple-choice Video QA动机视频问答（Video QA）需要对视频和语言模态的细粒度理解来回答给定的问题。与以往在视频问答中所做的工作（侧重于提取QA感知的视觉信息）相比，在本工作中，作者不仅关注多模态表征的学习，而且关注能够利用给定数据集的额外优势的训练过程，这样就可以最大限度地利用给定的数据。自监督学习的

2021-04-30 23:44:21 444 1

原创 CVPR 2021 AGQA: A Benchmark for Compositional Spatio-Temporal Reasoning

动机视觉事件是由一个涉及演员和物体的空间交互的时间动作组成的。人们对利用问答来实现视频推理能力的兴趣与日俱增。现有的视频问答基准是有用的，但它们往往将多个误差源混入一个准确性度量中，并且具有模型可以利用的强烈偏差，使得模型的弱点很难精确定位。对于现有的视频问答基准，由于答案分布的偏差和视觉事件发生的非均匀分布，模型可能会发展出“cheating”的方法，这种方法可以表面上猜测答案，而不学习潜在的合成推理过程。视觉领域只开发了使用静态图像或同步世界的组合问答基准，这些静态图像或同步世界要么不是时空

2021-04-29 23:10:04 742

原创 CVPR 2021 TrafficQA

TraffificQA: A Question Answering Benchmark and an Effificient Network forVideo Reasoning over Traffific Events动机视频中的交通事件认知与推理是一项非常重要的任务，在智能交通、辅助驾驶、自动驾驶等领域有着广泛的应用。设计良好的数据集对于开发、适应和评价不同的数据驱动的方法往往是至关重要的。有了数据集后，需要通过任务探索交通事件推理过程中复杂的因果结构。不同任务分别对应于不同的交通场景，以评

2021-04-28 21:53:32 969 4

原创 ACL 2020 TVQA+: Spatio-Temporal Grounding for Video Question Answering

动机基于图像的QA成功的一个关键是空间attention，而attention技术很难概括到视频的时间性。基于图像的视觉问答(QA)任务近年来取得了长足的进展。这一成功的一个关键是空间attention，其中神经模型学会关注相关区域以预测正确答案。与基于图像的QA相比，基于视频的QA任务在性能上的进步较小。一个可能的原因是attention技术很难概括到视频的时间性。而且，由于标注的成本很高，大多数现有的视频QA数据集只包含QA对，而没有为回答问题提供所需的关键剪辑或区域标签。受先前关于基于图像和视

2021-04-28 00:19:33 1139

原创 CVPR 2019 Progressive Attention Memory Network for Movie Story Question Answering

动机人类具有先天的认知能力，可以从不同的感觉输入中推断出5W和1H的问题，这些问题涉及who，what，when，where，why以及how，在机器上复制这种能力一直是人类的追求。近年来，关于问题回答（QA）的研究已成功地受益于深度神经网络，并显示出对textQA，imageQA，videoQA的显着改进。本文考虑了电影故事QA ，旨在通过观察与时间对齐的视频和字幕后回答有关电影内容和故事情节的问题，来共同理解视觉和语言。与VQA相比，电影故事问答具有两个方面的挑战性：（1）精确定位

2021-04-27 01:30:34 371

原创 ACL 2020 Dense-Caption Matching and Frame-Selection Gating for Temporal Localization in VideoQA

动机视频传递着丰富的信息。因此，开发能够从视频中自动提取各种信息的模型就显得尤为重要。最近几年，获取信息的方式发生了一种范式的转变，其中有很多与观看和收听通过互联网和新的高速网络大量分享的视频有关。视频传达了一种不同宽度的丰富信息，如人/物之间的动态时空关系，以及不同的多模态事件。因此，开发能够从视频中准确提取如此精确的多模态信息的自动化模型变得十分重要。在视频上回答问题是可以评估这种AI能力的任务之一。视觉/视频问答对具有综合智能的智能体来说是一项重要的能力。视频问答是一个具有代表性的人工

2021-04-25 23:44:29 370

原创 AAAI 2020 Segment-Then-Rank: Non-Factoid Question Answering on Instructional Videos

动机视频问答(QA)的数据集通常假设答案是一个基于简洁事实的简短文本。然而，对视频内容的非事实性QA研究相对较少。视频问答(QA)是NLP和计算机视觉领域的重要问题之一。最近，随着TVQA、TGIF-QA和MovieQA等各种数据集的创建，基于视频的QA技术得到了快速发展。然而，这些数据集通常假设答案是一个基于简洁事实的简短文本（例如，问题“鸟的颜色是什么？”可以用“白色”来回答），而用户可能希望对诸如“how”和“what“的问题提供更长的非事实性答案。然而，对视频内容的非事实性QA研究相对较少。

2021-04-25 00:10:06 242

原创 AAAI 2020 Reasoning with Heterogeneous Graph Alignment for Video Question Answering∗

动机视频问答（VideoQA）的推理通常涉及两个领域的异构数据，即时空视频内容和语言文字序列。现有的方法主要集中在多模态的表示和融合方面，在对齐和推理方面的研究还很少。近年来，多模态问答技术取得了显著进展，其中最具代表性的是视觉问答(VQA)和视频问答（VideoQA），其中VideoQA将VQA扩展到视频领域，对时空理解和推理提出了更高的要求。视频问答（VideoQA）旨在自动推理视频和文本问题的正确答案，近年来受到越来越多的关注。VideoQA的推理通常涉及两个领域的异构数据，即时空视频内容和语

2021-04-24 00:38:40 782

原创 AAAI 2020 Location-aware Graph Convolutional Networks for Video Question Answering

动机视频问答（Video QA）是计算机视觉领域的一个新兴课题，由于其在人工问答系统、机器人对话、视频检索等方面的广泛应用，近年来受到越来越多的关注。与深入研究的图像问答（Image QA）任务不同，图像问答任务侧重于理解静态图像，而视频问答更加实用，因为输入的视觉信息经常动态变化。与图像问答相比，视频问答更具有挑战性。（1）视频中的视觉内容更为复杂，因为它可能包含数千帧，如图1所示。更重要的是，一些框架可能被强大的背景内容所支配，而这些背景内容与问题无关。（2）视频中经常包含多种动作，但

2021-04-23 00:07:19 591

原创 Divide and Conquer:Question-Guided Spatio-Temporal Contextual Attention for Video Question Answering

动机理解问题和寻找答案的线索是视频问答的关键。VQA任务主要分为图像问答（Image QA）和视频问答（Video QA）两种，针对不同视觉材料的自然语言问题进行回答。通常，理解问题并在给定的视觉材料中找到问题答案的线索是VQA的关键。对于图像问答，在过去十年中，已经集中了大量的努力，专注于寻找融合视觉特征和语言特征的更好方法，帮助网络准确理解问题和视觉特征。注意力机制被用于告知神经网络“答案的线索在哪里”。视频问答需要同时在空间和时间两个维度上准确地判断问题的线索，因此与图像问答相比具有更强

2021-04-21 23:49:57 445

原创 EMNLP 2019 LXMERT: Learning Cross-Modality Encoder Representations from Transformers

动机视觉语言推理要求对视觉内容、语言语义以及跨模态的对齐和关系进行理解。过去已有大量的工作，分别开发具有更好的表示方法的骨干模型，用于语言和语音的单一模态。对于现有的视觉内容，人们已经开发了几个骨干模型，并在大型视觉数据集上显示了它们的有效性。开拓性工作还通过在不同任务上微调这些预训练的（特别是在ImageNet上）骨干模型来显示它们的泛化性。在语言理解方面，去年，本论文在构建具有大规模语境化语言模型预训练的通用背骨模型方面取得了强劲进展，这将各种任务的性能提高到了显著水平。尽管有这些影响较大的单模态研究

2021-04-20 01:28:31 447

原创 ICLR 2020 VL-BERT: PRE-TRAINING OF GENERIC VISUAL- LINGUISTIC REPRESENTATIONS

动机在视觉和文本领域，在一系列任务上通过预训练获得通用特征都取得了显著的成效。然而，在视觉-语言任务（V-L任务）中经过预训练的通用表示模型仍然匮乏(大部分是任务特定的模型)。对适用于一个领域中各种任务的通用特征表示进行预训练是深度网络成功的一个标志。首先，在计算机视觉领域，为ImageNet分类设计并预训练的主干网被发现能够有效地改进众多的图像识别任务。近年来，在自然语言处理(NLP)领域，Transformer网络在大型语言语料库excel上用“masked语言模型”(MLM)目标进行了多种NL

2021-04-20 01:26:17 622

原创 CVPR 2019 Fusion of Detected Objects in Text for Visual Question Answering

动机上下文信息对于多模态语境的影响，以及视觉-语言信息对视觉问答的影响。一个词的含义与它出现的上下文有系统和可预测的联系。不同的上下文概念导致了下游NLP任务的不同成功程度。包括Transformer和BERT在内的最近的神经结构显著提高了本论文包含潜在词汇提示的广泛窗口的能力。然而，同样的能力允许使用多模态语境，这可能有助于建模一般词语含义，并加深对语境中词语实例的理解。本论文研究了视觉语境对语言的影响，指出正确的视觉信息和语言信息的结合可以提高视觉问答的效果。面临的挑战。挑战是回答与给定

2021-04-17 23:25:28 327

原创 CVPR 2019 ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language

动机现存方法的两大局限性：视觉理解任务使用的主要策略是先基于其他大规模任务分别预训练视觉和语言模型，然后将其作为具体任务的一部分基础知识。然而，1）这种方案学习到的基础知识并不牢靠，当visiolinguistic data有限或者有偏时(biased)，模型的泛化能力很差。此外，2）在单模态数据上学习的近乎完美的表征，往往忽略了与其他模态之间的联系。比如，即使狗品种分类的视觉表征是完美的，但在下游任务中模型若无法将该视觉表征与形如"小猎犬"或"牧羊人"这样的近似短语进行关联，这种完美的视觉表征也是近乎

2021-04-17 01:23:24 988

原创 WACV 2020 BERT Representations for Video Question Answering

动机视觉问答(VQA)的重要性。自动回答问题被认为是智能系统的最高目标之一。为了实现这一目标，视觉问答(VQA)旨在通过提取语言内容（即问题）和视觉内容（即图像）中包含的语义信息来回答关于图像的问题。一种典型的VQA系统将图像和问题对作为输入，将它们的视觉和语言特征编码为高维向量，并使用attention机制对它们进行处理以预测正确答案。目前VQA框架的局限性。近几年来，VQA引起了人们的广泛关注，并取得了显著的进展。视觉问答(VQA)旨在回答关于图像或视频的视觉内容的问题。然而，目前的框架

2021-04-15 22:57:49 10472

原创 CVPR 2021 Less is More: CLIP BERT for Video-and-Language Learning via Sparse Sampling

动机视频和语言学习（如视频问答）的规范方法要求神经模型从离线提取的密集视频特征和语言模型的文本特征中学习。在这个互动的动态视觉世界中，人类通过语言、符号和图形相互交流。共同理解视觉和本线索是智能主体解读物理世界中多模态信号的必备能力。为了测试这种能力，已经设计了一系列基于真实视频的任务，包括文本到视频的重审、视频字幕、视频问题回答和视频时刻重复。处理这些跨模态任务的实际范例是首先从预训练的视觉模型中提取密集的视频特征，从预训练的语言模型中提取文本特征，然后应用多模态融合将这些固定的表征在共享的嵌入空间

2021-04-15 01:24:41 2673

原创 CVPR 2021 ViViT: A Video Vision Transformer

动机transformer的优势。自AlexNet以来，基于深度卷积神经网络的方法已经在许多标准数据集上提高了视觉问题的技术水平。同时，序列到序列建模（例如自然语言处理）中最突出的选择架构是transformer，它不使用卷积，而是基于多头自注意力。这个操作在建模长期依赖关系时特别有效，并且允许模型处理输入序列中的所有元素。这与卷积形成鲜明对比，卷积中相应的“感受野”是有限的并且随着网络的深度线性增长。由于transformer缺乏卷积的一些归纳偏好，它们似乎需要更多的数据或更强的正则化。N

2021-04-13 01:50:52 3592

原创 CVPR 2021 An Empirical Study of Training Self-Supervised Visual Transformers

动机transformer是一种有效的工具。transformer最初是为机器翻译而引入的，后来成为NLP的主干。由于语言的非局部性、关系自然性，这种长时的、自注意力的行为使transformer成为一种有效的工具。最近关于视觉transformer（ViT）的工作极大地推动了这一前沿。ViT纯粹是基于transformer的，而不是与非退化（即non-1×1）的卷积交织在一起的。本论文认为简单地比较自注意力和“卷积”是不精确的。根据定义，卷积有几个性质：权重共享，局部连接，平移同变性。

2021-04-12 00:11:08 1641

原创 CVPR 2021 Learning Spatio-Temporal Transformer for Visual Tracking

动机对于视觉目标跟踪，卷积核具有局部依赖而全局无关的缺陷。视觉目标跟踪是计算机视觉中的一个基础而又具有挑战性的研究课题。在过去的几年中，基于卷积神经网络的目标跟踪取得了令人瞩目的进展。然而，由于无论是在空间上还是在时间上卷积核只能处理一个局部邻域，因此不能很好地对图像内容和特征的长程关系进行建模。目前流行的跟踪器，包括离线Siamese跟踪器和在线学习模型，几乎都是建立在卷积运算基础上的。结果表明，这些方法只对图像内容的局部关系建模效果较好，而对长时全局交互的描述不能很好很好的建模。这种缺陷可能会降

2021-04-11 00:14:52 1879

原创 CVPR 2021 DELIGHT: DEEP AND LIGHT-WEIGHT TRANSFORMER

动机基于注意力的transformer网络被广泛用于序列建模任务，包括语言建模和机器翻译。为了提高性能，通常通过增加隐藏层的尺寸将模型缩放得更宽，或者通过堆叠更多的transformer块将模型缩放得更深。例如，T5使用65K的维度，GPT-3使用96个transformer块。然而，这样的缩放显著增加了网络参数的数量（例如，T5和GPT-3分别具有110亿和1750亿个参数），并使学习复杂化，即这些模型要么需要非常大的训练语料库，要么需要仔细的正则化。本论文提出了一种新的参数有效的基于注意力的体系结构，

2021-04-09 23:16:08 933 2

原创 CVPR 2021 TransGAN: Two Transformers Can Make One Strong GAN

动机GANs的训练不稳定性。生成性对抗性网络（GANs）在众多任务中获得了相当大的成功，包括图像合成，图像翻译和图像编辑。然而，由于GANs的训练不稳定性，即使目前已经投入很多努力来稳定GAN训练，彻底解决这个问题，需要做进一步研究。改进GAN的另一条平行途径是检查它们的神经结构。经过对GAN的大量研究，发现当充当（生成器）主干时，流行的神经架构在所考虑的数据集上表现得相当好。他们的消融研究表明，在ResNet家族结构中应用的大多数变化导致样本质量的微乎其微的改善。然而，之后有研究将神经结构

2021-04-09 00:30:13 1511

原创 CVPR 2021 Scaling Local Self-Attention for Parameter Effificient Visual Backbones

动机虽然自注意力是自然语言处理中的主要工作，但卷积在几乎所有的视觉模型中都是普遍存在的。卷积法体现了局部处理的原理，用来学习图像中大量存在的边缘、纹理等局部特征。另一方面，transformer展现了这种自注意力是一种有效的并计算上有效的机制，可以捕捉句子中单词之间的全局交互作用。自注意力在自然语言处理中的成功激发了对自注意力如何改善视觉的研究。自注意力有几个特性使其能很好地改进计算机视觉系统：(a)基于内容的交互，而不是与内容无关的卷积交互；(b)独立于参数的感受野大小的scaling，而不是依赖于

2021-04-08 00:29:23 3397 1

原创 CVPR 2021 OmniNet: Omnidirectional Representations from Transformers

动机提出了从transformer中学习全方位表示的方法。transformer以堆叠的自注意力模块和前馈transformer为特征，已经成为现代深度学习、自然语言处理甚至计算机视觉的主流方法。一个自注意力机制中的一个关键特征是全局感受野，其中每个token都可被序列中的其他token访问，促进全局上下文表征的学习。将全方位的注意力实现为一种元学习器的形式。学习全方位感受野是非常重要的，原因有两个。首先，给定点积注意力的二次复杂度，设计这样的感受野的复杂度从N2L增加到(NL)2，其中L是

2021-04-06 23:35:36 367

原创 CVPR 2021 Evolving Attention with Residual Convolutions

动机transformer是一种普遍存在的自然语言处理模型，在计算机视觉领域引起了广泛的关注。Transformer是用于序列建模的最先进的体系结构，它在自然语言理解、图像生成和时间序列预测等各种应用中实现了出色的性能。transformer模型的性能主要取决于其在输入token之间诱导合理注意力的能力。而注意力映射是在每一层中独立学习的，有时无法捕获精确的模式。注意力映射是transformer模型用来编码输入token之间的依赖关系的。然而，正如之前的一些著作所说明的那样，vanilla

2021-04-05 21:41:29 1016

原创 CVPR 2021 Incorporating Convolution Designs into Visual Transformers

动机纯粹transformer结构通常需要大量的训练数据或额外的监督，限制了它在计算资源有限或训练数据有标记的场景中的应用。由于transformer在自然语言处理(NLP)任务中的成功，出现了一些将transformer应用于视觉领域的尝试（如ViT和DeiT）。然而，纯粹transformer结构通常需要大量的训练数据或额外的监督，以获得与卷积神经网络(CNNs)相当的性能。视觉transformer(ViT)是第一个直接继承NLP的纯transformer结构，并应用于图像分类。与许多现有的C

2021-04-04 22:34:21 1655 1

原创 CVPR 2021 UniT: Multimodal Multitask Learning with a Unifified Transformer

动机transformer在包括但不限于自然语言、图像、视频和音频在内的广泛领域都显示出巨大的成功。前人的研究表明，在大型语料库中训练的transformer在一系列的下游语言任务中学习了强大的表征。在视觉领域中，基于transformer的模型在图像分类、目标检测和全景分割方面取得了非常不错的结果。除了对单个模态建模外，transformer模型在视觉问答等联合视觉和语言推理任务中也表现出很强的性能。将transformer应用于跨领域的不同任务。尽管将transformer应用于特定领域

2021-04-03 23:10:42 1503

空空如也

空空如也