【AI视野·今日NLP 自然语言处理论文速览第二十二期】Mon, 27 Sep 2021

最新推荐文章于 2022-11-10 16:54:44 发布

hitrjj

最新推荐文章于 2022-11-10 16:54:44 发布

阅读量370

点赞数

分类专栏： NLP Papers 文章标签：自然语言处理文本生成视觉图像处理视觉语言模型文本关系抽取

本文链接：https://blog.csdn.net/u014636245/article/details/120503748

版权

Papers 同时被 2 个专栏收录

458 篇文章 103 订阅

订阅专栏

NLP

79 篇文章 18 订阅

订阅专栏

AI视野·今日CS.NLP 自然语言处理论文速览
Mon, 27 Sep 2021
Totally 29 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Computation and Language Papers

Faithful Target Attribute Prediction in Neural Machine Translation
Authors Xing Niu, Georgiana Dinu, Prashant Mathur, Anna Currey
NMT 中使用的训练数据很少针对特定属性进行控制，例如单词大小写或性别，这可能会导致翻译错误。我们认为同时预测目标词和属性是确保翻译更忠实于这些属性的训练数据分布的有效方法。大写输入翻译和性别预测这两个任务的实验结果表明，该策略有助于反映测试中的训练数据分布。

GERNERMED -- An Open German Medical NER Model
Authors Johann Frei, Frank Kramer
与使用传统的、基于非结构化文本的患者数据文档相比，采用结构良好的电子健康记录和集成数字方法以结构化格式存储医疗患者数据的当前状态通常被认为是次要的。医学数据分析领域的数据挖掘往往需要单纯依靠对非结构化数据的处理来检索相关数据。在自然语言处理 NLP 中，统计模型已在词性标注、关系提取 RE 和命名实体识别 NER 等各种任务中取得成功。在这项工作中，我们提出了 GERNERMED，这是第一个用于 NER 任务的开放神经 NLP 模型，专门用于检测德语文本数据中的医疗实体类型。在这里，我们通过在自定义数据集上训练我们的模型来避免保护敏感患者数据免受训练数据提取和发布统计模型权重的冲突目标，该自定义数据集由预训练的神经机器翻译模型从公开可用的外语数据集翻译而来.

SAIS: Supervising and Augmenting Intermediate Steps for Document-Level Relation Extraction
Authors Yuxin Xiao, Zecheng Zhang, Yuning Mao, Carl Yang, Jiawei Han
从句子级到文档级关系提取，研究界面临着越来越多的文本长度和更复杂的实体交互。因此，对信息相关上下文和实体类型的关键来源进行编码更具挑战性。然而，现有方法仅在接受关系提取训练时隐式地学习对这些关键信息源进行建模。结果，他们面临监督无效和模型预测无法解释的问题。相比之下，我们建议通过监督和增加用于关系提取的中间步骤 SAIS，明确地教导模型捕获相关上下文和实体类型。基于广泛的精心设计的任务，我们提出的 SAIS 方法不仅由于更有效的监督而提取质量更好的关系，而且更准确地检索相应的支持证据以增强可解释性。通过评估模型的不确定性，SAIS 通过基于证据的数据增强和集成推理进一步提高了性能，同时降低了计算成本。

Text-based NP Enrichment
Authors Yanai Elazar, Victoria Basmov, Yoav Goldberg, Reut Tsarfaty
理解文本中由 NP 表示的实体之间的关系是人类自然语言理解的关键部分。然而，如今 NLP 任务和模型只涵盖了这些关系的一小部分。在这项工作中，我们建立了基于文本的 NP 丰富 TNE 的任务，即用所有介词介导的关系来丰富每个 NP 与文本中其他 NP 之间的关系。这些关系表示为三元组，每个表示两个通过介词连接的 NP。人类可以无缝地恢复这种关系，而当前最先进的模型由于问题的隐性性质而与之抗争。我们为该问题构建了第一个大规模数据集，提供了注释的形式框架和范围，分析了数据，并报告了对任务进行微调的神经语言模型的结果，展示了它对当前技术构成的挑战。

Progressive Adversarial Learning for Bootstrapping: A Case Study on Entity Set Expansion
Authors Lingyong Yan, Xianpei Han, Le Sun
Bootstrapping 已经成为实体集扩展的主流方法。传统的引导方法大多使用基于种子的距离度量来定义扩展边界，这在很大程度上取决于所选种子的质量，并且由于监督极其稀疏而难以调整。在本文中，我们提出了 BootstrapGAN，这是一种新的引导学习方法，它在 GAN 框架中联合建模引导过程和边界学习过程。具体来说，不同自举迭代的扩展边界是通过不同的判别器网络学习的，自举网络是生成新正实体的生成器，判别器网络通过尝试将生成的实体与已知的正实体区分开来识别扩展边界。通过迭代执行上述对抗性学习，生成器和鉴别器可以相互加强，并在整个引导过程中逐步完善。

SD-QA: Spoken Dialectal Question Answering for the Real World
Authors Fahim Faisal, Sharlina Keshava, Md Mahfuz ibn Alam, Antonios Anastasopoulos
问答 QA 系统现在可通过用于各种领域的众多商业应用程序获得，为数百万通过语音界面与之交互的用户提供服务。然而，当前 QA 研究中的基准没有考虑语音识别模型可能引入的错误，也没有考虑用户的语言变化方言。为了弥补这一差距，我们扩充了现有的 QA 数据集，以构建一个多方言、阿拉伯语、孟加拉语、英语、斯瓦希里语、韩语的多方言口语 QA 基准，其中包含来自 255 个说话者的 24 种方言的超过 68k 音频提示。我们提供了展示 QA 系统真实世界性能的基线结果，并分析了语言多样性和其他敏感的说话者属性对下游性能的影响。最后，我们研究了 ASR 和 QA 模型对于潜在用户群的公平性。

AraT5: Text-to-Text Transformers for Arabic Language Understanding and Generation
Authors El Moatez Billah Nagoudi, Muhammad Abdul Mageed, AbdelRahim Elmadany
使用统一的 Transformer 框架 T5 将所有语言问题转换为文本到文本格式的迁移学习最近被提出作为一种简单而有效的迁移学习方法。尽管已经推出了多语言版本的 T5 模型 mT5，但尚不清楚它在涉及不同数据的非英语任务上的表现如何。为了研究这个问题，我们将 mT5 应用于具有多种方言阿拉伯语的语言。对于评估，我们使用现有的阿拉伯语理解基准，并为阿拉伯语生成 ARGEN 引入新基准。我们还预训练了三个强大的阿拉伯语特定文本到基于 Transformer 的模型的文本，并在两个基准上对其进行评估。我们的新模型在阿拉伯语理解方面的表现明显优于 mT5，并超过了当前最先进的基于阿拉伯语 BERT 的模型 MARBERT。这些模型还在发电基准上设定了新的 SOTA。

Monolingual and Cross-Lingual Acceptability Judgments with the Italian CoLA corpus
Authors Daniela Trotta, Raffaele Guarasci, Elisa Leonardelli, Sara Tonelli
英语 CoLA 语料库的可用性极大地促进了语言可接受性自动化方法的发展，该语料库也已包含在广泛使用的 GLUE 基准中。然而，这种针对英语以外语言的研究以及跨语言方法的分析由于缺乏与其他语言相当的资源而受到阻碍。因此，我们开发了 ItaCoLA 语料库，其中包含近 10,000 个带有可接受性判断的句子，该语料库是按照与英语相同的方法和步骤创建的。在本文中，我们描述了语料库的创建，详细介绍了其内容，并介绍了对这一新资源的首次实验。我们比较域内和域外分类，并对九种语言现象进行特定评估。

Transformers Generalize Linearly
Authors Jackson Petty, Robert Frank
自然语言表现出分层管理的依赖模式，其中单词之间的关系对句法结构而不是线性排序敏感。虽然当前网络模型在对模糊数据进行训练时通常无法以对层次敏感的方式进行泛化，但在 2020 年对模糊数据进行训练时，更新的 Trans 前语言模型 Vaswani 等人，2017 年在一系列句法基准上的性能改进

Investigating Post-pretraining Representation Alignment for Cross-Lingual Question Answering
Authors Fahim Faisal, Antonios Anastasopoulos
人类知识以全世界大约 6500 种语言共同编码，但它在语言之间的分布并不均衡。因此，为了使信息搜索问答 QA 系统充分服务于所有语言的使用者，它们需要跨语言运行。在这项工作中，我们研究了多语言预训练语言模型在跨语言 QA 上的能力。我们发现通过事后微调步骤明确地对齐跨语言的表示通常会提高性能。我们还在这个微调步骤中研究了数据大小和语言选择的影响，还发布了一个用于评估跨语言 QA 系统的数据集。

Indirectly Supervised English Sentence Break Prediction Using Paragraph Break Probability Estimates
Authors Robert C. Moore
本报告探讨了使用段落中断概率估计来帮助预测英语自然语言文本中句子中断的位置。我们表明，几乎完全基于断句概率估计的断句预测器可以在此任务上实现高精度。这个断句预测器几乎完全是在大量自然发生的文本上训练的，没有断句注释，只需要少量的注释数据来调整两个超参数。我们还表明，如果将断句概率信号与在更大数量的断句注释数据上训练的支持向量机分类器相结合，则可以在域内和域外测试数据中获得更好的结果。

Unsupervised Translation of German--Lower Sorbian: Exploring Training and Novel Transfer Methods on a Low-Resource Language
Authors Lukas Edman, Ahmet st n, Antonio Toral, Gertjan van Noord
本文描述了格罗宁根大学为 WMT 2021 无监督机器翻译任务提交的系统背后的方法，该任务将德语下索布语 DE DSB 从一种高资源语言转换为一种低资源语言。我们的系统使用变压器编码器解码器架构，其中我们对标准训练程序进行了三处更改。首先，我们的培训一次侧重于两种语言，与对多语言系统的大量研究形成对比。其次，我们介绍了一种初始化未知语言词汇的新方法，实现了 DE rightarrow DSB 的 3.2 BLEU 和 DSB rightarrow DE 的 4.0 BLEU 的改进。最后，我们试验了使用离线和在线反向翻译来训练无监督系统的顺序，发现首先使用在线反向翻译对 DE rightarrow DSB 效果更好，比 2.76 BLEU。

Separating Retention from Extraction in the Evaluation of End-to-end Relation Extraction
Authors Bruno Taill , Vincent Guigue, Geoffrey Scoutheeten, Patrick Gallinari
最先进的 NLP 模型可以采用限制其泛化能力的浅层启发式方法，McCoy 等人，2019 年。这种启发式方法包括与命名实体识别 Taill 等人，2020 年中的训练集的词汇重叠和关系提取 Rosenman 等人，2020 年中的事件或类型启发式。在更现实的端到端 RE 设置中，我们可以期待另一种启发式方法，即仅保留训练关系三元组。在本文中，我们提出了几个实验，证实已知事实的保留是标准基准测试性能的关键因素。

Rethinking Crowd Sourcing for Semantic Similarity
Authors Shaul Solomon, Adam Cohn, Hernan Rosenblum, Chezi Hershkovitz, Ivan P. Yamshchikov
语义相似度的估计对于各种自然语言处理 NLP 任务至关重要。在缺乏语义信息的一般理论的情况下，许多论文依赖人类注释器作为语义相似性估计的基本事实来源。本文研究了众包语义标签中固有的歧义。这表明将语义相似性视为二元类别的注释器在标记中起着最重要的作用，两个句子要么相似，要么不相似，并且没有中间立场。

Robustness and Sensitivity of BERT Models Predicting Alzheimer's Disease from Text
Authors Jekaterina Novikova
了解从文本中预测阿尔茨海默病的 BERT 模型的稳健性和敏感性对于开发更好的分类模型以及理解它们的能力和局限性都很重要。在本文中，我们分析了受控数量的期望和不期望的文本更改如何影响 BERT 的性能。我们表明 BERT 对文本中的自然语言变化具有鲁棒性。

A Diversity-Enhanced and Constraints-Relaxed Augmentation for Low-Resource Classification
Authors Guang Liu, Hailong Huang, Yuzhao Mao, Weiguo Gao, Xuan Li, Jianping Shen
数据增强 DA 旨在生成受约束和多样化的数据，以改进低资源分类 LRC 中的分类器。以前的研究大多使用微调的语言模型 LM 来加强约束，但忽略了多样性的潜力可以提高生成数据的有效性的事实。在LRC中，DA中约束强但多样性弱，导致分类器泛化能力差。为了解决这个困境，我们提出了一个 Diversity Enhanced 和 Constraints R elaxed Augmentation Augmentation DECRA。我们的 DECRA 在基于变压器的主干模型之上有两个基本组件。 1 A k beta 增强是 DECRA 的重要组成部分，旨在增强生成受限数据的多样性。它扩大了变化范围，提高了生成数据的复杂程度。 2 掩码语言模型损失，而不是微调，被用作正则化。它放宽了约束，以便可以使用更分散的生成数据来训练分类器。这两个组件的组合生成可以达到或接近类别边界的数据，从而帮助分类器更好地泛化。我们在低资源设置下的三个公共基准数据集上评估我们的 DECRA。

How Does Knowledge Graph Embedding Extrapolate to Unseen Data: a Semantic Evidence View
Authors Ren Li, Yanan Cao, Qiannan Zhu, Guanqun Bi, Fang Fang, Yi Liu, Qian Li
知识图嵌入 KGE 旨在学习实体和关系的表示。大多数 KGE 模型都取得了巨大的成功，尤其是在外推场景中。具体来说，给定一个看不见的三元组 h, r, t ，经过训练的模型仍然可以根据 h, r, 或 h 从 , r, t 正确预测 t，这种外推能力令人印象深刻。然而，大多数现有的 KGE 工作都集中在精细的三元建模函数的设计上，主要告诉我们如何测量观察到的三元组的似然性，但我们对为什么这些方法可以外推到看不见的数据以及重要的因素有哪些理解有限帮助 KGE 推断。因此，在这项工作中，我们试图从数据相关的角度研究 KGE 外推两个问题 1. KGE 如何外推到看不见的数据 2. 如何设计具有更好外推能力的 KGE 模型对于问题 1，我们首先讨论外推的影响因素分别来自关系、实体和三重级别，提出了三个语义证据 SE，可以从训练集中观察到，并为外推到看不见的数据提供重要的语义信息。然后我们通过对几种典型 KGE 方法的大量实验验证了 SE 的有效性，并证明了 SE 在理解 KGE 外推能力方面起着重要作用。对于问题 2，为了更好地利用 SE 信息进行更多的外推知识表示，我们提出了一种新的基于 GNN 的 KGE 模型，称为语义证据感知图神经网络 SE GNN。

Lacking the embedding of a word? Look it up into a traditional dictionary
Authors Elena Sofia Ruzzetti, Leonardo Ranaldi, Michele Mastromattei, Francesca Fallucchi, Fabio Massimo Zanzotto
词嵌入是功能强大的词典，可以轻松捕获语言变体。然而，这些词典无法解释生僻词，令人惊讶的是，这些词经常被传统词典所覆盖。在本文中，我们建议使用在传统词典中检索到的定义来为稀有词生成词嵌入。为此，我们介绍了两种方法 Definition Neural Network DefiNNet 和 Define BERT DefBERT 。在我们的实验中，DefiNNet 和 DefBERT 显着优于现有技术以及为生成未知单词嵌入而设计的基线方法。事实上，DefiNNet 的性能明显优于 FastText，后者基于 ngram 为相同的任务实现了一种方法，而对于 OOV 词，DefBERT 的性能明显优于 BERT 方法。

DACT-BERT: Differentiable Adaptive Computation Time for an Efficient BERT Inference
Authors Crist bal Eyzaguirre, Felipe del R o, Vladimir Araujo, lvaro Soto
大规模预训练语言模型在各种 NLP 应用中显示出显着的效果。不幸的是，这些性能提升伴随着计算时间和模型大小的显着增加，强调需要开发新的或补充的策略来提高这些模型的效率。在本文中，我们提出了 DACT BERT，这是一种适用于 BERT 类模型的可微自适应计算时间策略。 DACT BERT 在 BERT 的常规处理流水线中添加了自适应计算机制，该机制控制推理时需要执行的 Transformer 块的数量。通过这样做，模型学习为手头的任务组合最合适的中间表示。

AES Are Both Overstable And Oversensitive: Explaining Why And Proposing Defenses
Authors Yaman Kumar Singla, Swapnil Parekh, Somesh Singh, Junyi Jessy Li, Rajiv Ratn Shah, Changyou Chen
各州和语言测试机构都积极使用基于深度学习的自动论文评分 AES 系统来评估数百万候选人，以做出改变人生的决定，从大学申请到签证批准。然而，很少有研究去理解和解释基于深度学习的评分算法的黑盒性质。先前的研究表明，评分模型很容易被愚弄。在本文中，我们探讨了它们令人惊讶的对抗性脆弱性背后的原因。我们利用可解释性方面的最新进展来确定连贯性、内容、词汇和相关性等特征对自动评分机制的重要程度。我们用它来研究过度敏感性，即输出分数的大变化而输入文章内容的微小变化和过度稳定性，即输出分数的变化很小，而 AES 的输入文章内容的大变化。我们的结果表明，尽管自动评分模型被训练为具有丰富上下文嵌入（如 BERT）的端到端模型，但其行为类似于词袋模型。几个词决定了论文分数，而不需要任何上下文，这使得模型在很大程度上过于稳定。这与最近对预训练表征学习模型的探索性研究形成鲜明对比，后者表明丰富的语言特征，如词性和形态学是由它们编码的。此外，我们还发现模型学习了数据集偏差，使它们变得过于敏感。为了解决这些问题，我们提出了基于检测的保护模型，该模型可以以高精度检测引起过度敏感和过度稳定的样本。

Detect and Perturb: Neutral Rewriting of Biased and Sensitive Text via Gradient-based Decoding
Authors Zexue He, Bodhisattwa Prasad Majumder, Julian McAuley
书面语言带有显性和隐性偏见，可能会分散对有意义信号的注意力。例如，推荐信可能对男性和女性候选人的描述不同，或者他们的写作风格可能会间接揭示人口统计特征。充其量，这种偏见会分散对文本有意义的内容的注意力，最坏的情况是它们会导致不公平的结果。我们研究了重新生成输入句子以消除敏感属性同时保持原始文本语义的挑战，例如候选人是否合格。我们提出了一个基于梯度的重写框架，Detect and Perturb to Neutralize DEPEN，它首先检测敏感组件并屏蔽它们以进行再生，然后在解码时在中和约束下扰动生成模型，将敏感属性的预测分布推向均匀分布.

Simple and Effective Zero-shot Cross-lingual Phoneme Recognition
Authors Qiantong Xu, Alexei Baevski, Michael Auli
自训练、自监督预训练和无监督学习的最新进展使语音识别系统性能良好，无需任何标记数据。然而，在许多情况下，这些方法没有使用相关语言的标记数据。本文通过微调多语言预训练的 wav2vec 2.0 模型来转录看不见的语言，从而扩展了之前在零样本跨语言迁移学习方面的工作。这是通过使用发音特征将训练语言的音素映射到目标语言来完成的。

Revisiting the Uniform Information Density Hypothesis
Authors Clara Meister, Tiago Pimentel, Patrick Haller, Lena J ger, Ryan Cotterell, Roger Levy
统一信息密度 UID 假设假定语言用户对结构化话语的偏好，使得信息在信号中均匀分布。虽然它对语言产生的影响已经得到了很好的探索，但该假设也可能对语言理解和语言可接受性做出预测。此外，不清楚应该如何衡量语言信号的一致性或缺乏一致性，以及这种一致性应该保持在哪个语言单位，例如句子或语言级别。在这里，我们使用阅读时间和可接受性数据调查 UID 假设的这些方面。虽然我们的阅读时间结果与之前的工作基本一致，但它们也与 surprisal 的弱超线性效应一致，这将与 UID 的预测兼容。对于可接受性判断，我们发现更明确的证据表明信息密度的不均匀性预示着较低的可接受性。然后，我们探索 UID 的多种操作，其动机是对原始假设的不同解释，并分析施加一致性压力的范围。提议的操作化子集的解释力表明，最强的趋势可能是回归到跨语言的平均惊喜，而不是支持 UID 典型解释的短语、句子或文档，即它是

iFacetSum: Coreference-based Interactive Faceted Summarization for Multi-Document Exploration
Authors Eran Hirsch, Alon Eirew, Ori Shapira, Avi Caciularu, Arie Cattan, Ori Ernst, Ramakanth Pasunuru, Hadar Ronen, Mohit Bansal, Ido Dagan
我们介绍了 iFacetSum，一个用于探索主题文档集的 Web 应用程序。 iFacetSum 通过提供一种新颖的分面导航方案，为用户的选择生成抽象摘要，将交互式摘要与分面搜索集成在一起。这种方法既提供了全面的概述，也提供了有关所选子主题的简明细节。细粒度方面是基于跨文档共参考管道自动生成的，呈现源文本中出现的通用概念、实体和语句。

Document Automation Architectures and Technologies: A Survey
Authors Mohammad Ahmadi Achachlouei, Omkar Patil, Tarun Joshi, Vijayan N. Nair
本文调查了文档自动化 DA 的当前技术水平。 DA 的目标是通过自动集成来自不同来源的输入并组装符合定义模板的文档来减少文档生成过程中的手动工作。已经对 DA 的商业解决方案进行了评论，特别是在法律领域，但迄今为止，还没有对 DA 架构和技术的学术研究进行全面回顾。当前对 DA 的调查回顾了学术文献，对 DA 及其特征进行了更清晰的定义和表征，确定了学术研究中最先进的 DA 架构和技术，并提供了可以在 DA 领域内带来新研究机会的想法

CSAGN: Conversational Structure Aware Graph Network for Conversational Semantic Role Labeling
Authors Han Wu, Kun Xu, Linqi Song
会话语义角色标记CSRL被认为是实现对话理解的关键一步。然而，现有的CSRL解析器处理会话结构信息仍然是一个主要挑战。在本文中，我们提出了一种简单有效的 CSRL 架构，旨在解决这个问题。我们的模型基于对话结构感知图网络，该网络显式编码说话者相关信息。我们还提出了一种多任务学习方法来进一步改进模型。

CLIPort: What and Where Pathways for Robotic Manipulation
Authors Mohit Shridhar, Lucas Manuelli, Dieter Fox
我们如何才能让机器人具备精确操纵物体的能力，同时还能根据抽象概念对它们进行推理？最近的操纵工作表明，端到端网络可以学习需要精确空间推理的灵巧技能，但这些方法往往无法推广到新目标或快速学习跨任务的可转移概念。同时，通过对大规模互联网数据进行训练，在学习视觉和语言的可概括语义表示方面取得了很大进展，但是这些表示缺乏细粒度操作所需的空间理解。为此，我们提出了一个框架，它结合了两个世界中最好的两个流体系结构与语义和空间路径，用于基于视觉的操作。具体来说，我们提出了 CLIPort，这是一种语言条件模仿学习代理，它结合了 CLIP 1 的广泛语义理解和 Transporter 2 的空间精度 where。我们的端到端框架能够解决各种语言指定的桌面任务，从打包看不见的物体到折叠布料，所有这些任务都没有任何物体姿势、实例分割、记忆、符号状态或句法结构的明确表示。在模拟和现实世界设置中的实验表明，我们的方法在少数镜头设置中具有数据效率，并且可以有效地推广到可见和不可见的语义概念。

CPT: Colorful Prompt Tuning for Pre-trained Vision-Language Models
Authors Yuan Yao, Ao Zhang, Zhengyan Zhang, Zhiyuan Liu, Tat Seng Chua, Maosong Sun
预训练的视觉语言模型 VL PTM 在图像数据中的自然语言基础方面显示出有前途的能力，促进了广泛的跨模式任务。然而，我们注意到模型预训练和微调的目标形式之间存在显着差距，导致需要大量标记数据来刺激 VL PTM 对下游任务的视觉基础能力。为了应对这一挑战，我们提出了 Cross modal Prompt Tuning CPT，或者，Colorful Prompt Tuning，这是一种用于调整 VL PTM 的新范式，它最大限度地将视觉基础重新构建为在图像和文本中使用基于颜色的共指标记填充空白问题缩小差距。通过这种方式，我们的快速调整方法可以实现 VL PTM 的强大的少镜头甚至零镜头视觉接地能力。综合实验结果表明，在 RefCOCO 评估中，即时调整的 VL PTM 的性能大大优于其微调的对应物，例如，17.3 的绝对精度提高和 73.8 的平均相对标准偏差降低。

Dense Contrastive Visual-Linguistic Pretraining
Authors Lei Shi, Kai Shuang, Shijie Geng, Peng Gao, Zuohui Fu, Gerard de Melo, Yunpeng Chen, Sen Su
受 BERT 成功的启发，已经提出了几种联合表示图像和文本的多模态表示学习方法。这些方法通过从大规模多模态预训练中捕获高级语义信息来实现卓越的性能。特别是LXMERT和UNITER采用视觉区域特征回归和标签分类作为借口任务。然而，基于在众包数据集上预训练的视觉特征具有有限且不一致的语义标签，它们往往会遇到标签嘈杂和语义注释稀疏的问题。为了克服这些问题，我们提出了无偏的密集对比视觉语言预训练 DCVLP，它用不需要注释的跨模态区域对比学习代替了区域回归和分类。开发了两种数据增强策略 Mask Perturbation 和 Intra Inter Adversarial Perturbation 来提高对比学习中使用的负样本的质量。总体而言，DCVLP 允许在独立于任何对象注释的自监督设置中进行跨模态密集区域对比学习。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com

hitrjj

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【AI视野·今日NLP 自然语言处理论文速览第二十二期】Mon, 27 Sep 2021

AI视野·今日CS.NLP 自然语言处理论文速览Mon, 27 Sep 2021Totally 29 papers????上期速览✈更多精彩请移步主页Daily Computation and Language PapersFaithful Target Attribute Prediction in Neural Machine Translation Authors Xing Niu, Georgiana Dinu, Prashant Mathur, Anna CurreyNMT
复制链接

扫一扫