FlipDA:有效且稳健的数据增强小样本学习、开放域低资源适应的生成式聊天机器人

超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第21期《预训练周刊》,从论文推荐、研究动态等维度推荐近期发生在预训练模型领域值得关注的信息。

本期周刊,我们选择了10篇预训练相关的论文,涉及提取式问答、数据增强、开放域聊天、语言模型训练、抗体设计、蛋白质结构设计、蛋白结构表示、变换器综述、机器翻译和知识增强预训练的探索。此外,在研究动态方面,我们选择了3篇预训练资讯,将介绍预训练卷积、人脸识别和预训练方法等方面的一些最新内容。

周刊采用社区协作的模式产生,欢迎感兴趣的朋友们参与我们的工作,一起来推动预训练学习社群的分享、学习和交流活动。可以扫描文末的二维码加入预训练群。
(本期贡献者:申德周 翟珂 吴新刚)

本文来源:智源社区

论文推荐

标题:特拉维夫大学、脸书|How Optimal is Greedy Decoding for Extractive Question Answering?(提取式问答的贪婪解码有多好?)

论文地址:https://www.aminer.cn/pub/6116039f5244ab9dcb6c444d?f=cs

代码地址:https://github.com/ocastel/exact-extract

推荐理由:作者提出的精确提取算法在多项问答数据集中取得接近最优效果

简介:微调的语言模型使用贪婪解码来相对成功地回答阅读理解问题。但是,这种方法并不能确保答案是在给定的段落中的短句,也不保证它是最可能的。做贪婪解码实际上比段落提取算法差吗?研究最优性贪婪解码和性能,我们提出"精确提取",一种解码算法,可以有效地找到文章中最可能的答案跨度。我们比较T5与两种解码算法在零样本和少样本上的抽取式问答性能,当没有训练样本时,精确提取明显优于贪婪解码;然而,有可用的训练样本时,引入一些训练示例贪婪解码迅速收敛到精确提取的性能,随着训练集增长,贪婪解码变得更具提取性,并且越来越有可能生成最可能的跨度。我们还表明,自我监督训练可以使模型偏向于提取行为,提高性能零样本设置而不求助于带注释的示例。总的来说,我们的结果表明预训练的语言模型非常擅长自适应抽取式问答,即通常对贪婪算法的小型训练集进行微调就满足最优解码策略。

标题:清华|FlipDA: Effective and Robust Data Augmentation for Few-Shot Learning(FlipDA:有效且稳健的数据增强小样本学习)

论文地址:https://www.aminer.cn/pub/6119e5ac5244ab9dcb89133f?f=cs

代码地址:https://github.com/zhouj8553/FlipDA

推荐理由:自然语言理解方面的数据增强算法,取得了大部分测评的最佳效果

简介:大多数以前的文本数据增强方法仅限于简单的任务和弱基线。我们探索了困难任务的数据增强和强基线(即具有超过一个亿参数的预训练模型)。在这个设定下,我们调研了大量以前的增强方法,并发现这些方法最多只能带来边际收益,甚至有时会大大降低性能。为了应对这一挑战,我们提出了一种新的数据增强方法FlipDA,它联合使用生成模型和分类器来生成标签翻转数据。FlipDA理念的核心是发现生成标签翻转数据对性能更重要而不是生成标签保留的数据。实验表明,FlipDA实现了有效性和稳健性之间的良好折衷——它大大提高了许多任务的性能,同时不会对其他任务产生负面影响。

标题:苹果、布朗大学、亚马逊|Low-Resource Adaptation of Open-Domain Generative Chatbots(开放域低资源适应的生成式聊天机器人)

论文地址:https://www.aminer.cn/pub/6119e5ac5244ab9dcb89133d?f=cs

代码地址:https://github.com/facebookresearch/ParlAI

推荐理由:在开放式对话领域,减少了90%参数量,同时维持大模型效果

简介:在构建开放域聊天机器人领域,最近的工作已经证明增加模型大小可以提高性能。另一方面,延迟和连接性方面的考虑决定了数字助理在设备上的便携性。像Siri、Alexa或Google Assistant一样讨论任何事情的能力的数字助理需要减少聊天机器人模型的大小。我们证明了低参数模型可以同时保持他们的一般知识会话能力,同时提高特定的领域效果。此外,我们提出了一个通用的考虑到问题类型的多样性、在多轮对话中跟踪参考并消除不一致的框架和潜在的毒性反应。我们的框架在聊天之间无缝转换并执行事务性任务,这将最终使与数字助理的交互更加人性化。我们根据1个内部基准和4个公共基准评估我们的框架使用混淆度和人类评估指标并建立可比较的性能,同时将模型参数减少90%。

标题:谷歌|Large-Scale Differentially Private BERT(大规模差分私有BERT)

论文地址:https://www.aminer.cn/pub/610a4f805244ab9dcbc815aa?f=cs

推荐理由:我们在软件和硬件方面取得了最新进展并为使用差分私有的BERT-Large预训练建立基线。该模型通过将批量大小扩展到数百万个实例并使用其他优化,例如提高标准化层下网络的可训练性和测量梯度信噪比度量,实现了高精度。

简介:在这项工作中,我们研究了具有差分私有SGD(DP-SGD)的BERT-Large的大规模预训练。结合仔细的实施,将批次大小扩大到数百万提高了DP-SGD的BERT效用;我们还通过增加批次大小计划来提高其效率。我们的实现建立在最近的工作之上,有的学者证明了通过有效使用JAX原语,结合XLA编译器,最小化DP-SGD步数的降低开销。我们的实现在2M的批次大小下实现了60.5%的掩码语言模型准确率,损失为5.36。正确看待此数字,非私有BERT模型的准确率约为70%。

标题:清华、伊利诺伊香槟分校 | Deep geometric representations for modeling effects of mutations on protein-protein binding affinity (用于建模突变对蛋白质-蛋白质结合亲和力影响的深度几何表征)

论文地址:https://www.aminer.cn/pub/610d12b95244ab9dcb7f3ddc?f=cs

推荐理由:自监督图神经网络提取蛋白表征

简介:模拟氨基酸突变对蛋白质-蛋白质相互作用的影响在蛋白质工程和药物设计中起着关键作用。本文开发了GeoPPI,一个基于结构的深度学习框架来预测突变后的结合亲和力的变化。基于蛋白质的三维结构,GeoPPI首先通过自监督的学习方案,学习编码蛋白质结构拓扑特征的几何表征。然后,这些表征被用作训练梯度增强树的特征,以预测突变后蛋白质-蛋白质结合亲和力的变化。通过实验,作者发现GeoPPI在预测六个基准数据集的单点和多点突变后的结合亲和力变化方面取得了新的先进性能。另外,本文表明GeoPPI可以准确地估计最近发现的几种SARS-CoV-2抗体与S蛋白的受体结合域之间的结合亲和力差异。

标题:NIT Trichy、Nference | AMMUS : A Survey of Transformer-based Pretrained Models in Natural Language Processing (AMMUS:自然语言处理中基于Transformer的预训练模型综述)

论文地址:https://www.aminer.cn/pub/61163b659e795e94de91b49b?f=cs

推荐理由:基于Transformer的NLP预训练综述

简介:基于Transformer的预训练语言模型已经在几乎所有的NLP任务中取得了巨大的成功,这些模型的演变始于GPT和BERT等建立在Transformer、自监督学习和迁移学习之上的模型。基于Transformer的预训练语言模型利用自监督学习从大量的文本数据中学习通用语言表征,并将这些知识迁移到下游任务中。在这篇全面的调研报告中,作者首先对自监督学习进行了简要概述。接下来,解释了各种核心概念,如预训练、预训练方法、预训练任务、嵌入和下游自适应方法。最终本文提出了一个新的预训练模型分类法,然后简要介绍了各种基准,包括内在的和外在的。本文同时总结了各种有用的库来处理预训练模型。

标题:ACL 2021|腾讯AI Lab、港中文:用单语记忆实现高性能神经机器翻译(NMT)

论文地址:https://www.aminer.cn/pub/60acd92891e011a83767370d?f=cs

推荐理由:提出了一种改善双语语料库作为翻译记忆库的新方法,使用单语记忆并以跨语言方式执行可学习的记忆检索。

简介:与使用双语语料库作为翻译记忆库(TM)并采用源端相似性搜索进行记忆检索的现有工作相比,腾讯AI Lab与香港中文大学提出了一种新框架,该框架使用单语记忆并以跨语言方式执行可学习的记忆检索。该研究首先将翻译任务转化为两步过程:检索和生成,并在论文中描述了跨语言记忆检索模型和记忆增强型翻译模型的模型设计。最后,该论文展示了如何使用标准最大似然训练联合优化这两个组件,并通过交叉对齐预训练解决了冷启动问题。值得注意的是,即使不使用额外单语数据,这种方法也要优于使用双语TM的基线方法。由于能够利用单语数据,该研究还证明了所提模型在低资源和领域适应场景中的有效性。

标题:谢菲尔德大学、杜汉姆大学|ExBERT:外部知识增强型的自然语言推理

论文地址:https://www.aminer.cn/pub/610a4cac5244ab9dcbc624f7?f=cs

推荐理由:为自然语言推理(NLI)引入外部知识的预训练模型

简介:在大规模非结构化语料库上预先训练的神经语言表示模型缺乏对现实世界常识知识的明确基础,通常无法记住推理和推理所需的事实。我们为NLI引入了一种称为外部知识增强型BERT新模型:ExBERT,以使用来自外部知识源的现实世界常识知识来丰富上下文表示,并增强BERT的语言理解和推理能力。ExBERT充分利用从BERT获得的上下文词表示,并利用从知识图中检索相关的外部知识并对检索到的外部知识进行编码。该模型自适应地结合了对输入进行推理所需的外部知识上下文。在具有挑战性的SciTail和SNLI基准上进行的大量实验证明了ExBERT的有效性:与之前的最新技术相比,我们在SciTail上获得了95.9%的准确率,在SNLI上获得了91.5%的准确率。

研究动态

标题:NLP任务非Transformer不可?谷歌大规模研究发现预训练卷积模型往往更优

简介:在当前NLP领域,基于Transformer的模型可谓炙手可热,其采用的大规模预训练方法已经为多项自然语言任务的基准带来了实质性的提升,也已经在机器翻译等领域得到了实际应用。但之前却很少有研究者思考:预训练是否也能提升卷积在NLP任务上的效果?近日,资源雄厚的Google Research的一项大规模实证研究填补了这一空白。结果发现,在许多NLP任务上,预训练卷积模型并不比预训练Transformer模型更差。

论文链接:https://www.aminer.cn/pub/6099052391e011aa8bcb6e79?f=cs

标题:基于人脸图像复原和人脸转正联合模型的人脸识别方法

简介:在现实生活中许多因素可能会影响人脸识别系统的识别性能。为了应对这些挑战,之前的人脸识别方法通常先把低质量的人脸图像恢复成高质量人脸图像,然后进行人脸识别。但这些方法大多是阶段性的、不是最优方案。本文中提出一种多退化因子的人脸复原模型MDFR,来一次性解决所有的这些影响因素。MDFR可以从给定的多姿态、多重低质量因素影响的人脸图像中复原其高质量的正面人脸图像。MDFR是一个设计良好的编码器-解码器网络结构。在模型的构建中,作者引入了姿态残差学习策略,以及一个基于3D的姿势归一化模块PNM,该模块可以感知输入人脸姿态和正面人脸姿态之间的差异,以此差异来指导人脸的转正学习。实验表示,训练完成之后的MDFR可以通过一个单一化的网络,一次性地从多重低质量因素影响的侧面人脸图像中恢复其高清的正面人脸图像,并有效的提高人脸算法的识别率。

论文链接:https://www.aminer.cn/pub/60a7a2c491e011f90a51ded7?f=cs

标题:ACL2021|多粒度输入信息不降低推理速度,腾讯看点和阿尔伯塔大学提出高效预训练方法LICHEE

简介:现有的预训练语言模型大多是基于单粒度训练而成的,通常伴随细粒度的字符或sub-word,这使其很难学习粗粒度词汇和短语的准确含义。为了得到更加准确的模型,部分研究者试图通过在预训练阶段mask连续token的序列,将粗粒度信息纳入到用细粒度分词训练的模型中。还有研究者提出了一种可以处理多粒度输入文本的模型AMBERT:利用两个具有共享权重的编码器将细粒度token和粗粒度token分别编码为两个上下文表示序列。AMBERT效果尚可、但推理成本却比原始BERT高了约一倍,这在业界的很多场景下都是不可接受的。在本文提出了一种简单但高效的预训练方法:荔枝LICHEE。该方法可以在预训练阶段有效利用多种粒度的输入信息来增强预训练语言模型的表示能力。

论文链接:https://www.aminer.cn/pub/6103d7ba91e01159791b20de?f=cs

AI赋能的科技情报挖掘系统(AMiner - AI赋能科技情报挖掘)

AMiner是一个科技情报分析与挖掘平台,利用AI为用户高效获取和理解科研情报,内容囊括论文、学者、专利、报告、会议、专题集等多种形式,涵盖计算机科学、医学、通信、地学、物理等40个学科,通过智能推荐引擎、搜索引擎、关注订阅等获取想要的知识。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值