《预训练周刊》第20期：EVA：包含28亿参数的中文预训练对话模型、基于知识融入提示词的文本分类...

智源社区

于 2021-08-14 12:21:01 发布

阅读量1.5k

点赞数

文章标签：大数据编程语言 python 计算机视觉机器学习

原文链接：http://forms.baai.ac.cn/f/clC1l5

版权

No.20

智源社区

预训练组

预

训

练

研究

观点

资源

活动

关于周刊

超大规模预训练模型是当前人工智能领域研究的热点，为了帮助研究与工程人员了解这一领域的进展和资讯，智源社区整理了第20期《预训练周刊》，从论文推荐、研究动态、资源推荐等维度推荐近期发生在预训练模型领域值得关注的信息。

本期周刊，我们选择了14篇预训练相关的论文，涉及图像生成、人脸识别、图像分类、开放域问答、时间序列生成、文本分类、中文对话、元学习、阿拉伯语情绪分析、心理治疗、课程学习、基因分析、蛋白质预测和结构预测的探索。此外，在研究动态方面，我们选择了2篇预训练资讯，将介绍模型压缩和医疗图谱等方面的一些最新内容。最后，在资源推荐方面，我们选择了1篇内容，将介绍持续学习等方面的一些最新内容。

周刊采用社区协作的模式产生，欢迎感兴趣的朋友们参与我们的工作，一起来推动预训练学习社群的分享、学习和交流活动。可以扫描文末的二维码加入预训练群。

（本期贡献者：申德周翟珂吴新刚）

论文推荐

标题：首尔国立大学、三星|Toward Spatially Unbiased Generative Models（走向空间无偏生成模型）了解详情

推荐理由：该工作消除了图像生成模型中的空间偏好，取得比当前有空间偏好的生成模型更好的效果

简介：最近的图像生成模型显示出卓越的生成性能。然而，它们反映了数据集中的强大的位置偏好，我们称之为空间偏差。我们认为生成器依靠其隐式位置编码来呈现空间内容。根据我们的观察，生成器的隐式位置编码是平移变量，使生成器在空间上有偏见。为了解决这个问题，我们提出在每个尺度显式将位置编码注入生成器。通过学习空间无偏生成器，我们促进了在多个任务中使用生成器的鲁棒性，例如GAN反演，多尺度生成，任意大小的生成和纵横比。此外，我们的方法也适用于去噪扩散概率模型。

代码下载：https://github.com/jychoi118/toward_spatial_unbiased

论文下载：https://arxiv.org/pdf/2108.01285v1.pdf

标题：卡内基梅隆、剑桥、马克斯普朗克智能系统研究所等|SphereFace2: Binary Classification is All You Need for Deep Face Recognition（SphereFace2：二元分类是深度人脸识别所需的）了解详情

推荐理由：人脸识别新范式，利用二分类取代多分类算法，是当前先进的人脸识别算法。

简介：最先进的深度人脸识别方法主要是使用基于softmax的多类分类框架进行训练。与现有方法相比，SphereFace2绕过了softmax归一化，以及相应的闭集假设。这有效地桥接训练和评估之间的差距，使每个二元分类任务能够单独改进表示。除了设计一个特定的性能良好的损失函数，我们总结了可以胜过当前的竞争方法的“一对多”二元分类框架一些一般原则。我们对流行的基准进行全面的实验，证明SphereFace2可以始终胜过当前最先进的深度人脸识别方法。

论文下载：https://arxiv.org/pdf/2108.01513v1.pdf

标题：清华大学|Instance Similarity Learning for Unsupervised Feature Representation（无监督特征表示的实例相似性学习）了解详情

推荐理由：在大量的图像分类中实现了最先进水平的效果

简介：在本文中，我们提出了一种用于无监督特征表示的实例相似度学习方法。常规方法具有高相似度的特征空间，这通常导致大邻域的错误成对关系，因为欧几里德距离无法描述特征流形上的真实语义相似性。相反，我们的方法在无监督的情况下挖掘特征流形，通过这种方式学习实例之间的语义相似性以获得有区别的表示。具体来说，我们使用生成对抗网络来挖掘底层特征流形，其中将生成的特征用作代理来逐步探索特征流形，以便实例间的语义相似性被认为是可靠的伪监督。

代码下载：https://github.com/ZiweiWangTHU/ISL.git

论文下载：https://arxiv.org/pdf/2108.02721v1.pdf

标题：脸书|Decoupled Transformer for Scalable Inference in Open-domain Question Answering（基于可扩展推理的解耦变换器的开放域问答）了解详情

推荐理由：一种适用于在线开放域问答系统的变换器高效优化方法

简介：大型变换器模型用于开放域问答，用于推理变换器的计算成本很高，这使得它们难以应用于在线QA系统，例如语音助手。为了降低计算成本和延迟，我们提出将机器阅读理解变换器模型解耦为输入组件和跨组件。解耦允许表示计算的一部分离线执行并缓存以供在线使用。为了保持解耦变换器的精度，我们设计了一个来自标准变换器模型的知识蒸馏目标。而且，我们引入了学习表示压缩层，有助于减少四倍缓存的存储要求。在SQUAD 2.0数据集的实验中，与标准变换器相比，以F1分数差1.2分的代价解耦变换器减少了30-40%的开放域MRC计算量的成本和延迟。

论文地址：https://arxiv.org/pdf/2108.02765.pdf

标题：埃克塞特大学｜Quantum Quantile Mechanics: Solving Stochastic Differential Equations for Generating Time-Series（量子分位数机制：求解随机微分方程以生成时间序列）了解详情

推荐理由：类似于最近物理信息神经网络的成功，作者阐明了基于SDE的分布的量子分位数机制(QQM)和qGAN之间的联系，并指出模型训练中微分约束的重要性

简介：我们提出了一种从随机微分方程的解中采样的量子算法。使用具有潜在变量特征图编码的可微量子电路，我们表示潜在概率分布的分位数函数并将样本提取为DQC期望值。使用分位数机制，我们在时域传播系统，从而允许时间序列生成。此外，我们分析了连续量子生成对抗网络，并表明它们表示具有修改的分位数函数形状，阻碍其有效的时域传播。

论文地址：https://arxiv.org/pdf/2108.03190v1.pdf

标题：清华大学|Knowledgeable Prompt-tuning: Incorporating Knowledge into Prompt Verbalizer for Text Classification（知识渊博的提示调整：基于知识融入提示词的文本分类）了解详情

推荐理由：将知识融入预训练模型提示词

简介：在少数据场景中，带有额外分类器的方法提示调整比通用微调具有显著优势。核心理念提示调整的目的是插入文本片段，即模板，输入并将分类问题转换为掩码语言建模问题，其中关键步骤是在一个标签空间和一个标签词空间。我们专注于将外部知识融入言语者，形成知识渊博的提示调整，以改善和稳定提示调整。我们展开标签词使用外部知识库分析语言表达器的空间，并在使用扩展的标签词空间进行预测之前，使用PLM本身细化扩展的标签词空间。零样本和小样本的广泛实验文本分类任务证明了知识融合提示调整的有效性。

论文地址：https://arxiv.org/pdf/2108.02035.pdf

标题：清华大学｜EVA: An Open-Domain Chinese Dialogue System with Large-Scale Generative Pre-Training（EVA：具有大规模生成式预训练的开放域中文对话系统）了解详情

推荐理由：使用中文预训练对话模型的最大的中文对话系统

简介：尽管预训练的语言模型显著增强了对话系统，与英文相比开放域中文对话系统仍受对话数据和模型大小限制。我们提出了EVA，一个包含28亿参数最大的中文对话系中文预训练对话模型，使用公共社交媒体的最大中文对话WDCDialogue数据集，包含14亿上下文响应对，并用作EVA预训练语料库。

代码下载：https://github.com/thu-coai/EVA

论文地址：https://arxiv.org/pdf/2108.01547.pdf

标题：中科院计算所、腾讯微信、北航 | KDD 2021 | 基于元学习的内容定向推广了解详情

推荐理由：MetaHeac两阶段框架（离线阶段：采用元学习训练泛化模型；线上阶段：定制化推广模型），解决了扩充候选集技术难题

简介：在推荐系统和广告平台上，内容定向推广模块需要尽可能将商品、内容或者广告传递到潜在的对内容感兴趣的用户面前。扩充候选集技术需要基于一个受众种子集合识别出更多的相似潜在用户，从而进行更有针对性的内容投放。然而，look-alike建模通常面临两个挑战：1）一个系统每天可能需要处理成百上千个不同种类的内容定向推广实例，很难构建一个泛化的方法、同时在所有内容领域中扩充高质量的受众候选集；2）一个内容定向推广任务的受众种子集合可能非常小，而一个基于有限种子用户的定制化模型往往会产生严重的过拟合。为了解决以上的挑战，这篇论文提出了一种新的两阶段框架(MetaHeac)。

论文地址：https://arxiv.org/abs/2105.14688

标题：埃及艾斯尤特大学 | 利用BERT实现阿拉伯语的情绪分析了解详情

推荐理由：基于BERT实现“阿拉伯语”的情绪分析，之前较少研究。

简介：关于ABSA的大部分研究是用英语进行的，只有少量工作是用阿拉伯语进行的。大多数以前的阿拉伯语研究都依赖于深度学习模型，该模型主要依赖于上下文无关的单词嵌入，其中每个单词都有一个独立于上下文的固定表示。本文探讨了预先训练好的语言模型中上下文嵌入的建模能力，以及在阿拉伯语ABSA任务中使用句子对输入的建模能力。特别之处是，我们正在建立一个简单但有效的基于BERT的神经基线来处理这项任务。我们具备简单的线性分类层的BERT体系结构，针对“阿拉伯酒店评论数据集”基准，本文的实验超过了当前最佳结果。

论文地址：https://arxiv.org/abs/2107.13290

标题：美国卓克索大学、宾夕法尼亚大学 | 基于生成式预训练模型的护理者治疗评估了解详情

推荐理由：基于预训练模型，开发心理治疗聊天机器人

简介：现有的心理治疗类聊天机器人，通常是基于检索的，大都无法反映患者的独特情况。为研究基于生成的预训练模型在心理治疗聊天机器人场景中的潜力，本文：1）基于GPT-2模型构建了聊天机器人；2）微调训练了306个“痴呆患者护理场景”的治疗会话记录；3）并以“非单词输出的比例、响应的长度和情感成分”三个度量来评估效果。实验表明：1）微调模型能产生更多的非单词输出；2）微调模型产生的输出长度更接近治疗师会话的输出长度；3）与治疗师相比，预先训练的模型和微调的模型都可能产生更多的负输出和更少的正输出。总结：在本文中探讨了上述问题的潜在原因、影响，以及开发心理治疗聊天机器人的解决方案，最后提出后续的深入研究。

论文地址：https://arxiv.org/abs/2107.13115

标题：伊利诺伊香槟分校 | Curriculum learning for language modeling（用于语言模型的课程学习）了解详情

推荐理由：关于课程学习和预训练的一个反面案例

简介：课程学习是一种采用结构化训练体系的方法，它在计算机视觉和机器翻译中被利用来提高模型训练速度和模型性能。针对语言模型存在的昂贵、能量密集和训练较难等问题，本文探索了课程学习对语言模型预训练的影响，使用了各种语言学动机的课程，并评估了GLUE基准的迁移性能。通过各种各样的训练方法和实验，并没有发现令人信服的证据表明课程学习方法可以改善语言模型训练。

论文地址：https://arxiv.org/pdf/2108.02170v1.pdf

标题：哈佛医学院 | Pan-Cancer Integrative Histology-Genomic Analysis via Interpretable Multimodal Deep Learning（通过可解释的多模态深度学习进行泛癌症组织学-基因组分析）了解详情

推荐理由：多模态预训练模型在病理学领域的应用

简介：本文使用多模态预训练来整合病理图像、RNA-seq丰度、拷贝数变异等来自14种主要癌症类型的5720名患者的突变数据。本文的多模态弱监督模型能够融合这些异质的模态来预测结果，并从这些模态中发现预后特征，通过多模态的可解释性与有利或有害的结果相印证。作者将模型与仅在组织学切片和分子图谱上训练的单模态深度学习模型进行了比较，并证明其在14种癌症中的9种上的风险分层能力的性能提高。此外，本文还分析了与癌症类型的预后预测相关的形态学和分子标记，展示了肿瘤浸润性淋巴细胞的存在与有利的癌症预后相印证的例子。

论文地址：https://arxiv.org/pdf/2108.02278.pdf

标题：慕尼黑工业大学 | Protein language model embeddings for fast, accurate, alignment-free protein structure prediction （用于快速、准确、无比对的蛋白质结构预测的语言模型嵌入）了解详情

推荐理由：超大预训练模型Prottrans作者在结构预测方面新作

简介：所有SOTA蛋白质结构预测都依赖于多重序列比对中捕获的进化信息，而这种信息并不对所有的蛋白质都可用，而且生成的计算成本也很高。本文将从Transformer语言模型ProtT5中提取的嵌入，以单一序列输入到一个相对较浅的卷积神经网络中。该网络学习残基间的距离，主要的进步源于对ProtT5所学到的注意力头的信息。虽然没有达到SOTA，但本文的精简方法不需要任何MSA，在大大降低成本同时接近了依靠共进化的方法，从而加快了开发和每个后续预测的速度。通过产生特定的蛋白质而不是家族平均预测，这些新的解决方案可以区分具有类似结构的同家族蛋白质成员的结构特征。

论文地址：https://www.biorxiv.org/content/10.1101/2021.07.31.454572v1.pdf

标题：哈佛、哥伦比亚大学 | Single-sequence protein structure prediction using language models from deep learning （使用深度学习语言模型进行单序列蛋白质结构预测）了解详情

推荐理由：单序列蛋白质结构预测与AlphaFold2和RoseTTAFold的比较

简介：尽管最近蛋白结构预测准确率大幅提高，但仍有三个挑战，预测无法生成MSA的孤儿和快速进化的蛋白质，快速探索设计的结构，以及了解溶液中多肽折叠的规则。本文报告了一个端到端的可微的递归几何网络，它能够在不使用MSA的情况下从单个蛋白质序列预测蛋白质结构。这个深度学习系统有两个新的元素：一个是蛋白质语言模型AminoBERT，它使用Transformer从数以百万计的未比对的蛋白质中学习潜在的结构信息；另一个是几何模块，紧凑地几何表示Cα骨架。模型在孤儿蛋白上的表现优于AlphaFold2，RoseTTAFold以及trRosetta，并在设计的序列上具有竞争力，同时在计算时间上实现了高达100万倍的减少。

论文地址：https://www.biorxiv.org/content/10.1101/2021.08.02.454840v1.full.pdf

研究动态

标题：中国人民大学 | ACL 2021 | 当模型压缩遇上量子力学——基于矩阵乘积算符的预训练语言模型轻量化微调了解详情

简介：在“预训练+微调”已经成为NLP标准处理流程的当前，BERT等预训练语言模型虽然有出色的表现，但巨大的参数量限制了在小型设备上的应用。学术界目前有两种解决思路：1）以参数共享、量化、剪枝和蒸馏为主的模型压缩策略；2）固定大部分参数在微调的过程中不更新，从而降低可训练参数的轻量化微调策略，减少下游任务参数微调的成本。受到量子力学中处理量子多体问题的矩阵乘积算符的启发，本文提出了一种新颖的预训练语言模型压缩方法，针对BERT与GPT这种堆叠Transformer结构的网络：综合两种思路、实现轻量化微调的同时压缩模型参数的效果。而且已在ALBERT成功应用，并在GLUE数据集上进行实验、证明了该方法在模型压缩上的有效性：最终可以减少平均91%的待微调参数量。

论文地址：https://arxiv.org/abs/2106.02205

代码地址：https://github.com/RUCAIBox/MPOP

标题：百度智慧医疗 | Seq2Subgraph：一种基于子图结构的医疗文本处理新框架了解详情

简介：传统的NLP深度学习在开放域下以序列模型建模文本为主，处理医疗文本时难以表达复杂的医学概念之间二元或多元知识关系，难以将蕴含在文本段落中的复杂医学关系与临床诊疗推理结合。百度智慧医疗提出了一种新的医疗文本处理框架Seq2Subgraph：通过结合医学知识图谱，将医疗文本处理成多层级的子图结构，改变了传统NLP序列模型处理医疗文本的固定套路，能更好的区分同时患有多疾病的病历中不同疾病关联的病情信息、兼顾医疗文本的结构特征和序列特征。在中文和英文电子病历数据上，本文提出的算法均取得了最佳的效果。这是继2020年ACL和IJCAI后，百度在AI辅助诊断上的延续性技术创新、再次革新了医疗文本处理模式，在维度升级的复杂电子病历下，针对数据与知识的联合建模方式做了更深层次的探索和应用。

资源推荐

标题:蒙特利尔大学、DeepMind、苏黎世大学|Sequoia: A Software Framework to Unify Continual Learning Research（Sequoia：统一持续学习研究的软件框架）了解详情

推荐理由：持续学习新范式及第一个实现，并具有来自持续监督学习和持续强化学习领域两种能力。

简介：持续学习 (CL) 领域旨在随着时间的推移开发积累知识的算法，通过与非平稳环境和数据分布的交互来提高技能。我们将每个设置视为一组假设。然后我们在CL中创建一个树形设置层次结构，其中更一般的设置成为那些带有更严格的假设的父类。这使得可以使用继承来共享和重用研究，因为为给定环境开发一种方法也使其直接适用于任何它的子类。

代码下载：http://www.github.com/lebrice/Sequoia

论文下载：https://arxiv.org/pdf/2108.01005v1.pdf

标题：AI21 Labs发布开发者平台AI21 Studio和超大语言模型Jurassic-1供开发者使用了解详情

简介：近日，AI21 Labs发布开发者平台AI21 Studio，提供了对178B参数语言模型Jurassic-1的即时访问，以帮助用户大规模地建立复杂的基于文本的人工智能应用。Jurassic-1模型有两种尺寸，其中Jumbo版本的参数为178B，是有史以来发布的最大和最复杂的语言模型，可供开发人员普遍使用。AI21 Studio目前处于开放测试阶段，任何人都可以注册并立即开始使用其API和互动网络环境。AI21 Labs由人工智能先驱和技术资深人士于2017年成立，包括Yoav Shoham教授（斯坦福大学名誉教授）、Ori Goshen（CrowdX的创始人）和公司主席Amnon Shashua教授（Mobileye的创始人）。

论文地址：https://github.com/ai21labs/lm-evaluation

平台链接：https://www.ai21.com/studio