《预训练周刊》第7期：傅立叶图像变换器解析、阿里达摩院发布最大中文预训练语言模型PLUG

智源社区

于 2021-04-29 19:39:39 发布

阅读量663

点赞数

文章标签：大数据自然语言处理编程语言计算机视觉机器学习

原文链接：http://forms.baai.ac.cn/f/clC1l5

版权

No.07

智源社区

预训练组

预

训

练

研究

观点

资源

活动

关于周刊

‍‍‍超大规模预训练模型是当前人工智能领域研究的热点，为了帮助研究与工程人员了解这一领域的进展和资讯，智源社区整理了第7期《预训练周刊》，从论文推荐、研究动态、资源下载等维度推荐近期发生在预训练模型领域值得关注的信息。

本期周刊，我们选择了9篇预训练相关的论文，涉及文本语音转换、傅立叶变换、BERT训练方法、中文表示、隐式知识存储、图像超分辨率、生物医学网络表征、小样本图分类和图对比学习的探索。此外，在研究动态方面，我们选择了4篇预训练资讯，将介绍最大中文预训练模型、无监督3D渲染、图像变换器和中文生成式预训练模型等方面的一些最新内容。最后，在资源下载栏目，我们介绍了视觉模型评估数据集的内容。

周刊采用社区协作的模式产生，欢迎感兴趣的朋友们参与我们的工作，一起来推动预训练学习社群的分享、学习和交流活动。可以扫描文末的二维码加入预训练群。

（本期贡献者：申德周翟珂吴新刚）‍‍‍

论文推荐

标题：清华大学|Dependency Parsing based Semantic Representation Learning with Graph Neural Network for Enhancing Expressiveness of Text-to-Speech（图神经网络的基于语义解析的语义表示学习可增强文本到语音的表达能力）

了解详情

简介：句子的语义信息对于提高文本语音转换（TTS）系统的表达能力至关重要，但是仅依靠当今的编码器结构，就无法从有限的训练TTS数据集中很好地学习句子的语义信息。随着大规模预训练文本表示的发展，来自变换器（BERT）的双向编码器表示已被证明可体现文本上下文语义信息，并已作为附加输入应用于TTS。但是，BERT无法从句子中的依赖关系角度显式关联语义标记。为了提高表达能力，作者提出了一种基于图神经网络的，考虑句子依存关系的语义表示学习方法。输入文本的依存关系图由依存关系树结构的边组成，同时考虑了正向和反向。然后由关系门控图网络（RGGN）在单词级别上提取语义表示，并从BERT获得特征作为节点输入。上采样的语义表示和字符级嵌入被串联起来用作Tacotron-2的编码器输入。实验结果表明，我们提出的方法在LJSpeech和Bilzzard Challenge 2013数据集中使用纯BERT特征均优于基线，并且从反方向学习的语义表示在增强表达能力方面更为有效。

论文链接：https://arxiv.org/pdf/2104.06835.pdf

标题：Fourier Image Transformer（傅立叶图像变换器）了解详情

简介：变换器体系结构在NLP任务上表现出惊人的性能，最近还被用于诸如图像完成或图像分类之类的任务。在这里，我们提出使用顺序图像表示，其中完整序列的每个前缀都以更低分辨率描述整个图像。使用此类傅立叶域编码（FDE），自动回归图像完成任务等效于在输入低分辨率输入的情况下预测更高分辨率的输出。此外，我们展示了给定一组傅立叶域观测值，编码器-解码器设置可用于查询任意傅立叶系数。我们在计算机断层扫描（CT）图像重建的背景下证明了这种方法的实用性。总而言之，我们展示了傅立叶图像变换器（FIT）可用于解决傅立叶空间中的相关图像分析任务，这是卷积体系结构固有的不可达的领域。

论文链接：https://arxiv.org/pdf/2104.02555v1.pdf

标题：Intel,特拉维夫大学|How to Train BERT with an Academic Budget（如何用学术预算训练BERT）了解详情

简介：大型语言模型BERT在NLP中无处不在地使用，对他们进行预训练被认为是一种奢侈品，只有少数资金充裕的行业实验室能够负担得起。一个人怎么能用更适度的预算来训练这样的模型？我们提出一个预训练语言模型的方法：在24小时内，只使用8块低端12GB GPU。我们证明了通过软件优化、设计选择和超参数调谐的组合，可以生产出具有在语言理解任务上与BERT-base竞争，却只需要一小部分训练成本。

论文链接：https://peteriz.github.io/posts/papers/academic-budget-bert.pdf

标题：北大，阿里|Lattice-BERT: Leveraging Multi-Granularity Representations in Chinese

Pre-trained Language Models（Lattice-BERT：利用中文的多粒度表示预训练语言模型）了解详情

简介：中文预训练语言模型将文本通常处理为字符序列，而忽略更粗粒度，例如单词。在这项工作中，我们提出了一种新的预训练中文方法Lattice-BERT，其中明确地包含单词连同字符一起表示，因此可以以多粒度的方式对句子建模。具体来说，我们从句子和提要中的字符和单词所有这些文本单元都输入变换器。我们设计了一个格子位置注意机制来在自注意力中利用晶格结构层。我们进一步提出了遮罩的细分预测任务，以推动模型学习来自丰富但冗余的内在信息格状。在11种中文语言理解任务上表明，在12层设置下，模型可以带来1.5％的平均增长，在CLUE基准测试上取得了当前最佳效果。

论文链接：https://arxiv.org/pdf/2104.07204.pdf

标题：北大、微软|Knowledge Neurons in Pretrained Transformers(预训练变换器中的知识神经元)了解详情

简介：大规模的预训练语言模型擅长回忆训练语料库中提供的事实知识。在本文中，我们探索隐式知识的存储方式在预训练的变形金刚中引入知识神经元的概念。给定一个相关事实，我们提出知识归因识别表达神经元的方法事实。我们提出这样的激活知识神经元与表达其相应事实。此外，即使不进行微调，我们也可以利用知识神经元进行显式编辑（例如作为更新和删除）特定的事实知识，以供预训练的变换器使用。

论文链接：https://arxiv.org/pdf/2104.08696.pdf

标题：亚马逊、悉尼大学|Attention in Attention Network for Image Super-Resolution（图像超分辨率注意力网络的注意力机制）了解详情

简介：卷积神经网络已经在图像超分辨率（SISR）上显示了先进性；过去十年。在SISR的最新进展中，注意机制对于高性能超分模型至关重要。然而，很少有文章真正讨论为什么注意力机制有效和它是如何工作的。在这项工作中，我们试图量化和可视化静态注意力机制，并表明并非全部注意力模块同样有益。我们为超分辨率图像提出注意力网络中的注意力机制（A2N）。实验表明，与最先进的轻量级网络相比，我们的模型可以实现卓越的平衡性能。局部属性图上的实验也证明了注意力（A2）结构可以从更广范围内提取特征。

代码：https://github.com/haoyuc/A2N

论文链接：https://arxiv.org/pdf/2104.09497

标题：Representation Learning for Networks in Biology and Medicine: Advancements, Challenges, and Opportunities（生物医学网络的表征学习：进展，挑战和机会）了解详情

简介：近年来表征学习在属性预测和数据洞察方面取得了显著成功，其技术迅速扩展到各种网络的建模、分析和学习等方面，其中就包括生物医学网络，一种用于描述蛋白质相互作用到疾病等各层次医疗系统和科学知识的通用描述方法。这篇综述整理了那些在可以为表征学习提供概念基础的生物学和医学网络的长期准则和方法，并解释了其当前的成功和局限性以为未来的发展提供参考。作者在文中综合整理了一系列利用拓扑特征将网络embed到紧凑的向量空间中的算法，包括GNN预训练等。表征学习技术正在成为识别复杂性状背后的因果变异、理解单细胞及其对健康的影响，以及安全有效的药物诊断和治疗疾病的关键。

论文地址：https://arxiv.org/pdf/2104.04883v1.pdf

标题：Structure-Enhanced Meta-Learning For Few-Shot Graph Classification（用于小样本图分类的结构增强元学习方法）了解详情

简介：图分类是一项影响很大的任务，它在无数现实世界的应用，如分子特性预测和蛋白质功能预测中起着至关重要的作用。为了处理具有有限标签的图的新分类，小样本图分类已成为现有图分类问题解决方案和实际应用之间的桥梁。本文探讨了基于metric的元学习在解决小样本图分类方面的潜力，作者强调在解决方案中考虑结构特征的重要性，并提出了一个明确地考虑了输入图的全局结构和局部结构的新的框架。在此框架及GIN的基础上，本文提出了SMF-GIN模型，并在两个数据集Chembl和TRIANGLES上进行了与包含一般预训练模型在内的各个模型间的比较测试，验证了所提方法的有效性。

论文地址：https://arxiv.org/pdf/2103.03547v4.pdf

代码地址：https://github.com/jiangshunyu/SMF-GIN

标题：Motif-Driven Contrastive Learning of Graph Representations（基于Motif的图表征对比学习）了解详情

简介：通过自监督对比学习的图神经网络进行预训练最近引起了很多人的关注，然而大多数现有的工作集中在节点级的对比学习上，这并不能捕获全局图结构，而进行子图级对比学习的关键是如何寻找有在语义信息上有意义的子图。为了解决这个问题，本文提出学习图的motiff，即经常出现的子图（如分子的官能团），以获得更好的子图采样。作者提出了框架 MICRO-Graph（Motif-driven Contrastive learning Of Graph representations），该框架可以：使用GNN来从大型图数据集中提取motif；利用学到的motif帮助更具信息子图的采样以进行GNN对比学习。在这个框架中，作者将motif学习表述为一个可微分的聚类问题，并且采用EM聚类法将相似和重要的子图归为motif。在这些事先学习到motif的指引下，采样器被训练来生成信息量更大的子图，这些子图被用来通过图与子图的对比学习来训练GNN。本文使用MICRO-Graph对ogbg-molhiv等数据集进行预训练，在各种下游基准数据集上实现了2.04%的ROC-AUC平均性能提升，显著高于其他最先进的分子图自监督学习基线。文中同时展示了相应代码的demo。

论文地址：https://arxiv.org/abs/2104.07650v1

研究动态

标题：阿里|270亿参数、刷榜CLUE，阿里达摩院发布最大中文预训练语言模型PLUG了解详情

简介：经历「大炼模型」后，人工智能领域正进入「炼大模型」时代。自去年 OpenAI 发布英文领域超大规模预训练语言模型 GPT-3 后，中文领域同类模型的训练进程备受关注。今日，阿里达摩院发布了 270 亿参数、1TB + 训练数据的全球最大中文预训练语言模型 PLUG，并以 80.614 的分数刷新了中文语言理解评测基准 CLUE 分类榜单历史纪录，刚刚在最权威的中文语言模型榜单 CLUE 上拿到了分类领域第一。本文从预训练模型发展现状、技术路线、技术细节和生成示例角度详细描述了PLUG模型。

标题：康奈尔,英伟达|把《我的世界》马赛克变成逼真大片！这项AI研究令人想入非非了解详情

简介：先来看一张海岛大片，这可不是哪个摄影师的杰作，而是出自GANcraft之手。

原图是「我的世界」中一个马赛克画质的场景，这下「我的世界」真的变成了，我的世界！GANcraft由英伟达和康奈尔大学合作完成，它是一个无监督3D神经渲染框架，可以将大型3D块状世界生成为逼真图像。具有空前的真实感。我们展示了GANcraft，一种无监督的神经渲染将大型3D块状Minecraft世界生成大型3D逼真的图像的框架。我们的方法将语义块世界作为输入，其中每个块都是分配了一个语义标签，例如泥土，草或水。我们将世界表示为连续的体积函数，并且训练我们的模型以为用户控制的相机渲染与视图一致的逼真的图像。在没有配对的情况下为区块世界提供真实的真实图像，我们设计了一个基于伪地面真相和对抗训练的训练技巧。这与先前的用于视图合成的神经渲染工作相反，后者需要地面真实性图像以估计场景的几何形状和与视图有关的外观。除了摄像机的轨迹，GANcraft还可以用户控制场景语义和输出样式。与强基线比较的实验结果表明GANcraft在逼真的3D块世界合成这一新任务上的有效性。

论文链接：https://arxiv.org/pdf/2104.07659.pdf

标题：屠榜各大 CV 任务的微软 Swin Transformer，近日开源了代码和预训练模型了解详情

简介：自 2017 年 6 月谷歌提出 Transformer 以来，它便逐渐成为了自然语言处理领域的主流模型。最近一段时间，Transformer 更是开启了自己的跨界之旅，开始在计算机视觉领域大展身手，涌现出了多个基于 Transformer 的新模型，如谷歌用于图像分类的 ViT 以及复旦、牛津、腾讯等机构的 SETR 等。微软亚研的研究者也提出了一种通过移动窗口（shifted windows）计算的分层视觉 Transformer，他们称之为 Swin Transformer。相比之前的 ViT 模型，Swin Transformer 做出了以下两点改进：其一，引入 CNN 中常用的层次化构建方式构建分层 Transformer；其二，引入局部性（locality）思想，对无重合的窗口区域内进行自注意力计算。而且也开源了Swin Transformer的代码和预训练模型。

代码：https://github.com/microsoft/Swin-Transformer

论文链接：https://arxiv.org/pdf/2103.14030.pdf

标题：领跑NLG技术！追一科技开源首个中文T5模型了解详情

简介：众所周知，自BERT以来，预训练模型遍地开花，自然语言理解（NLU）领域有了长足的进步。相比之下，自然语言生成（NLG）仍然方兴未艾。近年来，一些NLG预训练模型如UniLM、BART、T5等也陆续发布，但这些模型往往是纯英文或者多语言形式，并没有精细地为中文“定制”的NLG预训练模型。为了弥补中文NLG预训练模型的空白，共同推动中文NLG技术的进步，追一科技结合自身的中文NLP经验，训练并开源了国内首个中文生成式预训练模型T5 PEGASUS，在自动摘要、问题生成多个自然语言处理任务上，达到了新高度。值得注意的是，T5 PEGASUS凭借出色的小样本学习能力，还可以帮助企业和开发者大大减轻数据标注训练负担。

资源下载

标题：FAIR|脸书开源衡量人工智能的公平性：休闲对话数据集

了解详情

简介：本文介绍了一个新的数据集，以帮助研究人员评估他们的计算机视觉和音频模型的准确性，跨越不同的年龄，性别，明显的肤色和环境照明条件。我们的数据集由3,011个主题组成，包含超过45,000个视频，平均每人15个视频。这些视频在美国多个州录制，有不同年龄、性别和明显肤色组的不同成年人。一个关键特征是，每个主题都同意参与使用其类似物。此外，我们的年龄和性别注释由受试者自己提供。一组训练有素的注释器使用菲茨帕特里克皮肤类型比例标记了受试者的明显肤色。此外，还提供了在低环境照明下录制的视频的注释。作为衡量某些属性预测的稳健性的应用，我们提供了对前五名获奖者的全面研究。实验评价表明，获胜模型在某些特定人群（如肤色较深的受试者）中表现较差，因此可能不会向所有人推广。此外，我们还评估最先进的明显年龄和性别分类方法。我们的实验提供了对这些模型的透视分析，以公平对待来自不同背景的人。

论文下载：

https://scontent-hkt1-2.xx.fbcdn.net/v/t39.8562-6/166944269_1101759557004334_1049316558312568671_n.pdf

数据下载：

https://ai.facebook.com/datasets/casual-conversations-downloads/

如果你正在从事或关注预训练学习研究、实现与应用，欢迎加入“智源社区-预训练-交流群”。在这里，你可以：

学习前沿知识、求解疑难困惑
分享经验心得、展示风貌才华
参与专属活动、结识研究伙伴

请扫描下方二维码加入预训练交流群。

智源社区

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
《预训练周刊》第7期：傅立叶图像变换器解析、阿里达摩院发布最大中文预训练语言模型PLUG

No.07智源社区预训练组预训练研究观点资源活动关于周刊‍‍‍超大规模预训练模型是当前人工智能领域研究的热点，为了帮助研究与工程人员了解这一领域的进展和资讯，智源社区整理了第7期《预训练周...
复制链接

扫一扫