NeurIPS 2019中的Transformers

最新推荐文章于 2023-01-31 23:45:29 发布

ronghuaiyang

最新推荐文章于 2023-01-31 23:45:29 发布

阅读量291

点赞数

本文链接：https://blog.csdn.net/u011984148/article/details/104046915

版权

点击上方“AI公园”，关注公众号，选择加“星标“或“置顶”

作者：Pavel Gladkov

编译：ronghuaiyang

导读

NeurIPS 2019上和Transformer有关的论文的主要内容解读。

在我之前关于 BERT 在 EMNLP 2019 的报道之后，如果不在 NeurIPS 2019 年大会上简要回顾一下关于 transformers 的论文，那将是一种犯罪。神经信息处理系统研讨会于 12 月 8 日至 14 日在温哥华举行。像往常一样，有很多令人惊叹的想法和先进的研究。以下是其中的一些。

ViLBERT：视觉和语言任务的预训练任务的视觉语言表示

http://arxiv.org/abs/1908.02265

提出了一种新的方法来学习与任务无关的图像内容和自然语言的联合表示。

ViLBERT(Vision-and-Language BERT)由两个并行的 BERT 风格的模型组成，它们在图像区域和文本段上运行。每个流是一系列 transformer 块和新的 co-attentional transformer 层，它们被引入以实现模式之间的信息交换。每个图像通过从一个预训练的目标检测网络(Faster R-CNN)中提取边界框及其视觉特征作为一组区域的特征表示。

ViLBERT模型由两个并行的视觉(绿色)和语言(紫色)处理流组成，它们通过新的共注意transformer层相互作用。

预训练有两项任务：masked 多模态建模和多模态对齐预测。masked 多模态建模任务遵循标准 BERT 中的 masked 语言建模任务 —— 掩蔽大约 15%的单词和图像区域作为输入，并在给定剩余输入的情况下对模式进行重构。在多模态对齐任务中，模型提出了一个图像 — 文本对，必须预测图像和文本是否对齐，即文本是否描述图像。

在许多已建立的视觉和语言任务中，ViLBERT 模型表现优于最先进的模型：视觉问题回答、视觉常识推理、引用表达式和基于标题的图像检索。

将我们的ViLBERT模型的任务结果与现有的最先进和合理的结构进行消融比较。

Ouroboros: 基于 Transformer 的语言模型的加速训练

http://arxiv.org/abs/1909.06695

毫无疑问，Transformers 在很多任务上都取得了巨大的成就，但是训练它们可能是一个漫长而昂贵的过程。解决这个问题的一种可能的方法是并行化。

当模型太大而不能在单个设备中进行训练时，模型的并行化仍然是一个有待解决的问题。当一个模型变得太大而不能适用于单个计算设备时，最简单的解决方案是将模型层分布到多个设备上。

文章提出了一种新的模型并行算法来并行化基于 Transformers 的语言模型的训练。这种算法可以在不损失精度的情况下产生显著的加速效果。

每个batch的计算时间的加速(在K个gpu上)

可视化和 BERT 几何形状的测量

http://arxiv.org/abs/1906.02715

本文试图证明 transformer 具有一组语义和句法信息的中间表示。为了寻找句法信息，他们在注意力向量的顶部训练了线性模型。该模型必须预测两个词之间依赖关系的存在和类型。二分类预测的准确度为 85.8%，多分类预测的准确度为 71.9%。这个简单线性预测的成功表明，句法信息被编码在注意力向量中。

一个有序token对的模型范围内的注意力向量包含该token对在所有注意力头和层中的标量注意力值。

第二部分是语义信息。很自然地，我们可以推测 transformer 捕捉了一个词在一个特定句子中的特殊含义。

对于一个具有 n 种含义的给定单词，他们制作一个最近邻分类器，其中每个邻居都是训练集中给定单词含义的基于 BERT 的嵌入的质心。为了对一个新单词进行分类，他们会找到这些质心中最近的一个，如果这个单词在训练数据中没有出现，则默认为最常用的词义。简单最近邻分类器的 F1 得分为 71.1，高于目前的技术水平，其准确率在层间单调递增。这是一个强烈的信号，即上下文嵌入表示了词意信息。