作者:禅与计算机程序设计艺术
1.简介
2017年,在深度学习领域中最火热的框架之一——TensorFlow被提出,其出现改变了神经网络模型的构建方式。随后基于Transformer模型的BERT、GPT-2等变体在NLP任务上获得了一系列的成就。那么,什么是Transformer?它又是如何工作的?Transformer模型背后的主要思想是什么?今天的主角就是来自微软亚洲研究院(MSRA)的Karen Robinson先生。Robinson先生是谷歌AI语言团队的成员之一,也是一位颇受欢迎的计算机科学教授。本文将从她的个人经验出发,结合她的研究领域背景,阐述Transformer模型的一些关键要素和应用。
2.Transformer概述
Transformer是一种用于序列到序列(sequence to sequence)转换的NLP模型。它由两层相同结构的自注意力机制组成。在第一个自注意力模块(self attention mechanism)中,输入序列中的每个元素可以与其他所有元素进行交互,并通过参数化的函数生成输出序列中的每个元素。第二个自注意力模块则生成整个序列的表示形式。两个自注意力模块之间的信息流动形成了一个编码器-解码器结构,使得Transformer能够处理长文档或音频数据。
Transformer模型的主要优点包括:
- 计算效率高:因为自注意力的计算复杂度只有O(