作者:景
单位:燕山大学
论文地址
代码地址
论文作者:Zhengxiao Du, Yujie Qian, Xiao Liu, Ming Ding, Jiezhong Qiu, Zhilin Yang, Jie Tang
论文单位:清华大学
概述
现有的预训练模型可分为三种:自回归模型(如GPT)、自编码模型(如BERT)、编解码模型(如T5),然而不同类型的预训练模型各自擅长的领域也不一致。作者致力于提出一种通用的预训练模型来解决不同种类的自然语言任务,这就是论文中提出的General Language Model,GLM。
创新点
- 区别于以往的自编码注意力和自回归注意力,作者提出了一种新式的掩码矩阵来结合自编码注意力和自回归注意力
- 下游的任务与预训练任务保持了一致性,在很大程度上降低了模型的性能损耗(说的就是你BERT)
预训练结构
GLM的结构与BERT相似(准确来说是与Transformer比较相似),重新安排了归一化和残差的顺序。
- 作者首先清空