论文笔记 | All NLP Tasks Are Generation Tasks: A General Pretraining Framework

论文提出了GLM,一种结合自编码和自回归注意力的预训练模型,旨在统一处理各类自然语言任务。GLM通过特殊的掩码矩阵设计,既能处理抽取式任务,又能胜任生成式任务,解决了不同预训练模型在不同任务上的局限性。实验结果显示,GLM在SuperGLUE、SEQ2SEQ和语言建模等任务上表现优秀。
摘要由CSDN通过智能技术生成

作者:景
单位:燕山大学


论文地址
代码地址
论文作者:Zhengxiao Du, Yujie Qian, Xiao Liu, Ming Ding, Jiezhong Qiu, Zhilin Yang, Jie Tang
论文单位:清华大学

概述

  现有的预训练模型可分为三种:自回归模型(如GPT)、自编码模型(如BERT)、编解码模型(如T5),然而不同类型的预训练模型各自擅长的领域也不一致。作者致力于提出一种通用的预训练模型来解决不同种类的自然语言任务,这就是论文中提出的General Language Model,GLM。

创新点

  • 区别于以往的自编码注意力和自回归注意力,作者提出了一种新式的掩码矩阵来结合自编码注意力和自回归注意力
  • 下游的任务与预训练任务保持了一致性,在很大程度上降低了模型的性能损耗(说的就是你BERT)

预训练结构

  GLM的结构与BERT相似(准确来说是与Transformer比较相似),重新安排了归一化和残差的顺序。
在这里插入图片描述

  • 作者首先清空
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值