ChatGLM基座:GLM(General Language Model)论文阅读笔记


在这里插入图片描述

Introduction

现在有很多Pretrain model 的架构, 如Bert、GPT、T5等,但是当时没有一种模型能在NLU、有条件文本生成、无条件文本生成都有很好的表现。

一般预训练模型架构分为三种:自回归(GPT系列)、自编码(Bert系列)、编码器-解码器(T5)。
作者概述了它们目前存在的问题·:

  1. GPT:单向的注意力机制,不能完全捕捉NLU任务中上下文词之间的依赖关系。
  2. Bert:编码器可以更好的提取上下文信息,但是不能直接用于文本生成。

作者提到上述框架不够灵活,之前也有人做过统一这两个架构的工作,但是自编码与自回归本质的不同,不能很好的继承两个架构的优点,于是提出了一个基于自回归空白填充的语言模型(GLM)GLM通过2D的 positional encoding和允许一个任意的predict spans 来改进空白填充预训练。同时,GLM可以通过改变空白的数量和长度对不同类型的任务进行预训练。

GLM Pretraining Framework

它基于一个新颖的自回归空白填充目标。GLM将NLU任务制定为包含任务描述的cloze问题,这些问题可以通过自回归生成来回答。

Autoregressive Blank Infilling

在这里插入图片描述

  1. 给定Input=[x1,x2,x3,x3,x5,x6],然后采样m个 spans。
  2. 把被采样的部分mask掉,得到Part A。
  3. random 被采样的 spans,得到 PartB。
  4. 把PartA与PartB拼接成一个sequence,Part A部分采用双向注意力,PartB部分采样自回归预测。为了能够自回归生成,padded 【start】和【end】。

Multi-Task Pretraining

在上一节中,GLM掩盖了短跨度,适用于NLU任务。然而,作者对预训练一个能同时处理NLU和文本生成的单一模型感兴趣,考虑以下两个目标。

  • Document-level:对单一跨度进行采样,其长度从原始长度的50%-100%的均匀分布中抽出。该目标旨在生成长文本。

  • Sentence-level:限制被mask的跨度必须是完整的句子。多个跨度(句子)被取样,以覆盖15%的原始token。这一目标是针对seq2seq任务,其预测往往是完整的句子或段落。
    这两个新目标的定义与原目标相同,唯一不同的是的跨度数量和跨度长度。

Model Architecture

GLM使用单一的Transformer,并对架构进行了一些修改:
(1)重新安排了层的归一化和残差连接的顺序,这已被证明对大规模语言模型避免数字错误至关重要。
(2)使用单一的线性层进行输出token预测。
(3)用GeLU替换ReLU激活函数。

2D Positional Encoding

在这里插入图片描述

Experiment

Conclusion

GLM是一个用于自然语言理解和生成的通用预训练框架。NLU任务可以被表述为条件生成任务,因此可以通过自回归模型来解决。GLM将不同任务的预训练目标统一为自回归空白填充、混合注意力mask和新的二维位置编码。经验表明,GLM在NLU任务中的表现优于以前的方法,并且可以有效地共享不同任务的参数。

  • 3
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

HanZee

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值