GLM模型介绍

paper: 《GLM: General Language Model Pretraining with Autoregressive Blank Infilling

摘要:

我们提出了一个基于自回归空白填充的通用语言模型(GLM)来解决这一挑战。GLM通过添加2D位置编码和允许任意顺序预测跨度来改进空白填充预训练,这导致在NLU任务上的性能优于BERT和T5。同时,GLM可以通过改变空白格的数量和长度来对不同类型的任务进行预训练。在NLU、条件和无条件生成的广泛任务中,GLM优于BERT、T5和GPT,并在1.25×参数的预训练模型中获得最佳性能,证明了其对不同下游任务的通用性。

 模型架构

1. 设计独特的mask atten 来实现NLU和NLG(类似unilm的思想)

2. 2D编码,分别标注span在整个句子的位置,和span内部每个token的相对位置

数据构造:从文随机抽取出span,用【mask】替代,然后把span随机排列,拼接到输入序列的后面,每个span input 开始位置插入【start】,span的输出结束位置插入【end】

训练目标

自回归方式的span预测(片段预测)

short mask: 有利于NLU

Document-level mask、 Sentence-level mask: 为了使NLG效果更好

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值