GLM General Language Model Pretraining with Autoregressive Blank Infilling

GLM: General Language Model Pretraining with Autoregressive Blank Infilling

论文地址 [2103.10360v2] GLM: General Language Model Pretraining with Autoregressive Blank Infilling (arxiv.org)

ACL 2022的一篇预训练模型改进的论文,改进方向为统一NLU和NLG的预训练模型

作者来自 清华,智源,MIT

看名字就感觉很大,GLM:通用语言模型,这比ULM google的统一语言模型还要能吹,摘要也说的很大,说自己模型在NLU和NLG都已经超过bert,GPT,t5等模型了,并适合各种下游任务。

主要内容

GLM其实也沿用T5对于NLP任务的理解,都转换为text2text任务,但基于t5进行了两点改进:span shuffling 和2D positional encoding

在这里插入图片描述

上述模型图也很容易理解,将t5的span mask,然后预测span内容时,使用类似GPT自回归的方式进行生成,将mask的部分,接在后面,添加[START]标签,并最后尝试预测[END]标签来预测结束位置。self-attention mask类似于ULM中seq2seq部分的attention矩阵,即前面MLM部分是自编码的attention,后面LM部分是自回归的attention。同时在position embedding时,为了清洗表示自编码任务和自回归任务,使用了2D的position embeding完成该任务。

上述任务进行span mask的自回归生成,对NLU任务有很好的支持,为了进一步同时解决NLG任务,将span换为sentence-level和document-level不同长度的自回归生成任务。

fine-tuning 过程类似文本分类任务可以使用模板promt方法进行转换为text2text任务,其他也可以直接在无条件生成和有条件生成上进行fine-tune

实验:作者在在superGLUE和CNN daily和XSum数据上进行对比实验。在superGLUE上进行消融实验。

实验。在superGLUE上进行消融实验。

评价:整个模型还是很大的,不过可能受限于实验室的人力,对比实验工作量有些不够,就说自己在NLG上比其他NLG模型更好,有些不充分,整体在其他NLU任务除了SuperGLUE也没有进行实验,创新点还是有的,但模型在实际效果上能否超过经典模型还需要进行实验尝试。

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值