GLM General Language Model Pretraining with Autoregressive Blank Infilling

最新推荐文章于 2024-06-16 19:59:54 发布

be_humble

最新推荐文章于 2024-06-16 19:59:54 发布

阅读量1.9k

点赞数 1

分类专栏：论文笔记文章标签：语言模型深度学习机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/be_humble/article/details/125029115

版权

论文笔记专栏收录该内容

17 篇文章 3 订阅

订阅专栏

GLM: General Language Model Pretraining with Autoregressive Blank Infilling

论文地址 [2103.10360v2] GLM: General Language Model Pretraining with Autoregressive Blank Infilling (arxiv.org)

ACL 2022的一篇预训练模型改进的论文，改进方向为统一NLU和NLG的预训练模型

作者来自清华，智源,MIT

看名字就感觉很大，GLM：通用语言模型，这比ULM google的统一语言模型还要能吹，摘要也说的很大，说自己模型在NLU和NLG都已经超过bert，GPT，t5等模型了，并适合各种下游任务。

主要内容：

GLM其实也沿用T5对于NLP任务的理解，都转换为text2text任务，但基于t5进行了两点改进：span shuffling 和2D positional encoding

在这里插入图片描述

上述模型图也很容易理解，将t5的span mask，然后预测span内容时，使用类似GPT自回归的方式进行生成，将mask的部分，接在后面，添加[START]标签，并最后尝试预测[END]标签来预测结束位置。self-attention mask类似于ULM中seq2seq部分的attention矩阵，即前面MLM部分是自编码的attention，后面LM部分是自回归的attention。同时在position embedding时，为了清洗表示自编码任务和自回归任务，使用了2D的position embeding完成该任务。

上述任务进行span mask的自回归生成，对NLU任务有很好的支持，为了进一步同时解决NLG任务，将span换为sentence-level和document-level不同长度的自回归生成任务。

fine-tuning 过程类似文本分类任务可以使用模板promt方法进行转换为text2text任务，其他也可以直接在无条件生成和有条件生成上进行fine-tune

实验：作者在在superGLUE和CNN daily和XSum数据上进行对比实验。在superGLUE上进行消融实验。

实验。在superGLUE上进行消融实验。

评价：整个模型还是很大的，不过可能受限于实验室的人力，对比实验工作量有些不够，就说自己在NLG上比其他NLG模型更好，有些不充分，整体在其他NLU任务除了SuperGLUE也没有进行实验，创新点还是有的，但模型在实际效果上能否超过经典模型还需要进行实验尝试。

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
1
评论
GLM General Language Model Pretraining with Autoregressive Blank Infilling

ACL2022 统一预训练模型
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。