大语言模型-GLM-General Language Model Pretraining

P-ShineBeam

于 2024-08-28 11:11:55 发布

阅读量768

点赞数 22

分类专栏：大语言模型 NLP基础知识基础文章标签：语言模型人工智能自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42045968/article/details/140790030

版权

知识基础同时被 3 个专栏收录

32 篇文章 0 订阅

订阅专栏

30 篇文章 1 订阅

订阅专栏

大语言模型

15 篇文章 0 订阅

订阅专栏

一、背景信息：

GLM是2020-2021年由智谱AI研究并发布的预训练语言模型。
GLM是一种基于自回归空白填充的通用预训练语言模型。
GLM 通过添加二维位置编码和允许任意顺序预测空白区域，改进了空白填充预训练，在NLU任务上超越了 BERT 和 T5。
GLM的网络架构使用的是多层Transformer Decoder改的结构。

二、整体结构：

Pre-Norm，前归一化：将Layer Normalization步骤放置在各模块之前进行。
DeepNorm，归一化函数的调整：GLM的Layer Normalization使用了DeepNorm方式。
RoPE，位置编码的调整： GLM不再位置向量合成输入向量，而是在每次Attention时进行RoPE的位置向量编码。
GLU， FFN层激活函数调整：FFN使用具有GeLU激活的GLU作为激活函数。

三、GLM训练

GLM是一种基于自回归空白填充的通用预训练语言模型。

（1）自回归空白填充

自回归空白填充目标

在这里插入图片描述

给定输入 X = [x1, x2, x3, x3, x5, x6]
将选择掩码的片段 [x3], [x5, x6] 进行MASK，得到 Part A，表示损坏后的文本（见图中的(a) ）
将选择掩码的片段抽取出，并且随机排序 / shuffle，得到 Part B，表示被掩盖、需要填充的文本（见图中的(b) ）
将 PartA 与 PartB 拼接成一个sequence，Part A部分采用双向注意力，PartB部分采样自回归预测。（见图中的© ）

从λ = 3的泊松分布中随机抽取MASK的片段长度。反复采样新的跨度片段长度，直到至少15%的原始令牌被屏蔽。根据经验，我们发现15%的比例对于下游NLU任务的良好表现至关重要

attention mask的设计

Part A作为初始输入，其tokens之间应该互相可见，但是不能见到被MASK的（下文即Part B中的tokens）
PartB中的tokens肯定是要能看见Part A的tokens的（文本生成需要能看到上文）
PartB中应该能见到历史生成的token，但不可见尚未生成的token。
这里其实是组合了双向的attention（Part A）和causal attention(Part B)。

（2）多任务预训练

对词汇级别的短文本区域进行Mask，适合于 NLU 任务; 要达到NLU任务目标的同时具备一定的长文本生成能力，设定了下面两个任务训练目标，来同时优化文本任务与空白填充任务。

• 文档级别。随机抽样一个片段，其长度从原始长度的50％到100％的均匀分布中抽样。该目标旨在进行长文本生成。

• 句子级别。限制掩蔽片段必须是完整的句子。随机抽样多个片段（句子）以覆盖15％的词汇。此目标旨在进行seq2seq任务，其预测通常为完整的句子或段落。

这两个新目标与原始目标相同。唯一的区别在于遮掩片段的数量和长度。

Reference

1、GLM: General Language Model Pretraining with Autoregressive Blank Infilling

关注

22
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

P-ShineBeam CSDN认证博客专家 CSDN认证企业博客

码龄6年

65: 原创

3万+: 周排名

2万+: 总排名

8万+: 访问

: 等级

1187: 积分

1576: 粉丝

282: 获赞

20: 评论

477: 收藏

私信

关注

热门文章

分类专栏

最新评论

Celery结合flask完成异步任务与定时任务
代码写注释: 谢谢你的分享。你说的对，celery对目录层级要求高，尤其是Django。
r语言基础学习——数据对象
Amireux.94: 不常用的是哪个啊
Celery结合flask完成异步任务与定时任务
北风之神c: 总结的很全面，写得赞，博主用心了。 celery对目录层级文件名称格式要求太高，只适合规划新的项目，对不规则文件夹套用难度高。所以新手使用celery很仔细的建立文件夹名字、文件夹层级、python文件名字。所以网上的celery博客教程虽然很多，但是并不能学会使用，因为要运行起来需要以下6个方面都掌握好，博客文字很难表达清楚或者没有写全面以下6个方面。 celery消费任务不执行或者报错NotRegistered，与很多方面有关系，如果要别人排错，至少要发以下6方面的截图，因为与一下6点关系很大。 1)整个项目目录结构, 2）@task入参 ,3）celery的配置，4）celery的配置 include ,5）cmd命令行启动参数 --queues= 的值,6）用户在启动cmd命令行时候，用户所在的文件夹。在不规范的文件夹路径下，使用celery难度很高，一般教程都没教。 [项目文件夹目录格式不规范下的celery使用演示](https://github.com/ydf0509/celery_demo) 。此国产分布式函数调度框架 funboost python万能通用函数加速器 https://funboost.readthedocs.io/ ，从用法调用难度，用户所需代码量，超高并发性能，qps控频精确程度，支持的中间件类型，任务控制方式，稳定程度等19个方面全方位超过celery。发布性能提高1000%，消费性能提高2000%。 python万能分布式函数调度框架funboost支持python所有类型的并发模式和一切知名消息队列中间件，python函数加速器，框架包罗万象,万能编程功能宝典，一统编程思维，与业务不绑定，适用范围广。 funboot能支持celery作为中间件，用户可以使用funboost的极简api来使用celery核心调度，不用手动复杂的配置操作celery funboost 自动化操作celery https://github.com/ydf0509/funboost_support_celery_demo pip install funboost
python使用开源库进行反距离权重插值
P-ShineBeam: 记得这个是可以选择保存文件的类型的，都是标准的格式；我最近一段时间没有处理地信数据暂时没有结果可以提供
python使用开源库进行反距离权重插值
Daisy_1021: 答主能看一下你代码运行之后的tiff图像结果吗

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。