深度学习系列58:大模型训练和压缩

IE06

已于 2024-02-18 08:46:29 修改

阅读量233

点赞数 2

分类专栏：深度学习系列文章标签：深度学习人工智能

于 2024-02-18 08:19:49 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/kittyzc/article/details/136140885

版权

深度学习系列专栏收录该内容

68 篇文章 154 订阅

订阅专栏

本文探讨了大模型训练中的关键优化技术，包括数据并行、模型并行、ZeRO优化、流水线并行、混合精度训练，以及梯度offloading、overlapping等高效策略。同时涉及模型压缩方法如知识蒸馏、剪枝、量化和weightsharing，以及low-rankapproximation的应用，以及BMCook软件在实践中的角色。

摘要由CSDN通过智能技术生成

1. 大模型训练

1.1数据并行

在这里插入图片描述

1.2 模型并行

在这里插入图片描述

1.3 ZeRO

在这里插入图片描述

1.4 流水线并行

在这里插入图片描述

1.5 混合精度训练

在这里插入图片描述

在这里插入图片描述

1.6 offloading

把梯度放在cpu上保存和计算
在这里插入图片描述

1.7 overlapping

提前传输数据
在这里插入图片描述

1.8 checkpointing

中间线性层不保存，反向传播时再次重新计算
在这里插入图片描述

1.9 使用BMtrain

在这里插入图片描述

2. 大模型压缩

2.1 知识蒸馏

在这里插入图片描述

2.2 模型剪枝

在这里插入图片描述

2.3 模型量化

在这里插入图片描述

2.4 weight sharing

不同层使用同样的层进行计算
在这里插入图片描述

2.5 low-rank approximation

在这里插入图片描述

2.6 BMCook软件

在这里插入图片描述

在这里插入图片描述

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
深度学习系列58:大模型训练和压缩

把梯度放在cpu上保存和计算。
复制链接

扫一扫

专栏目录

IE06 CSDN认证博客专家 CSDN认证企业博客

码龄9年

274: 原创

1万+: 周排名

3793: 总排名

82万+: 访问

: 等级

7424: 积分

1335: 粉丝

804: 获赞

307: 评论

3933: 收藏

私信

关注

热门文章

分类专栏

最新评论

python系列30：各种爬虫技术总结
小王毕业啦: 博主的这篇文章《python系列30：各种爬虫技术总结-CSDN博客》真是写得太棒了！通过博主的详细介绍，我对于爬虫技术有了更深入的了解，收获颇丰。博主的写作功底非常扎实，细节描写令人印象深刻，让我感受到了博主的丰富经验和知识储备。希望博主能够继续分享更多优质文章，也期待能够得到博主的指导与帮助，一同进步成长。再次感谢博主的辛勤付出与支持，期待更多精彩内容！
运筹系列65：使用Julia精确求解tsp问题
风雪中的石子: 大哥，请问你这图是用啥画的
运筹系列1：线性规划单纯形法python代码
野猪365: 这样检验数跟着矩阵一起pivot会在变量较多的情况下导致检验数不准确吗
运筹系列27：Cplex中的callback function
Realm_add1: 数学模型第6行代码似乎少乘了客户的需求量
运筹系列92：vrp算法包VROOM
普通网友: 优质好文，博主的文章细节很到位，兼顾实用性和可操作性，感谢博主的分享，文章思路清晰【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。