MLOPS：大数据/服务器下的大规模机器学习技术—并行计算技术的简介、训练大模型3+分布式并行策略：数据并行DP【MPI/Hadoop】、模型并行MP【Megatron-LM/PaLM】、管道并行PP

一个处女座的程序猿

已于 2023-11-09 21:39:05 修改

阅读量927

点赞数 3

分类专栏： ML 资深文章(前沿/经验/创新) 文章标签：并行计算机器学习人工智能深度学习 1024程序员节

于 2023-04-22 23:34:58 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41185868/article/details/130312560

版权

资深文章(前沿/经验/创新) 同时被 2 个专栏收录

114 篇文章 14 订阅 ¥299.90 ¥399.90

订阅专栏

514 篇文章 130 订阅

订阅专栏

本文深入探讨了大规模机器学习中的并行计算技术，包括数据并行DP、模型并行MP和管道并行PP。介绍了FSDP技术，它允许在更少的GPU上训练更大的模型，并详细讨论了算法并行和框架并行的实现方式。

摘要由CSDN通过智能技术生成

MLOPS：大数据/服务器下的大规模机器学习技术—并行计算技术的简介、训练大模型3+分布式并行策略：数据并行DP【MPI/Hadoop】、模型并行MP【Megatron-LM/PaLM】、管道并行PP【多核CPU/GPU】)、两种实现方式(算法并行、框架并行)之详细攻略

目录

AI之MLOPS：数据科学/机器学习算法领域之工程化五大核心技术—MLOPS简介、模型开发(流水线/并行处理/持久化/可解释性)、模型部署(两大底层/四大服务)、模型监控、模型管理、自动化技术之详细攻略

MLOPS：大数据/服务器下的大规模机器学习技术—并行计算技术的简介、训练大模型3+分布式并行策略：数据并行DP【MPI/Hadoop】、模型并行MP【Megatron-LM/PaLM】、管道并行PP【多核CPU/GPU】)、两种实现方式(算法并行、框架并行)之详细攻略

DNN之LNN：训练大型神经网络的核心技术(数据并行+管道并行+张量并行+专家混合MoE+内存优化策略【CheckPoint/MP/Offloading/优化器内存优化/压缩技术)

一、并行计算技术的简介

1、并行计算技术的概述：数据并行+模型并行+管道并行+多维混合并行+自动并行+优化器相关的并行

PTMs：大模型预训练技巧之ZeRO训练优化技术(DeepSpeed库-减少参数的冗余+优化通信)的简介(四大核心技术(模型分片/梯度累积/内存优化/分布式训练)、两大优化技术(ZeRO-Offload非精度/ZeRO-Redundancy冗余消除)、ZeRO3的三个版本(参数分片→梯度分片→激活值分片)、使用方法、案例应用之详细攻略

1.1、训练大模型三大分布式并行策略：数据并行DP【MPI/Hadoop/Pathways】、模型并行MP【CUDA /Megatron-LM/PaLM/Pathways】、管道并行PP【多核CPU/GPU】

1.2、数据并行模式的发展：DP(单机单进程内多线程)→DDP(多机多进程)→FSDP(算子间并行=多切各自负责+勿需参数同步+共享信息)

1.3、FSDP的简介

(1)、FSDP的概述(更少的GPU训练更大的模型)：基于ZeRO3的思想、算子间并行=多切各自负责+勿需参数同步+共享信息

(2)、FSDP的简短代码案例

2、并行计算模型的概述

(1)、常用的并行计算模型

二、ML实现方式(算法并行/框架并行)——机器学习算法或框架中并行计算技巧实现的简介

T1、算法并行：LIBSVM库、n_jobs参数、LightGBM自带、Rabit(XGBoost)、GPU并行(DNN)

T2、框架并行：multiprocessing 库/ joblib 库、sklearn.pipeline的FeatureUnion函数、TensorFlow的Dataflow图、PyTorch的多进程或多GPU实现数据并行、PS-Lite(MXNet并行库)、Spark MLlib

相关文章

了解本专栏

一个处女座的程序猿

关注

3
点赞
踩
7

收藏

觉得还不错? 一键收藏
打赏
0
评论
MLOPS：大数据/服务器下的大规模机器学习技术—并行计算技术的简介、训练大模型3+分布式并行策略：数据并行DP【MPI/Hadoop】、模型并行MP【Megatron-LM/PaLM】、管道并行PP

MLOPS：大数据/服务器下的大规模机器学习技术—并行计算技术的简介、训练大模型3+分布式并行策略：数据并行DP【MPI/Hadoop】、模型并行MP【Megatron-LM/PaLM】、管道并行PP【多核CPU/GPU】)、两种实现方式(算法并行、框架并行)之详细攻略目录相关文章一、并行计算技术的简介二、ML实现方式(算法并行/框架并行)——机器学习算法或框架中并行计算技巧实现的简介相关文章AI之MLOPS：数据科学/机器学习算法领域之工程化五大核心技
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

一个处女座的程序猿 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。