模型端侧分布式训练、推理、量化、编译相关资料汇总
分布式并行训练与计算、模型部署(量化、剪枝、稀疏化、知识蒸馏、重参数化)、深度学习编译器(TVM/MLIR)、模型加速推理框架(TensorRT、ONNX)
分布式并行训练与计算
学习资料:
- 【分布式训练】一文捋顺千亿模型训练技术:流水线并行、张量并行和3D并行
- 【分布式训练】Collective通信操作及Pytorch示例
- 混合精度训练与显存分析
- 微软/分布式训练算法分类
- 【分布式训练】DeepSpeed:AllReduce与ZeRO-DP
- Megatron-DeepSpeed】张量并行工具代码mpu详解(一):并行环境初始化
- 【Megatron-DeepSpeed】张量并行工具代码mpu详解(二):Collective通信操作的封装mappings
- 【Megatron-DeepSpeed】张量并行工具代码mpu详解(三):张量并行层的实现及测试
- 【Megatron-DeepSpeed】张量并行工具代码mpu详解(四):张量并行版Embedding层及交叉熵的实现及测试