模型端侧分布式训练、推理、量化、编译相关资料汇总
分布式并行训练与计算、模型部署(量化、剪枝、稀疏化、知识蒸馏、重参数化)、深度学习编译器(TVM/MLIR)、模型加速推理框架(TensorRT、ONNX)
分布式并行训练与计算
学习资料:
- 【分布式训练】一文捋顺千亿模型训练技术:流水线并行、张量并行和3D并行
- 【分布式训练】Collective通信操作及Pytorch示例
- 混合精度训练与显存分析
- 微软/分布式训练算法分类
- 【分布式训练】DeepSpeed:AllReduce与ZeRO-DP
- Megatron-DeepSpeed】张量并行工具代码mpu详解(一):并行环境初始化
- 【Megatron-DeepSpeed】张量并行工具代码mpu详解(二):Collective通信操作的封装mappings
- 【Megatron-DeepSpeed】张量并行工具代码mpu详解(三):张量并行层的实现及测试
- 【Megatron-DeepSpeed】张量并行工具代码mpu详解(四):张量并行版Embedding层及交叉熵的实现及测试
模型稀疏化以及底层硬件原理
深度学习框架的编译
深度学习网络量化基础知识/应用
- CNN量化 vs. LLM量化
- 对称量化与非对称量化
- 部署系列——神经网络INT8量化教程第一讲!
- Int8量化-介绍(一)
- NCNN Conv量化详解(一)
- 从TensorRT与ncnn看CNN卷积神经网络int8量化算法
- 商汤PPQ工具视频讲解
- 量化番外篇——TensorRT-8的量化细节
- 实践torch.fx第一篇——基于Pytorch的模型优化量化神器
深度学习网络知识蒸馏的原理以及实践
- 解读模型压缩25:大核卷积网络是比 Transformer 更好的教师吗?
- Knowledge Distillation(知识蒸馏)Review–20篇paper回顾
- 解读模型压缩21:把知识蒸馏理解为正则化:从标签平滑正则化的角度重新审视知识蒸馏
- CVPR 2022详解|重新挖掘logit蒸馏的潜力,旷视等开源解耦知识蒸馏DKD
- CVPR 2022|解耦知识蒸馏,让Hinton在7年前提出的方法重回SOTA行列
- Knowledge Review:知识蒸馏新解法(ReviewKD)
深度学习网络重参数化方面的知识汇总
高效网络架构(面向硬件优化/GPU/CPU/NPU)
- 英伟达最新开源 | FasterViT: 面相硬件优化的高效神经网络架构
- 解读模型压缩17:G-GhostNet:打造适用于 GPU 和 NPU 端的 GhostNet
- 解读模型压缩22:EMO:结合 Attention 重新思考移动端小模型中的基本模块
- 解读模型压缩23:MobileOne:1ms 推理延时的移动端视觉架构
深度学习推理加速框架(TensorRT/ONNXRuntime)
- 深度学习加速:算法、编译器、体系结构与硬件设计
- 深度学习模型大小与模型推理速度的探讨
- TensorRT详细入门指北,如果你还不了解TensorRT,过来看看吧!
- TensorRT C++模型部署系列1-Linux环境配置安装TensorRT保姆级教程
大模型注意力加速(FlashAttention系列)
- 分析transformer模型的参数量、计算量、中间激活、KV cache
- FlashAttention 加速attention计算 & 理论证明|代码解读
- FlashAttention图解(如何加速Attention)
- FlashAttention2详解(性能比FlashAttention提升200%)
- 斯坦福博士一己之力让Attention提速9倍!FlashAttention燃爆显存,Transformer上下文长度史诗级提升