2023年最新网络模型端侧分布式训练、压缩与量化、推理加速等相关资料汇总

模型端侧分布式训练、推理、量化、编译相关资料汇总

分布式并行训练与计算、模型部署(量化、剪枝、稀疏化、知识蒸馏、重参数化)、深度学习编译器(TVM/MLIR)、模型加速推理框架(TensorRT、ONNX)

分布式并行训练与计算
学习资料:
  1. 【分布式训练】一文捋顺千亿模型训练技术:流水线并行、张量并行和3D并行
  2. 【分布式训练】Collective通信操作及Pytorch示例
  3. 混合精度训练与显存分析
  4. 微软/分布式训练算法分类
  5. 【分布式训练】DeepSpeed:AllReduce与ZeRO-DP
  6. Megatron-DeepSpeed】张量并行工具代码mpu详解(一):并行环境初始化
  7. 【Megatron-DeepSpeed】张量并行工具代码mpu详解(二):Collective通信操作的封装mappings
  8. 【Megatron-DeepSpeed】张量并行工具代码mpu详解(三):张量并行层的实现及测试
  9. 【Megatron-DeepSpeed】张量并行工具代码mpu详解(四):张量并行版Embedding层及交叉熵的实现及测试
模型稀疏化以及底层硬件原理

1.基于稀疏化的模型压缩

深度学习框架的编译
  1. 基本背景知识/深度学习框架的编译与优化
  2. 深度学习编译器(TVM/MLIR的原理)
深度学习网络量化基础知识/应用
  1. CNN量化 vs. LLM量化
  2. 对称量化与非对称量化
  3. 部署系列——神经网络INT8量化教程第一讲!
  4. Int8量化-介绍(一)
  5. NCNN Conv量化详解(一)
  6. 从TensorRT与ncnn看CNN卷积神经网络int8量化算法
  7. 商汤PPQ工具视频讲解
  8. 量化番外篇——TensorRT-8的量化细节
  9. 实践torch.fx第一篇——基于Pytorch的模型优化量化神器
深度学习网络知识蒸馏的原理以及实践
  1. 解读模型压缩25:大核卷积网络是比 Transformer 更好的教师吗?
  2. Knowledge Distillation(知识蒸馏)Review–20篇paper回顾
  3. 解读模型压缩21:把知识蒸馏理解为正则化:从标签平滑正则化的角度重新审视知识蒸馏
  4. CVPR 2022详解|重新挖掘logit蒸馏的潜力,旷视等开源解耦知识蒸馏DKD
  5. CVPR 2022|解耦知识蒸馏,让Hinton在7年前提出的方法重回SOTA行列
  6. Knowledge Review:知识蒸馏新解法(ReviewKD)
深度学习网络重参数化方面的知识汇总
  1. RepVGG:极简架构,SOTA性能,让VGG式模型再次伟大(CVPR-2021)

  2. 结构重参数化:利用参数转换解耦训练和推理结构

  3. 热点讨论:MLP,RepMLP,全连接与“内卷”

  4. ResRep:剪枝SOTA!用结构重参数化实现CNN无损压缩(ICCV)

  5. RepLKNet作者解读:超大卷积核,大到31x31,越大越暴力,涨点又高效!(CVPR 2022)

  6. 底层任务超详细解读 (十三):结构重参数化方法打造边缘设备部署的实时超分模型

  7. 1.3ms 延迟 | 清华 ICCV 2023 最新开源移动端网络架构 RepViT,速度贼溜!

  8. 解读模型压缩18:RepGhost:重参数化技术构建硬件高效的 Ghost 模块

高效网络架构(面向硬件优化/GPU/CPU/NPU)
  1. 英伟达最新开源 | FasterViT: 面相硬件优化的高效神经网络架构
  2. 解读模型压缩17:G-GhostNet:打造适用于 GPU 和 NPU 端的 GhostNet
  3. 解读模型压缩22:EMO:结合 Attention 重新思考移动端小模型中的基本模块
  4. 解读模型压缩23:MobileOne:1ms 推理延时的移动端视觉架构
深度学习推理加速框架(TensorRT/ONNXRuntime)
  1. 深度学习加速:算法、编译器、体系结构与硬件设计
  2. 深度学习模型大小与模型推理速度的探讨
  3. TensorRT详细入门指北,如果你还不了解TensorRT,过来看看吧!
  4. TensorRT C++模型部署系列1-Linux环境配置安装TensorRT保姆级教程
大模型注意力加速(FlashAttention系列)
  1. 分析transformer模型的参数量、计算量、中间激活、KV cache
  2. FlashAttention 加速attention计算 & 理论证明|代码解读
  3. FlashAttention图解(如何加速Attention)
  4. FlashAttention2详解(性能比FlashAttention提升200%)
  5. 斯坦福博士一己之力让Attention提速9倍!FlashAttention燃爆显存,Transformer上下文长度史诗级提升
大语言模型推理加速
  1. LLM Inference CookBook
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值