- 博客(30)
- 收藏
- 关注
原创 深入浅出大模型量化(二):“优等生”SmoothQuant 如何实现又快又准的 W8A8
深入浅出大模型量化(二):“优等生”SmoothQuant 如何实现又快又准的 W8A8
2025-05-01 18:40:08
744
原创 大模型分布式通信太复杂?一文搞懂核心通信操作 (Broadcast, Reduce, AllReduce...)
大模型分布式通信太复杂?一文搞懂核心通信操作 (Broadcast, Reduce, AllReduce...)
2025-04-15 13:17:16
1018
原创 大模型微调“瘦身”记(四):深入解析LoRA系列系列——LoRA、AdaLoRA与QLoRA
大模型微调“瘦身”记(四):深入解析LoRA系列系列——LoRA、AdaLoRA与QLoRA
2025-04-11 16:53:08
936
原创 大模型微调“瘦身”记(三):P-Tuning——让Prompt“活”起来,从v1到v2的通用进化之路
大模型微调“瘦身”记(三):P-Tuning——让Prompt“活”起来,从v1到v2的通用进化之路
2025-04-11 12:15:09
837
原创 大模型微调“瘦身”记(二):Prefix Tuning 与 Prompt Tuning
大模型微调“瘦身”记(二):Prefix Tuning 与 Prompt Tuning
2025-04-10 15:40:14
999
原创 【LLM】训练一个6B大模型要多少显存?全量微调 vs 参数高效微调
模型参数: 12 GB (FP16)梯度: 12 GB (FP16)优化器状态: 48 GB (FP32 for AdamW)基础显存需求 (不含激活值和杂项): 12 + 12 + 48 = 72 GB这仅仅是模型、梯度和优化器状态的基础开销!还没算上非常可观的激活值占用。即使使用了梯度检查点技术,激活值仍然会占用相当一部分显存(可能几 GB 到几十 GB,取决于配置)。
2025-04-09 19:35:43
1131
原创 大模型时代的归一化技术:解密Transformer架构中Pre-Norm与RMSNorm的黄金组合
大模型时代的归一化技术:解密Transformer架构中Pre-Norm与RMSNorm的黄金组合
2025-04-09 16:12:28
827
原创 面试加分!深入浅出Transformer核心:Attention、Norm与多头机制全解析
面试加分!深入浅出Transformer核心:Attention、Norm与多头机制全解析
2025-04-09 16:08:42
854
原创 Transformer归一化技术解析:Pre-Norm/Post-Norm与LayerNorm/RMSNorm的演进与选择
Transformer归一化技术解析:Pre-Norm/Post-Norm与LayerNorm/RMSNorm的演进与选择
2025-04-08 20:39:10
972
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人