自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

qq_54445177的博客

原创深入浅出大模型量化（三）： AWQ，让低比特大模型重获新生

深入浅出大模型量化（三）： AWQ，让低比特大模型重获新生

2025-05-01 18:41:35 854

原创深入浅出大模型量化（二）：“优等生”SmoothQuant 如何实现又快又准的 W8A8

深入浅出大模型量化（二）：“优等生”SmoothQuant 如何实现又快又准的 W8A8

2025-05-01 18:40:08 744

原创深入浅出大模型量化（一）：LLM.int8()与GPTQ原理解析

深入浅出大模型量化（一）：LLM.int8()与GPTQ原理解析

2025-05-01 18:38:57 1052

原创 LLM分布式训练（三）：从1D到3D的张量并行切分艺术

LLM分布式训练（三）：从1D到3D的张量并行切分艺术

2025-04-17 21:54:38 931

原创 LLM分布式训练（二）：流水线并行，让你的大模型“流动”起来！

LLM分布式训练（二）：流水线并行，让你的大模型“流动”起来！

2025-04-17 14:24:15 859

原创 LLM分布式训练（一）：从 DP 到 FSDP：拆解数据并行技术！

LLM分布式训练（一）：从 DP 到 FSDP：拆解数据并行技术！

2025-04-15 14:46:19 2111

原创大模型分布式通信太复杂？一文搞懂核心通信操作 (Broadcast, Reduce, AllReduce...)

大模型分布式通信太复杂？一文搞懂核心通信操作 (Broadcast, Reduce, AllReduce...)

2025-04-15 13:17:16 1018

原创大模型分布式训练面试小贴士

大模型分布式训练面试小贴士

2025-04-14 16:10:31 706

原创为什么要搞分布式训练？一切还得从“太大放不下”说起

为什么要搞分布式训练？一切还得从“太大放不下”说起

2025-04-14 16:09:07 2052

原创深入理解分页优化器(Paged Optimizer)实现原理

深入理解分页优化器(Paged Optimizer)实现原理

2025-04-11 18:51:05 1044

原创大模型微调“瘦身”记（四）：深入解析LoRA系列系列——LoRA、AdaLoRA与QLoRA

大模型微调“瘦身”记（四）：深入解析LoRA系列系列——LoRA、AdaLoRA与QLoRA

2025-04-11 16:53:08 936

原创大模型微调“瘦身”记（三）：P-Tuning——让Prompt“活”起来，从v1到v2的通用进化之路

大模型微调“瘦身”记（三）：P-Tuning——让Prompt“活”起来，从v1到v2的通用进化之路

2025-04-11 12:15:09 837

原创大模型微调“瘦身”记（二）：Prefix Tuning 与 Prompt Tuning

大模型微调“瘦身”记（二）：Prefix Tuning 与 Prompt Tuning

2025-04-10 15:40:14 999

原创大模型微调太贵？带你读懂参数高效微调 (PEFT) 的技术路线与方法

大模型微调太贵？带你读懂参数高效微调 (PEFT) 的技术路线与方法

2025-04-10 14:00:01 307

原创大模型微调“瘦身”记（一）：深入浅出Adapter Tuning系列技术

大模型微调“瘦身”记：深入浅出Adapter Tuning系列技术

2025-04-10 13:59:05 1067

原创日常一些牢骚

日常的一些小牢骚

2025-04-10 12:28:42 200

原创【LLM】训练一个6B大模型要多少显存？全量微调 vs 参数高效微调

模型参数: 12 GB (FP16)梯度: 12 GB (FP16)优化器状态: 48 GB (FP32 for AdamW)基础显存需求 (不含激活值和杂项): 12 + 12 + 48 = 72 GB这仅仅是模型、梯度和优化器状态的基础开销！还没算上非常可观的激活值占用。即使使用了梯度检查点技术，激活值仍然会占用相当一部分显存（可能几 GB 到几十 GB，取决于配置）。

2025-04-09 19:35:43 1131

原创大模型时代的归一化技术：解密Transformer架构中Pre-Norm与RMSNorm的黄金组合

大模型时代的归一化技术：解密Transformer架构中Pre-Norm与RMSNorm的黄金组合

2025-04-09 16:12:28 827

原创面试加分！深入浅出Transformer核心：Attention、Norm与多头机制全解析

面试加分！深入浅出Transformer核心：Attention、Norm与多头机制全解析

2025-04-09 16:08:42 854

原创 Transformer归一化技术解析：Pre-Norm/Post-Norm与LayerNorm/RMSNorm的演进与选择

Transformer归一化技术解析：Pre-Norm/Post-Norm与LayerNorm/RMSNorm的演进与选择

2025-04-08 20:39:10 972

原创 softmax、softmax2d和logsoftmax

softmax、softmax2d和logsoftmax

2025-04-08 20:36:24 892

原创一些优化器汇总（今天死磕优化器）

一些优化器汇总（今天死磕优化器）

2025-04-07 18:48:04 773

原创激活函数汇总

激活函数汇总

2025-04-07 16:01:18 2016

原创我们为什么期望激活函数的输出以零为中心？

我们为什么期望激活函数的输出以零为中心？

2025-04-07 16:00:08 745

原创我们期待的激活函数性质

我们期待的激活函数性质

2025-04-07 15:58:45 771

原创梯度、雅可比与海森矩阵：概念辨析与应用

梯度、雅可比与海森矩阵：概念辨析与应用

2025-04-07 15:57:43 982

原创神经网络梯度计算机制全解析：从全连接到注意力层

神经网络梯度计算机制全解析：从全连接到注意力层

2025-04-07 14:29:20 1019

原创深入理解 PyTorch 自动微分：实现自定义 ReLU 函数

深入理解 PyTorch 自动微分：实现自定义 ReLU 函数

2025-04-07 14:28:05 929

原创 safesoftmax：传统Softmax的数值问题

safesoftmax：传统Softmax的数值问题

2025-04-07 14:26:24 1154

原创注意力模块和全连接层模块的计算复杂度和显存占用

注意力模块和全连接层模块的计算复杂度和显存占用

2025-04-07 14:02:09 729 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示

确定要删除当前文章？

取消删除