自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(30)
  • 收藏
  • 关注

原创 深入浅出大模型量化(三): AWQ,让低比特大模型重获新生

深入浅出大模型量化(三): AWQ,让低比特大模型重获新生

2025-05-01 18:41:35 854

原创 深入浅出大模型量化(二):“优等生”SmoothQuant 如何实现又快又准的 W8A8

深入浅出大模型量化(二):“优等生”SmoothQuant 如何实现又快又准的 W8A8

2025-05-01 18:40:08 744

原创 深入浅出大模型量化(一):LLM.int8()与GPTQ原理解析

深入浅出大模型量化(一):LLM.int8()与GPTQ原理解析

2025-05-01 18:38:57 1052

原创 LLM分布式训练(三):从1D到3D的张量并行切分艺术

LLM分布式训练(三):从1D到3D的张量并行切分艺术

2025-04-17 21:54:38 931

原创 LLM分布式训练(二):流水线并行,让你的大模型“流动”起来!

LLM分布式训练(二):流水线并行,让你的大模型“流动”起来!

2025-04-17 14:24:15 859

原创 LLM分布式训练(一):从 DP 到 FSDP:拆解数据并行技术!

LLM分布式训练(一):从 DP 到 FSDP:拆解数据并行技术!

2025-04-15 14:46:19 2111

原创 大模型分布式通信太复杂?一文搞懂核心通信操作 (Broadcast, Reduce, AllReduce...)

大模型分布式通信太复杂?一文搞懂核心通信操作 (Broadcast, Reduce, AllReduce...)

2025-04-15 13:17:16 1018

原创 大模型分布式训练面试小贴士

大模型分布式训练面试小贴士

2025-04-14 16:10:31 706

原创 为什么要搞分布式训练?一切还得从“太大放不下”说起

为什么要搞分布式训练?一切还得从“太大放不下”说起

2025-04-14 16:09:07 2052

原创 深入理解分页优化器(Paged Optimizer)实现原理

深入理解分页优化器(Paged Optimizer)实现原理

2025-04-11 18:51:05 1044

原创 大模型微调“瘦身”记(四):深入解析LoRA系列系列——LoRA、AdaLoRA与QLoRA

大模型微调“瘦身”记(四):深入解析LoRA系列系列——LoRA、AdaLoRA与QLoRA

2025-04-11 16:53:08 936

原创 大模型微调“瘦身”记(三):P-Tuning——让Prompt“活”起来,从v1到v2的通用进化之路

大模型微调“瘦身”记(三):P-Tuning——让Prompt“活”起来,从v1到v2的通用进化之路

2025-04-11 12:15:09 837

原创 大模型微调“瘦身”记(二):Prefix Tuning 与 Prompt Tuning

大模型微调“瘦身”记(二):Prefix Tuning 与 Prompt Tuning

2025-04-10 15:40:14 999

原创 大模型微调太贵?带你读懂参数高效微调 (PEFT) 的技术路线与方法

大模型微调太贵?带你读懂参数高效微调 (PEFT) 的技术路线与方法

2025-04-10 14:00:01 307

原创 大模型微调“瘦身”记(一):深入浅出Adapter Tuning系列技术

大模型微调“瘦身”记:深入浅出Adapter Tuning系列技术

2025-04-10 13:59:05 1067

原创 日常一些牢骚

日常的一些小牢骚

2025-04-10 12:28:42 200

原创 【LLM】训练一个6B大模型要多少显存?全量微调 vs 参数高效微调

模型参数: 12 GB (FP16)梯度: 12 GB (FP16)优化器状态: 48 GB (FP32 for AdamW)基础显存需求 (不含激活值和杂项): 12 + 12 + 48 = 72 GB这仅仅是模型、梯度和优化器状态的基础开销!还没算上非常可观的激活值占用。即使使用了梯度检查点技术,激活值仍然会占用相当一部分显存(可能几 GB 到几十 GB,取决于配置)。

2025-04-09 19:35:43 1131

原创 大模型时代的归一化技术:解密Transformer架构中Pre-Norm与RMSNorm的黄金组合

大模型时代的归一化技术:解密Transformer架构中Pre-Norm与RMSNorm的黄金组合

2025-04-09 16:12:28 827

原创 面试加分!深入浅出Transformer核心:Attention、Norm与多头机制全解析

面试加分!深入浅出Transformer核心:Attention、Norm与多头机制全解析

2025-04-09 16:08:42 854

原创 Transformer归一化技术解析:Pre-Norm/Post-Norm与LayerNorm/RMSNorm的演进与选择

Transformer归一化技术解析:Pre-Norm/Post-Norm与LayerNorm/RMSNorm的演进与选择

2025-04-08 20:39:10 972

原创 softmax、softmax2d和logsoftmax

softmax、softmax2d和logsoftmax

2025-04-08 20:36:24 892

原创 一些优化器汇总(今天死磕优化器)

一些优化器汇总(今天死磕优化器)

2025-04-07 18:48:04 773

原创 激活函数汇总

激活函数汇总

2025-04-07 16:01:18 2016

原创 我们为什么期望激活函数的输出以零为中心?

我们为什么期望激活函数的输出以零为中心?

2025-04-07 16:00:08 745

原创 我们期待的激活函数性质

我们期待的激活函数性质

2025-04-07 15:58:45 771

原创 梯度、雅可比与海森矩阵:概念辨析与应用

梯度、雅可比与海森矩阵:概念辨析与应用

2025-04-07 15:57:43 982

原创 神经网络梯度计算机制全解析:从全连接到注意力层

神经网络梯度计算机制全解析:从全连接到注意力层

2025-04-07 14:29:20 1019

原创 深入理解 PyTorch 自动微分:实现自定义 ReLU 函数

深入理解 PyTorch 自动微分:实现自定义 ReLU 函数

2025-04-07 14:28:05 929

原创 safesoftmax:传统Softmax的数值问题

safesoftmax:传统Softmax的数值问题

2025-04-07 14:26:24 1154

原创 注意力模块和全连接层模块的计算复杂度和显存占用

注意力模块和全连接层模块的计算复杂度和显存占用

2025-04-07 14:02:09 729 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除