zhulu506-CSDN博客

原创浅析 MegEngine 对 DTR 的实现与改进

分享笔者在学习 MegEngine 对 DTR 的实现时的笔记。

2025-05-01 23:37:33 1116

原创【笔记】深度学习模型训练的 GPU 内存优化之旅⑤：内存分配篇

梳理并分享与内存分配技术相关的高水平论文。

2025-05-01 22:11:11 1007

原创【笔记】深度学习模型训练的 GPU 内存优化之旅④：内存交换与重计算的联合优化篇

梳理并分享与内存交换与重计算的联合优化技术相关的高水平论文。

2025-05-01 21:59:23 1064

原创【笔记】深度学习模型训练的 GPU 内存优化之旅③：内存交换篇

梳理并分享与内存交换技术相关的高水平论文。

2025-05-01 21:38:19 848

原创 CS 读研期间的一些实用工具和解决方案

分享笔者读研期间常用的一些实用工具和解决方案，以帮助更多计算机专业研究生。

2025-03-29 15:13:23 360

翻译【翻译】DTR_ICLR 2021

翻译论文：Dynamic Tensor Rematerialization

2025-03-28 09:54:26 100

翻译【翻译】GMLake_ASPLOS 2024

翻译论文：GMLake: Efficient and Transparent GPU Memory Defragmentation for Large-scale DNN Training with Virtual Memory Stitching

2025-03-27 23:07:19 90

原创【笔记】深度学习模型训练的 GPU 内存优化之旅②：重计算篇

梳理并分享与重计算技术相关的高水平论文。

2025-03-19 22:49:01 1006

原创【笔记】深度学习模型训练的 GPU 内存优化之旅①：综述篇

梳理并分享与单卡上的显存优化相关的中英综述论文。

2025-03-15 09:40:45 1299

原创在 Overleaf/TeXPage 编译 NUDT Paper LaTeX 模板

分享自己在使用 NUDT 学位论文 LaTeX 模板时遇到的各种问题和解决方案。

2025-03-03 23:41:59 1337 2

原创 PyTorch 源码学习⑥：GPU 内存管理之初步探索 expandable_segments

本文围绕 PyTorch 2.1 推出的 expandable_segments 机制进行了分析讨论。

2025-02-28 21:34:36 1270

翻译【翻译】Introducing Low-Level GPU Virtual Memory Management

翻译优秀博客 Introducing Low-Level GPU Virtual Memory Management

2025-02-27 21:35:34 100

原创 PyTorch 源码学习⑤：GPU 内存管理之深入分析 CUDACachingAllocator

本文对 PyTorch 原生的 GPU 内存管理机制进行了比较深入且全面的分析。

2025-02-26 20:35:10 1332

原创 PyTorch 源码学习④：GPU 内存管理之它山之石——TensorFlow BFC 算法

本文重点关注 TensorFlow BFC 算法的核心思想。

2025-02-23 22:23:20 1127

原创 PyTorch 源码学习③：Dispatch & Autograd & Operators

分享关于 PyTorch 动态计算图有关的算子 (Operators) 注册、分发 (Dispatch) 机制和自动微分 (Autograd) 机制的资料。

2025-02-21 11:47:15 1251

原创 PyTorch 源码学习②：从 Tensor 到 Storage

分享关于 PyTorch 核心数据结构 Tensor 的资料和分析。

2025-02-13 23:31:58 1310

原创 PyTorch 源码学习①：阅读经验 & 代码结构

分享关于 PyTorch 源码阅读经验和 PyTorch 代码结构的资料。

2025-02-13 22:36:57 1259

原创在 GitHub 上根据 commit 值找到提交记录和代码版本

本文以 PyTorch 为例，介绍如何通过 commit 值找到对应的提交记录和代码版本。

2025-02-13 16:52:35 506

翻译【翻译】PyTorch中的intrusive_ptr

翻译一篇分析 PyTorch 核心数据结构的博客。

2025-02-13 16:27:47 100

翻译【翻译】Pytorch机制，源代码分析与内存管理调研

翻译一篇优秀的博客：Pytorch机制，源代码分析与内存管理调研

2025-02-12 17:07:26 142

原创 NVIDIA Nsight Systems 的使用

分享如何学习使用 NVIDIA Nsight Systems。

2025-02-10 11:35:26 1417

原创【笔记】GPU、CUDA 和 cuDNN 学习研究

分享自己看过的一些关于 GPU、CUDA 和 cuDNN 的网络资料。

2025-02-09 16:56:31 1406

原创【笔记】CUDA 计算平台 & CUDA 兼容性

在 b 站看过的两个关于 CUDA 的技术分享。

2025-02-09 16:17:00 377

原创【笔记】深度学习框架与静态/动态计算图

梳理流行的深度学习框架官网对静态计算图和动态计算图的介绍。

2025-02-09 11:21:37 1169

原创读研期间看过的一些科研攻略

分享本人读研期间阅读过、收藏过的一些科研攻略。

2025-02-08 17:59:27 714

原创计算机自学资源分享

分享自己学习和收藏过的优质计算机自学资源。

2025-02-08 15:03:11 843

原创【笔记】821 简答题整理

821 题目整理，分享以供参考。

2025-02-07 16:56:20 905

原创【笔记】821 填空题整理

821 题目整理，分享以供参考。

2025-02-07 16:32:13 1058

原创 Linux 的使用

记录自己在科研过程中学到的一些Linux命令。

2025-02-07 15:47:34 1036

原创使用 DeepSpeed 微调 OPT 基础语言模型

记录复现 DeepSpeed-Chat 的过程。

2024-12-17 21:13:25 1579

原创 MLSys / System for AI / AI System / AI Infra 学习资料

机器学习系统相关学习资料

2024-10-21 00:22:25 847

原创查看 PyTorch 的 GPU 使用情况的工具

(caching memory allocator) 来加快内存分配速度。这允许快速释放内存而无需设备同步。然而，由分配器管理的未使用内存在nvidia-smi中仍会显示为已使用。的功能，这可以帮助你理解代码产生的底层分配模式。对于更高级的用户，我们提供了通过。缓存分配器的行为可以通过环境变量。

2024-10-08 17:00:04 3225 3

原创 ChatGLM 微调复现

【代码】ChatGLM2-6B 微调复现。

2024-10-05 22:56:41 740 2

原创常见显存优化技术的使用

梯度检查点（重计算）技术的使用

2024-10-01 23:00:29 556

原创使用kaggle命令下载数据集和模型

【代码】使用kaggle命令下载数据集和模型。

2024-09-26 22:58:03 1130

原创 Origin 的使用

Origin 的学习与使用

2024-07-08 23:41:45 995

原创 LaTeX 的使用

学习使用latex

2024-06-17 21:31:41 1224

原创 Git、Github 和 GitCode 的使用

git 和 github 的一些使用。

2024-06-08 23:40:11 1427

原创 Pycharm 的使用

pycharm使用时的一些记录

2024-06-02 10:33:56 359

原创【笔记】EasyHPC - PyTorch入门教程

超算习堂 - PyTorch入门教程的笔记

2024-05-10 15:37:59 800

空空如也

空空如也