自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 收藏
  • 关注

原创 UESTC 矩阵理论 矩阵类型与性质

期末三天极限复习了矩阵理论,深受各种分解和性质条件折磨,整理了一份大致的分类逻辑。

2025-12-19 03:30:44 180

原创 nvgpu 中一个 SM 能容纳多少 BLOCK ?

架构理论最大Block数/SM常见实际限制16寄存器、共享内存Pascal及以后32寄存器、共享内存情况A:你启动的Block配置是。每个Block需要寄存器:256 threads × 64 registers/thread = 16384 registers。假设SM有65536个寄存器,那么最多能容纳 65536 / 16384 =4个Block。此时寄存器是瓶颈。情况B:你启动的Block配置是。寄存器需求:128 × 32 = 4096。

2025-11-06 16:41:38 642

原创 NCU 性能分析案例

内核代码来自 *

2025-09-26 17:08:22 437

原创 Triton 相关知识点

autotune 和 heuristics 的核心,triton.jit装饰的python并不会在python解释器执行,而是会被 triton 捕获,通过将 Python AST 转化成 TTIR,在经过优化转化成 LLVM IR,经过 LLVM IR 的优化转化从 PTX 然后编译成 GPU 机器码。heuristic是规则驱动的,根据参数传递的规则直接计算出配置值。

2025-09-12 14:17:04 385

原创 GPU 相关知识点笔记

等指令到达 du 时已经是几个周期前的 warp 的状态了,此时 du 才进行实时检查。:如果等到 warp 确定空闲的时候才发出指令,warp 就会有空转。这个 warp 可能未来很快就可以执行,对其进行标记,然后根据调度策略(如轮询)从标记 warp 选出来一个将指令送到 du。既然 ws 已经选择的对应 warp 执行指令,为什么还会出现 warp端口被占用的情况?ws 负责决定哪些 warp 执行哪些指令,du 分发指令到具体的warp。warp是根据过去的几个周期内 warp 端口的情况,

2025-09-12 14:16:12 268 1

原创 Portainer 创建 GPU 支持容器 triton 容器

在 Portainer 创建 GPU 容器。访问 Portainer Web 界面。拉取 Portainer 中文版镜像。拉取 Pytorch 官方镜像。启动 Portainer。

2025-09-04 15:40:14 266 1

原创 Docker 常用的网络模式 bridge host

代理在主机上:不需要端口映射(使用host网络)代理在其他容器:不需要端口映射(使用容器网络)✅ 容器获得独立IP(172.17.0.x)场景3:代理在其他容器(不需要端口映射)✅ 需要端口映射(-p)才能从外部访问。场景2:代理在主机上(不需要端口映射)场景1:代理在容器内(需要端口映射)✅ 容器间通过IP或容器名通信。✅ 容器端口直接绑定到主机端口。需要直接使用主机端口的应用。根据代理部署位置和网络模式。代理在容器内:需要端口映射。✅ 通过NAT与外部通信。✅ 直接使用主机网络栈。

2025-09-04 11:51:38 161

原创 Large Language Diffusion Models

本文探讨了大语言模型(LLM)能力的本质来源,提出自回归建模(ARM)并非唯一途径。研究团队开发了LLaDA模型,采用掩码扩散模型(MDM)替代ARM框架,通过离散随机掩码过程及其逆向预测实现文本生成。该模型包含预训练、监督微调和评估三个阶段,在8B参数规模下训练2.3万亿token。实验表明,LLaDA在可扩展性、上下文学习和指令遵循方面与ARM模型相当,在逆向推理任务中甚至优于GPT-4o。研究证实了LLM核心能力源于生成建模原理、Transformer架构和规模效应的协同作用,而非自回归结构的独特性。

2025-07-04 20:37:50 799

原创 C++ 中的链接(Linkage)总结

在C++中,链接(Linkage)决定了标识符如何在不同翻译单元(源文件)中共享或隐藏。理解链接类型的核心在于区分。

2025-06-19 10:30:36 846

原创 c++强制类型转换 static_cast reinterpret_cast const_cast dynamic_cast

这四种类型转换方式实现了通过不同的形式体现不同的目的和功能,并在各自的领域提供安全检查功能。的反面就是不同功能和风险的类型转换都只有一个形式,既不检查安全性,出错时也难以Debug。C++是一个弱类型语言,以下讨论都限于显式类型转换。

2025-05-12 22:36:48 265

原创 蝶形通信的理解方式 shfl_xor_sync

因为一位二进制的xor等于模二加法,所以0和1可以通过模二加1相互获得彼此。放在上述通信过程中也就是0abcd和1abcd互相交换了信息。放一个8个元素进行蝶形通信的过程图片帮助理解。

2025-04-09 23:12:15 254

原创 Ubuntu 使用 Vcpkg CMake 下载使用 fmt 库

由于 Vcpkg 在 Linux 系统上默认同时安装库文件的 Release 和 Debug 版本,并且在使用时会优先调用 Debug 版本(具体原因可能与默认的 CMake 配置有关),这给代码测试带来了一定困扰。因此,在正式使用 Vcpkg 之前,可以修改。目录来清除 CMake 已经生成的缓存文件,然后重新执行 CMake 配置指令。后面一串就是为了使用 Vcpkg 下载的库添加的指令,否则会报找不到对应库的。CMake 在运行时会自动检查一些特定的环境变量,并将其值作为默认配置。

2025-02-27 15:03:58 929

原创 Ubuntu 22.04 LTS (jammy) 一键配置 换源 C/C++ 环境 Git

【代码】Ubuntu 22.04 LTS (jammy) 一键配置 换源 C/C++ 环境 Git。

2025-02-24 00:14:13 429

原创 Ubuntu 20.04(noble) 一键配置 C/C++ 环境 Git

【代码】Ubuntu 20.04 一键配置 C/C++ 环境。

2024-11-27 00:28:37 375

原创 WSL Ubuntu 20.04 复制 vim 中的内容到 Windows 剪切板

【代码】WSL Ubuntu 20.04 复制 vim 中的内容到 Windows 剪切板。

2024-11-27 00:20:27 716

原创 C/C++ 开发的常见的文件后缀 了解C/C++

C/C++ 开发的常见的文件后缀类型Windows 扩展名Linux 扩展名源文件.c, .cpp.c, .cpp头文件.h, .hpp.h, .hpp预编译头文件.pch.gch编译中间文件.obj.o静态库.lib.a动态库.dll.so可执行文件.exe无后缀 或 .out

2024-11-26 21:47:42 530

原创 C++程序内存布局 类内存布局 虚函数 虚函数表 多态 虚函数类的内存布局

A: 若直接重写父类方法,使用父类指针指向子类对象时,调用的是父类的方法。而使用虚函数,通过虚函数表调用对应的方法,实现了基类指针调用子类方法的功能,即多态。:通过虚函数表实现的多态性,使得基类指针可以调用子类的方法。:每个包含虚函数的对象都有一个指向虚函数表的指针(Q: 为什么使用虚函数而不是直接重写父类方法?如果父类声明了纯虚函数(),虚函数表中记录了虚函数的入口地址。),则子类必须实现该函数。

2024-11-09 18:06:47 743

原创 VSCode 配置 Xv6 代码跳转

clangd 是一个由 C++ 编写的用于为 C、C++、Objective-C 和 Objective-C++ 提供语言服务器协议(Language Server Protocol,LSP)实现的工具。例如,如果你使用 Makefile 进行编译,只需在执行 make 命令前加上 “bear make”,Bear 就会记录下整个编译过程并生成数据库。代码分析:许多静态代码分析工具可以利用 Bear 生成的编译数据库来更好地理解代码结构和依赖关系,从而更准确地发现潜在的问题。

2024-10-22 14:48:22 870

矩阵理论-矩阵类型与性质-drawio原始文件

矩阵理论-矩阵类型与性质-drawio原始文件

2025-12-19

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除