先说一下，就简单地写点儿氵文，不是博客，只是我的笔记本/工具书

再说一下，就简单地写点儿氵文，不是博客，只是我的笔记本/工具书

原创 # Bash, Zsh, Fish... 到底有啥区别？一次搞懂 Linux Shell 家族

在深入对比之前，我们需要先搞清楚 Shell 到底是干嘛的。计算机的内核（Kernel）是操作系统的核心，它管理着 CPU、内存和硬盘，但它只听得懂晦涩的机器语言和系统调用。作为用户（User），我们说的是“人话”（比如“帮我删个文件”、“启动这个服务”）。Shell（壳），顾名思义，就是包裹在内核外面的一层壳。它是一个翻译官它接收你输入的命令（它找到对应的程序，翻译给内核听。内核干完活，它把结果显示在屏幕上。不用纠结，遵循这个最佳实践场景推荐 Shell理由平时自己在终端敲命令Zsh。

2026-01-21 21:36:18 542

原创 max_num_batched_token 什么意思

是吞吐量和显存安全太大: 容易 OOM（中间计算显存爆炸）。太小: GPU 计算单元吃不饱，推理整体吞吐量下降。

2026-01-12 16:18:53 562

原创 Python 里的“看门大爷”：彻底搞懂描述符 (Descriptors)

在 Python 对象模型里，描述符就是一个把“属性访问”变成“方法调用”的代理类。只要一个类实现了以下任意一个__get__：有人要读属性时触发（对应__set__：有人要改属性时触发（对应__delete__：有人要删属性时触发（对应del obj.x这是“看门大爷”的自我修养。# 我们用一个私有变量名来存真正的数据，防止死循环# 【读】当有人访问 student.math 时# instance: 就是那个 student 对象 (如果是 Student.math 访问，这里是 None)

2026-01-08 16:46:07 924

原创【Gerrit避坑指南】点完 Download 弹出的那串“外星代码”到底是个啥？

Gerrit 的这行命令虽然看着吓人，但它非常精准。它指哪打哪，能让你瞬间回到代码历史的任何一个切片中。下次再看到这串代码，别把它当乱码了，它其实就是一张精准的传送门票。复制，粘贴，回车，搞定！

2026-01-07 19:46:26 226

原创 MLIR 中最常用的方言

输入：PyTorch 模型：描述“我要做一个卷积”。：把卷积拆解成“几层for循环”。：把循环里的计算变成“向量加法”，并分配物理内存。LLVM：变成 LLVM IR。输出：二进制可执行文件。

2025-12-25 20:08:42 299

原创告别 -1 和 NULL：拥抱 C++ `std::optional` 的优雅生活

的出现，标志着 C++ 在类型安全和代码语义化上又迈出了一大步。它不仅减少了 Bug，更让你的代码读起来像是在讲故事，而不是在玩猜谜游戏。下一次当你准备返回-1我是不是该用盒子把它装起来了？

2025-12-25 19:45:14 380

原创 VS Code Python 语言服务器启动失败，代码无法高亮与跳转

核心步骤是删除远程机器上所有冲突的 Python 扩展目录，强制 VS Code 重新下载最新版本。这将删除所有 Python 扩展，VS Code 会在下次连接时重新安装。VS Code 将自动检测缺失的扩展，并下载最新且唯一的版本，语言服务器随即恢复正常。），导致语言服务器启动失败，无法进行代码跳转和智能感知。时，由于远程服务器的扩展目录中存在。或语言服务器许可相关错误。

2025-12-04 16:39:50 209

原创 [特殊字符] 深入 Python 虚拟机：揭秘 `import` 语句背后的 `IMPORT_NAME` 与 `IMPORT_FROM`

负责宏观的模块加载和初始化，是耗时最长的步骤；而则负责微观的属性提取，是完成语法的关键。它们在操作数栈上的精确操作，共同构成了 Python 强大而灵活的模块导入系统。现在，当你下一次按下import时，你已经知道了 Python 在幕后为你做了多少工作！

2025-12-04 13:41:39 746

翻译 Announcing vLLM-Omni: Easy, Fast, and Cheap Omni-Modality Model Serving

如今最先进的模型能够跨文本、图像、音频和视频进行推理，并使用多样化的架构生成异构输出。我们正在积极开发对更多架构的支持，并邀请社区帮助塑造 vLLM-Omni 的未来。我们的路线图侧重于扩展模型支持，并将高效推理的界限推得更远，同时构建合适的框架来赋能未来对全模态模型的研究。抽象，我们提供了一种简单直接的方式来支持各种全模态模型，包括 Qwen-Omni、Qwen-Image 和其他最先进的模型。是首批支持全模态模型服务的开源框架之一，它将 vLLM 卓越的性能扩展到了多模态和非自回归推理领域。

2025-12-03 13:17:55 146

原创 A机通过 python -m http.server 下载B机的文件

B 机A 机目录 X 就完整搬过去了。

2025-11-24 15:20:56 523

原创代理好好的，但是报错：Unsupported proxy configured: xx://1234

会报错 Unsupported proxy configured: xxxx.com://1234 ，而。) 之前的部分解释为 URL 方案。表示在代理配置开头漏掉了。Apt 会将地址中冒号 (

2025-11-24 10:48:50 418

原创为什么高维Tensor在编译器优化阶段被抽象为S（空间维）和R（规约维）这两个逻辑维度

AI编译器将高维Tensor抽象为S轴和R轴抓住本质：AI计算的核心模式就是"并行计算 + 规约聚合"简化优化：统一的抽象让编译器可以应用标准优化策略硬件匹配：完美对应GPU的并行计算+规约硬件能力可扩展性：无论问题多复杂，最终都回归到这两种基本操作这种抽象是AI编译器能够自动生成高性能代码的关键所在，它让编译器不需要为每个具体的高维形状单独设计优化，而是基于统一的模式进行系统化优化。

2025-11-13 21:33:57 678

原创为什么 if(obj) 会偷偷调用 operator 函数指针？

看源码的时候看到这几行，就离谱，看的一头雾水接下来一次看看到底说了什么。

2025-11-07 15:13:24 402

转载 C++11 起“构造函数完全指南”：从 `{}` 初始化到三五法则一次看懂

成员变量能在类定义里直接{}初始化；你不写任何构造函数，编译器就送你一个「按成员顺序传参」的隐式构造函数；复杂类型参数可以一行{}解决；不想被拷贝？一句=delete就能让编译器闭嘴。但「能自动生成」≠「正确或高效」。三五法则（Rule of Three/Five）用血与泪告诉我们：一旦自定义了「析构/拷贝/移动」中的任意一个，就必须把另一半也管好，否则等着 double free 或低效拷贝。本文把「{}

2025-10-25 17:22:38 112

原创 Python 中 deque 的常见用法详解

deque是 “double-ended queue” 的缩写，意为双端队列。它支持从队列的两端高效地添加或删除元素，时间复杂度为 O(1)，而列表在头部插入/删除元素的时间复杂度为 O(n)。特点描述高效两端操作时间复杂度为 O(1)灵活支持队列、栈、滑动窗口等多种结构易用API 简洁，功能强大如果你在做算法题、写爬虫、做任务调度或实现缓存机制，deque都是一个非常值得掌握的工具。

2025-10-23 00:23:57 337

原创有代理，代理能用，但 apt install 遇到 Unsupported proxy configured

直链却能正常下载，遂疑网络无虞，问题应在 APT 本身。，故同一条地址在命令行可通，在 APT 侧即报错。若缺协议头，或画蛇添足多写一道斜杠，均会触发。Ubuntu 20.04 执行。等工具则相对宽松，允许省略。

2025-10-21 10:59:12 227

原创 Python多进程编程核心组件详解：Event、Queue与进程生命周期管理

Event使用准则适用于简单的进程间通知场景避免频繁的set()wait()循环考虑使用Condition或Semaphore处理更复杂的同步需求Queue使用准则合理设置maxsize防止内存爆炸优先使用阻塞式操作简化代码对于大数据传输，考虑共享内存方案进程管理准则始终遵循start()→join()的顺序主进程应最后退出考虑使用进程池(Pool)简化管理性能优化建议减少进程间通信频率批量处理数据减少队列操作对于CPU密集型任务，设置进程数为CPU核心数。

2025-10-11 15:16:47 572

原创 CUDA IPC 是什么？

CUDA IPC（Inter-Process Communication，进程间通信）是指在 CUDA 编程中，让不同的进程之间能够高效地共享 GPU 资源（比如显存 buffer、设备句柄等）的一套机制。它常用于多进程并发、分布式训练等场景，让多个进程能在同一个 GPU 上高效协作。

2025-09-16 17:28:10 910

原创深入理解 CMake 脚本片段：文件查找、字符串替换与条件处理

set(...)

2025-09-11 17:14:48 373

原创 NCCL安装

我之前的 NCCL 2.15.5-4 为 CUDA 11.8 编译，但 CUDA 是 12.3 不匹配。意思是“操作系统无关”或“与操作系统无关”。新开一个终端，这就OK了。搜索CUDA12.3。

2025-09-11 15:27:39 418

原创 MCP vs Function Call区别

Function Call 是“模型自己会用的工具”，MCP 是“让模型安全、标准地连接万物的协议”。两者不是替代关系，而是互补：Function Call 快速直接，MCP 通用强大。

2025-08-20 01:29:16 789

原创 LLM训练过程中的 CAUSAL_LM 是什么？

备注：“causal”在这里指因果mask/先后约束，不是因果推断（Causal Inference）里的“因果关系”。CAUSAL_LM 指“因果语言模型”，更常见的说法是“自回归语言模型”。

2025-08-18 15:48:05 459

原创编译 Paddle 遇到 flashattnv3 段错误问题解决

尝试不编译 FLASHATTN 也不行nvidia-smi查看了下驱动支持的 CUDA 版本为 12.2而我的 docker CUDA 安装版本为 12.6 ，这个太高了…我换了个docker，CUDA 版本为 12.3就可以了 hhhhh你遇到的是，通常简称为“段错误”。在编译 CUDA 项目（如 flash-attn v3）时出现该错误，通常意味着编译器进程自身崩溃，这并不是代码本身的语法错误，而是环境或资源配置的问题。

2025-08-04 17:16:36 1183

原创 Python `WeakValueDictionary` 用法详解

是管理对象缓存、优化内存使用的利器。它能让你实现“有就用，没有就算了”的缓存策略，而且不会因为缓存而导致对象无法释放。记得，它只适合用在你不需要强制保存对象的时候。

2025-07-14 21:19:58 466

原创 Tensor Parallel 与 Expert Parallel 区别与联系

只做TP：一个大矩阵A分片，每卡存一部分，所有卡并行计算同一个层的不同块。只做EP：不同专家分在不同卡组，每次只激活部分专家（部分卡），每卡负责自己的整个专家。同时做TP+EP：每个专家都很大也被切分，每专家内部再做TP，卡既属于某专家又负责专家内部的一部分参数。这样就可以把超大模型、海量专家的训练与推理分布在很多卡上，既保证了大容量也能高效利用硬件！

2025-06-21 11:39:05 1050 1

原创 CMake 全局属性与 target_link_libraries 用法小结

通过CMake的全局属性和变量机制，可以实现依赖库的集中管理，提升项目的可维护性和可扩展性。推荐在多依赖、多平台的工程中采用此方案。如果你在实际项目中遇到具体问题，欢迎留言交流！参考代码片段# 设置全局依赖库属性# 获取并使用。

2025-06-17 16:32:31 542

原创用 pybind11 注册 Python 回调：`set_eval_frame` 简析

通过 pybind11 的m->def，我们可以高效地将 Python 回调桥接入 C++，极大增强了跨语言的灵活性和可扩展性。这种机制不仅适用于自定义解释器、JIT、调试等高级场景，也是现代 Python/C++ 混合开发的强大利器。你用过 pybind11 的回调注册功能吗？欢迎评论区留言交流你的实践经验！

2025-06-17 16:28:52 572

原创 nsight system分析LLM注意事项

CUDA 11 引入了 CUDA Graphs（图执行模型），这个参数控制如何追踪 CUDA Graph 的行为。这样可以看到每个 graph node 的详细执行、调度信息，对调优 CUDA Graph 性能有帮助。node 表示以节点粒度跟踪 CUDA Graph，而不是更粗的 graph 粒度。有时候参数写错了，但是为同一个名字，则开启这个，覆盖原来的文件。通过打桩，记录哪部分跑了什么。

2025-06-10 20:58:42 799

原创 vllm server返回404的一种可能得解决方案

这里是我的测试脚本，你看看你的请求头里的模型名字/路径改对了吗。启动server的时候写的是相对路径，这里写成绝对路径了。我的 server 启动指令。就很奇怪，不都是直接访问。哦，原来是模型路径填错了。

2025-05-27 16:30:45 810

原创访问vllm server 没有返回值

这一点倒是没事，但是我的 client 端始终访问不到 localhost 的 8040 端口。我一开始可以把代码中的 localhost 改成我的绝对地址(返回的) 是这一用的，但我不知道是为啥，hhh。今天想起来我好像设置了代理，呵呵呵。但是我这个直接啥都没返回？把这俩取消之后，在执行。：把代理关了再试一次（

2025-05-27 16:02:20 282

转载 [转载] Python抽象基类ABC与抽象方法abstractmethod

本文从多个方面详细解释 Python 中的抽象基类（ABC）和抽象方法（abstractmethod）。

2025-02-17 14:31:00 414

转载 [转载] Python的overload装饰器怎么使用

overload本身不实现逻辑，实际的实现需要通过一个不带@overload的函数来完成。它主要用于为类型检查器提供多个函数签名的信息，帮助在静态类型检查中更好地理解代码。

2025-02-13 16:23:57 510

转载 inspect.Signature怎么使用

非常有用，尤其是在需要动态地处理函数调用、分析函数参数、以及编写装饰器或元编程相关的代码时。通过它，你可以深入理解函数的输入输出结构，并在程序中进行更复杂的参数验证和调用操作。

2025-02-13 15:26:14 448

转载 [转载] 使用 `WeakValueDictionary` 的例子与不用它的区别

使用对象不会被字典的弱引用阻止垃圾回收。适用于需要缓存对象但又不希望阻止对象被垃圾回收的场景。不使用（使用普通字典）字典的强引用会阻止对象被垃圾回收。可能导致内存泄漏，特别是当缓存的对象很多且不再需要时。

2025-02-11 17:07:13 187

转载 [转载] Python 中统一弱引用与强引用的类

类是为了统一处理弱引用（weak reference）和强引用（strong reference）而设计的。这种设计允许在同一个系统中灵活地使用强引用和弱引用，而不需要改变使用引用的代码。这在需要缓存对象或避免循环引用时特别有用。这个类的主要用途是提供一个统一的接口来处理弱引用和强引用，使得代码可以灵活地在两者之间切换。

2025-02-11 14:59:47 102

转载 [转载] zero-shot能力和 grounding能力是什么意思

YOLO-World 是由腾讯AI Lab、ARC Lab、腾讯PCG和华中科技大学合作提出的实时开放词汇目标检测方法，YOLO-World在大规模视觉语言数据集（包括Objects365、GQA、Flickr30K和CC3M）上进行了预训练，这使得YOLO-World具有强大的。这些能力使得像YOLO-World这样的模型在实际应用中更加灵活和智能，因为它们不用针对每一种可能出现的物体进行专门训练，也能准确理解和定位。也就是说，它能理解你描述的东西在图像的哪个位置。是两个与识别和理解图像有关的概念。

2025-01-22 14:13:40 357

TA关注的人

Let us write a Kernel.doc

MachineLearninginAction.pdf

YOLOv7/v9 需要训练的COCO格式

YOLOv9 COCO训练好的模型 yolov9-c-converted.pt

ale-c.dll (资源名称不得少于十一字?)

一个mnn模型的demo, 用来测试 mnn 环境是否OK

一个onnx的demo

CUDA_C_Programming_Guide.pdf

1.zip (tensorflow官网教程文件/gnews-swivel-20dim/1) hub.KerasLayer函数

TF 2.0 Symbols Map——tf2函数对应关系

CNKI E -Study

liteidex37.1-3.windows-qt5.9.5.zip

go1.14.7.windows-amd64.msi

DuetSetup-1-8-2-3.exe

install-tl.zip

启动spyder报了QT或者libGL的问题

linux shell脚本部分字母的全称是什么？