自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

先说一下,就简单地写点儿氵文,不是博客,只是我的笔记本/工具书

再说一下,就简单地写点儿氵文,不是博客,只是我的笔记本/工具书

  • 博客(486)
  • 资源 (13)
  • 问答 (2)
  • 收藏
  • 关注

原创 # Bash, Zsh, Fish... 到底有啥区别?一次搞懂 Linux Shell 家族

在深入对比之前,我们需要先搞清楚 Shell 到底是干嘛的。计算机的内核(Kernel)是操作系统的核心,它管理着 CPU、内存和硬盘,但它只听得懂晦涩的机器语言和系统调用。作为用户(User),我们说的是“人话”(比如“帮我删个文件”、“启动这个服务”)。Shell(壳),顾名思义,就是包裹在内核外面的一层壳。它是一个翻译官它接收你输入的命令(它找到对应的程序,翻译给内核听。内核干完活,它把结果显示在屏幕上。不用纠结,遵循这个最佳实践场景推荐 Shell理由平时自己在终端敲命令Zsh。

2026-01-21 21:36:18 542

原创 max_num_batched_token 什么意思

是吞吐量和显存安全太大: 容易 OOM(中间计算显存爆炸)。太小: GPU 计算单元吃不饱,推理整体吞吐量下降。

2026-01-12 16:18:53 562

原创 Python 里的“看门大爷”:彻底搞懂描述符 (Descriptors)

在 Python 对象模型里,描述符就是一个把“属性访问”变成“方法调用”的代理类。只要一个类实现了以下任意一个__get__:有人要读属性时触发(对应__set__:有人要改属性时触发(对应__delete__:有人要删属性时触发(对应del obj.x这是“看门大爷”的自我修养。# 我们用一个私有变量名来存真正的数据,防止死循环# 【读】当有人访问 student.math 时# instance: 就是那个 student 对象 (如果是 Student.math 访问,这里是 None)

2026-01-08 16:46:07 924

原创 【Gerrit避坑指南】点完 Download 弹出的那串“外星代码”到底是个啥?

Gerrit 的这行命令虽然看着吓人,但它非常精准。它指哪打哪,能让你瞬间回到代码历史的任何一个切片中。下次再看到这串代码,别把它当乱码了,它其实就是一张精准的传送门票。复制,粘贴,回车,搞定!

2026-01-07 19:46:26 226

原创 MLIR 中最常用的方言

输入:PyTorch 模型:描述“我要做一个卷积”。:把卷积拆解成“几层for循环”。:把循环里的计算变成“向量加法”,并分配物理内存。LLVM:变成 LLVM IR。输出:二进制可执行文件。

2025-12-25 20:08:42 299

原创 告别 -1 和 NULL:拥抱 C++ `std::optional` 的优雅生活

的出现,标志着 C++ 在类型安全和代码语义化上又迈出了一大步。它不仅减少了 Bug,更让你的代码读起来像是在讲故事,而不是在玩猜谜游戏。下一次当你准备返回-1我是不是该用盒子把它装起来了?

2025-12-25 19:45:14 380

原创 VS Code Python 语言服务器启动失败,代码无法高亮与跳转

核心步骤是删除远程机器上所有冲突的 Python 扩展目录,强制 VS Code 重新下载最新版本。这将删除所有 Python 扩展,VS Code 会在下次连接时重新安装。VS Code 将自动检测缺失的扩展,并下载最新且唯一的版本,语言服务器随即恢复正常。),导致语言服务器启动失败,无法进行代码跳转和智能感知。时,由于远程服务器的扩展目录中存在。或语言服务器许可相关错误。

2025-12-04 16:39:50 209

原创 [特殊字符] 深入 Python 虚拟机:揭秘 `import` 语句背后的 `IMPORT_NAME` 与 `IMPORT_FROM`

负责宏观的模块加载和初始化,是耗时最长的步骤;而则负责微观的属性提取,是完成语法的关键。它们在操作数栈上的精确操作,共同构成了 Python 强大而灵活的模块导入系统。现在,当你下一次按下import时,你已经知道了 Python 在幕后为你做了多少工作!

2025-12-04 13:41:39 746

翻译 Announcing vLLM-Omni: Easy, Fast, and Cheap Omni-Modality Model Serving

如今最先进的模型能够跨文本、图像、音频和视频进行推理,并使用多样化的架构生成异构输出。我们正在积极开发对更多架构的支持,并邀请社区帮助塑造 vLLM-Omni 的未来。我们的路线图侧重于扩展模型支持,并将高效推理的界限推得更远,同时构建合适的框架来赋能未来对全模态模型的研究。抽象,我们提供了一种简单直接的方式来支持各种全模态模型,包括 Qwen-Omni、Qwen-Image 和其他最先进的模型。是首批支持全模态模型服务的开源框架之一,它将 vLLM 卓越的性能扩展到了多模态和非自回归推理领域。

2025-12-03 13:17:55 146

原创 A机通过 python -m http.server 下载B机的文件

B 机A 机目录 X 就完整搬过去了。

2025-11-24 15:20:56 523

原创 代理好好的,但是报错:Unsupported proxy configured: xx://1234

会报错 Unsupported proxy configured: xxxx.com://1234 ,而。) 之前的部分解释为 URL 方案。表示在代理配置开头漏掉了。Apt 会将地址中冒号 (

2025-11-24 10:48:50 418

原创 为什么高维Tensor在编译器优化阶段被抽象为S(空间维) 和R(规约维) 这两个逻辑维度

AI编译器将高维Tensor抽象为S轴和R轴抓住本质:AI计算的核心模式就是"并行计算 + 规约聚合"简化优化:统一的抽象让编译器可以应用标准优化策略硬件匹配:完美对应GPU的并行计算+规约硬件能力可扩展性:无论问题多复杂,最终都回归到这两种基本操作这种抽象是AI编译器能够自动生成高性能代码的关键所在,它让编译器不需要为每个具体的高维形状单独设计优化,而是基于统一的模式进行系统化优化。

2025-11-13 21:33:57 678

原创 为什么 if(obj) 会偷偷调用 operator 函数指针?

看源码的时候看到这几行,就离谱,看的一头雾水接下来一次看看到底说了什么。

2025-11-07 15:13:24 402

转载 C++11 起“构造函数完全指南”:从 `{}` 初始化到三五法则一次看懂

成员变量能在类定义里直接{}初始化;你不写任何构造函数,编译器就送你一个「按成员顺序传参」的隐式构造函数;复杂类型参数可以一行{}解决;不想被拷贝?一句=delete就能让编译器闭嘴。但「能自动生成」≠「正确或高效」。三五法则(Rule of Three/Five)用血与泪告诉我们:一旦自定义了「析构/拷贝/移动」中的任意一个,就必须把另一半也管好,否则等着 double free 或低效拷贝。本文把「{}

2025-10-25 17:22:38 112

原创 Python 中 deque 的常见用法详解

deque是 “double-ended queue” 的缩写,意为双端队列。它支持从队列的两端高效地添加或删除元素,时间复杂度为 O(1),而列表在头部插入/删除元素的时间复杂度为 O(n)。特点描述高效两端操作时间复杂度为 O(1)灵活支持队列、栈、滑动窗口等多种结构易用API 简洁,功能强大如果你在做算法题、写爬虫、做任务调度或实现缓存机制,deque都是一个非常值得掌握的工具。

2025-10-23 00:23:57 337

原创 有代理,代理能用,但 apt install 遇到 Unsupported proxy configured

直链却能正常下载,遂疑网络无虞,问题应在 APT 本身。,故同一条地址在命令行可通,在 APT 侧即报错。若缺协议头,或画蛇添足多写一道斜杠,均会触发。Ubuntu 20.04 执行。等工具则相对宽松,允许省略。

2025-10-21 10:59:12 227

原创 Python多进程编程核心组件详解:Event、Queue与进程生命周期管理

Event使用准则适用于简单的进程间通知场景避免频繁的set()wait()循环考虑使用Condition或Semaphore处理更复杂的同步需求Queue使用准则合理设置maxsize防止内存爆炸优先使用阻塞式操作简化代码对于大数据传输,考虑共享内存方案进程管理准则始终遵循start()→join()的顺序主进程应最后退出考虑使用进程池(Pool)简化管理性能优化建议减少进程间通信频率批量处理数据减少队列操作对于CPU密集型任务,设置进程数为CPU核心数。

2025-10-11 15:16:47 572

原创 CUDA IPC 是什么?

CUDA IPC(Inter-Process Communication,进程间通信)是指在 CUDA 编程中,让不同的进程之间能够高效地共享 GPU 资源(比如显存 buffer、设备句柄等)的一套机制。它常用于多进程并发、分布式训练等场景,让多个进程能在同一个 GPU 上高效协作。

2025-09-16 17:28:10 910

原创 深入理解 CMake 脚本片段:文件查找、字符串替换与条件处理

set(...)

2025-09-11 17:14:48 373

原创 NCCL安装

我之前的 NCCL 2.15.5-4 为 CUDA 11.8 编译,但 CUDA 是 12.3 不匹配。意思是“操作系统无关”或“与操作系统无关”。新开一个终端,这就OK了。搜索CUDA12.3。

2025-09-11 15:27:39 418

原创 MCP vs Function Call区别

Function Call 是“模型自己会用的工具”,MCP 是“让模型安全、标准地连接万物的协议”。两者不是替代关系,而是互补:Function Call 快速直接,MCP 通用强大。

2025-08-20 01:29:16 789

原创 LLM训练过程中的 CAUSAL_LM 是什么?

备注:“causal”在这里指因果mask/先后约束,不是因果推断(Causal Inference)里的“因果关系”。CAUSAL_LM 指“因果语言模型”,更常见的说法是“自回归语言模型”。

2025-08-18 15:48:05 459

原创 编译 Paddle 遇到 flashattnv3 段错误问题解决

尝试不编译 FLASHATTN 也不行nvidia-smi查看了下驱动支持的 CUDA 版本为 12.2而我的 docker CUDA 安装版本为 12.6 ,这个太高了…我换了个docker,CUDA 版本为 12.3就可以了 hhhhh你遇到的是,通常简称为“段错误”。在编译 CUDA 项目(如 flash-attn v3)时出现该错误,通常意味着编译器进程自身崩溃,这并不是代码本身的语法错误,而是环境或资源配置的问题。

2025-08-04 17:16:36 1183

原创 Python `WeakValueDictionary` 用法详解

是管理对象缓存、优化内存使用的利器。它能让你实现“有就用,没有就算了”的缓存策略,而且不会因为缓存而导致对象无法释放。记得,它只适合用在你不需要强制保存对象的时候。

2025-07-14 21:19:58 466

原创 Tensor Parallel 与 Expert Parallel 区别与联系

只做TP:一个大矩阵A分片,每卡存一部分,所有卡并行计算同一个层的不同块。只做EP:不同专家分在不同卡组,每次只激活部分专家(部分卡),每卡负责自己的整个专家。同时做TP+EP:每个专家都很大也被切分,每专家内部再做TP,卡既属于某专家又负责专家内部的一部分参数。这样就可以把超大模型、海量专家的训练与推理分布在很多卡上,既保证了大容量也能高效利用硬件!

2025-06-21 11:39:05 1050 1

原创 CMake 全局属性与 target_link_libraries 用法小结

通过CMake的全局属性和变量机制,可以实现依赖库的集中管理,提升项目的可维护性和可扩展性。推荐在多依赖、多平台的工程中采用此方案。如果你在实际项目中遇到具体问题,欢迎留言交流!参考代码片段# 设置全局依赖库属性# 获取并使用。

2025-06-17 16:32:31 542

原创 用 pybind11 注册 Python 回调:`set_eval_frame` 简析

通过 pybind11 的m->def,我们可以高效地将 Python 回调桥接入 C++,极大增强了跨语言的灵活性和可扩展性。这种机制不仅适用于自定义解释器、JIT、调试等高级场景,也是现代 Python/C++ 混合开发的强大利器。你用过 pybind11 的回调注册功能吗?欢迎评论区留言交流你的实践经验!

2025-06-17 16:28:52 572

原创 nsight system分析LLM注意事项

CUDA 11 引入了 CUDA Graphs(图执行模型),这个参数控制如何追踪 CUDA Graph 的行为。这样可以看到每个 graph node 的详细执行、调度信息,对调优 CUDA Graph 性能有帮助。node 表示以节点粒度跟踪 CUDA Graph,而不是更粗的 graph 粒度。有时候参数写错了,但是为同一个名字,则开启这个,覆盖原来的文件。通过打桩,记录哪部分跑了什么。

2025-06-10 20:58:42 799

原创 vllm server返回404的一种可能得解决方案

这里是我的测试脚本,你看看你的请求头里的模型名字/路径改对了吗。启动server的时候写的是相对路径,这里写成绝对路径了。我的 server 启动指令。就很奇怪,不都是直接访问。哦,原来是模型路径填错了。

2025-05-27 16:30:45 810

原创 访问vllm server 没有返回值

这一点倒是没事,但是我的 client 端始终访问不到 localhost 的 8040 端口。我一开始可以把代码中的 localhost 改成我的绝对地址(返回的) 是这一用的,但我不知道是为啥,hhh。今天想起来我好像设置了代理,呵呵呵。但是我这个直接啥都没返回?把这俩取消之后,在执行。:把代理关了再试一次(

2025-05-27 16:02:20 282

转载 [转载] Python抽象基类ABC与抽象方法abstractmethod

本文从多个方面详细解释 Python 中的抽象基类(ABC)和抽象方法(abstractmethod)。

2025-02-17 14:31:00 414

转载 [转载] Python的overload装饰器怎么使用

overload本身不实现逻辑,实际的实现需要通过一个不带@overload的函数来完成。它主要用于为类型检查器提供多个函数签名的信息,帮助在静态类型检查中更好地理解代码。

2025-02-13 16:23:57 510

转载 inspect.Signature怎么使用

非常有用,尤其是在需要动态地处理函数调用、分析函数参数、以及编写装饰器或元编程相关的代码时。通过它,你可以深入理解函数的输入输出结构,并在程序中进行更复杂的参数验证和调用操作。

2025-02-13 15:26:14 448

转载 [转载] 使用 `WeakValueDictionary` 的例子与不用它的区别

使用对象不会被字典的弱引用阻止垃圾回收。适用于需要缓存对象但又不希望阻止对象被垃圾回收的场景。不使用(使用普通字典)字典的强引用会阻止对象被垃圾回收。可能导致内存泄漏,特别是当缓存的对象很多且不再需要时。

2025-02-11 17:07:13 187

转载 [转载] Python 中统一弱引用与强引用的类

类是为了统一处理弱引用(weak reference)和强引用(strong reference)而设计的。这种设计允许在同一个系统中灵活地使用强引用和弱引用,而不需要改变使用引用的代码。这在需要缓存对象或避免循环引用时特别有用。这个类的主要用途是提供一个统一的接口来处理弱引用和强引用,使得代码可以灵活地在两者之间切换。

2025-02-11 14:59:47 102

转载 [转载] zero-shot能力 和 grounding能力 是什么意思

YOLO-World 是由腾讯AI Lab、ARC Lab、腾讯PCG和华中科技大学合作提出的实时开放词汇目标检测方法 ,YOLO-World在大规模视觉语言数据集(包括Objects365、GQA、Flickr30K和CC3M)上进行了预训练,这使得YOLO-World具有强大的。这些能力使得像YOLO-World这样的模型在实际应用中更加灵活和智能,因为它们不用针对每一种可能出现的物体进行专门训练,也能准确理解和定位。也就是说,它能理解你描述的东西在图像的哪个位置。是两个与识别和理解图像有关的概念。

2025-01-22 14:13:40 357

转载 [转载] 一个Python文件命名为 __main__.py 是什么意思

可执行包使得整个目录可以作为一个可执行的包运行。模块执行:当直接执行某个文件时,__name__等于"__main__",这适用于任何Python文件。项目入口点:在大型项目中,通常用作指定应用程序的入口点。使用的一个好处是,它使得你的包可以像命令行工具一样运行,这对于分发和使用非常有帮助。

2025-01-15 12:31:49 370

转载 [转载] scrapy 中如何开启 Cookie

在使用 Scrapy 时,Cookie 的管理是一个重要的环节。合理地开启和设置 Cookie 能帮助我们更好地模拟用户行为,获取所需数据。

2025-01-13 00:17:10 1176

转载 [转载] PyTorch 源码阅读建议

从 PyTorch 的最小组件入手,逐步编译和运行代码,是一个很好的学习方法。希望以上建议对你有所帮助,祝你在阅读 PyTorch 源代码的过程中取得收获!

2024-12-17 20:52:08 426

原创 [每日一氵] Python 用 line_profiler 来分析函数运行瓶颈

当编写复杂的程序时,识别并优化性能瓶颈是提升代码效率的重要步骤。是一个专用于分析 Python 代码逐行性能的模块,方便开发者找出最耗时的代码段,进而优化。

2024-12-04 10:03:41 420

Let us write a Kernel.doc

手把手教你写下第一个内核的文件,这是英文原版,十分详细!

2019-06-29

MachineLearninginAction.pdf

《MachineLearninginAction》原著, 分享给大家!

2018-10-04

YOLOv7/v9 需要训练的COCO格式

https://github.com/WongKinYiu/yolov7/releases/download/v0.1/coco2017labels-segments.zip

2024-02-28

YOLOv9 COCO训练好的模型 yolov9-c-converted.pt

https://github.com/WongKinYiu/yolov9

2024-02-28

ale-c.dll (资源名称不得少于十一字?)

Could not find module \atari-py\ale-interface\ale-c.dll (or one

2023-01-20

一个mnn模型的demo, 用来测试 mnn 环境是否OK

一个mnn模型的demo, 用来测试 mnn 环境是否OK

2022-08-05

一个onnx的demo

一个onnx的demo

2022-07-29

CUDA_C_Programming_Guide.pdf

CUDA_C_Programming_Guide.pdf

2021-12-06

1.zip (tensorflow官网教程文件/gnews-swivel-20dim/1) hub.KerasLayer函数

https://tfhub.dev/google/tf2-preview/gnews-swivel-20dim/1下载不到的1.tar.gz hub.KerasLayer函数调用 你要是有会员直接下,没会员这里有百度云盘链接: 链接: https://pan.baidu.com/s/1OyBFF37ZAP71h2yuv2H3DA 提取码: cwub

2020-03-21

TF 2.0 Symbols Map——tf2函数对应关系

TF 2.0 Symbols Map (contact: webpaige@google.com) tf2.0函数 该文档为tf2函数对应关系,(你要是会员就下载,不是会员就私我,我给你发)

2020-03-14

CNKI E -Study

CNKI E -Study 可以读取 .caj 格式的文件文献管理 ,支持文献管理,中外数据库文献检索与批量下载 ,CAJ、PDF等文献阅读,数字笔记,写作与投稿,同一账号多终端资料云同步等功能

2018-09-13

liteidex37.1-3.windows-qt5.9.5.zip

Go 语言开发工具 LiteIDE X37.1 发布,在这个版本中提供集成终端插件,初步实现内置终端功能。更新 gotools & gocode 以支持 Go 1.14。

2020-08-08

go1.14.7.windows-amd64.msi

Go 是一个开源的编程语言,它能让构造简单、可靠且高效的软件变得容易。 Go是从2007年末由Robert Griesemer, Rob Pike, Ken Thompson主持开发,后来还加入了Ian Lance Taylor, Russ Cox等人,并最终于2009年11月开源,在2012年早些时候发布了Go 1稳定版本。现在Go的开发已经是完全开放的,并且拥有一个活跃的社区。

2020-08-08

DuetSetup-1-8-2-3.exe

前苹果工程师将iOS或Android设备变成Mac和PC的高性能第二显示屏,实现了零延迟。 1.“让人感觉更像是功能完备的电脑而不止是一个平板电脑” 2.“没有任何延迟,而且提供能充分利用iPad的真实Retina分辨率” 3.“它速度快、响应及时,而且你不用担心繁杂的显示屏设置——插上就能用”

2020-01-07

install-tl.zip

Tex Live 的网上安装文件,原地址:https://www.latex-project.org/

2020-09-07

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除