- 博客(681)
- 收藏
- 关注
原创 claude code 泄密 ai agent 框架
Claude 完整推理(高价值训练数据):"我先看了第3行,发现变量未初始化,这通常意味着……所以我决定……然后检查调用栈第7层……最终判断是……"对外暴露的摘要:"[分析完成,建议修复变量初始化问题。签名: 0x8f3c…]"训练数据质量对比:完整推理链 → 小模型可以学会"怎么思考" ← 高价值只有摘要 → 小模型只能学会"说什么结论" ← 低价值编程 = 告诉计算机精确执行每一步Prompt 工程 = 告诉 AI 你想要什么结果,让它自己想怎么做。
2026-04-03 09:43:49
251
原创 int**w Juicefs fluid+alluxio Lustre -------------
JuiceFS 只有付费的才有分布式缓存,而alluxio 免费的就有, notebook用 JuiceFS, 而分布式训练用 Alluxio。alluxio可以从兄弟节点拉缓存,不用到minio上拉。
2026-03-15 14:55:34
61
原创 openclaw
venv 只能用系统 python 版本conda 可以自己选择conda 还能安装和系统不同的cuda和cuDNN,而且不影响系统的。
2026-03-10 15:25:25
86
原创 vllm 推理引擎
vllm 和 ollama 仅LLM(大语言模型), tritonserver 其他模型ollama 上手快,快速验证,性能太差vllm 高吞吐,一个对话机器人能每秒应对几百人的提问。gpu 利用率也 高于其他引擎。
2026-03-08 15:05:42
32
原创 MLOps Platform Feature Validation
启动tritonserver 的命令中加上轮询,然后将新版本的模型放到新版本的文件夹中,它会自动加载最新版本的模型。不再使用旧版本。还能通过 config.pbtxt 手动设置哪些版本共存或者强制使用哪个版本。
2026-03-03 16:43:39
375
原创 claude code 问题解决
在"claudeCode.environmentVariables": [ 里加上下面的内容。Claude Code 在 Windows 上依赖 Git Bash 来执行命令行操作。:如果你的 Git 安装在非默认路径(比如 D 盘),请将上面的路径替换为你实际的。系统上运行 Claude Code,但它检测不到。没有在系统 PATH 中。即可(默认会把 Git 加入 PATH)。
2026-03-02 09:23:40
1420
1
原创 Your own training platform Problems
,并且 Triton 确实探测到了你的 4 张 RTX 5880 Ada 并在进行调度尝试。但导致它崩溃的不是显存(VRAM),而是。为了让平台所有用户新建的 Notebook 都默认支持 Tab 补全,你需要修改。既然你在打造平台,建议在镜像或启动脚本中一劳永逸地解决它。这也是一个老生常谈的问题。当你在 K8s 里启动一个基础镜像(比如你用的。我们需要在后端代码里,给 Deployment 的容器挂载一个。)时,容器默认使用的 Shell 通常是原生的。脚本中,注入相关的安装和配置。
2026-03-02 09:22:51
786
原创 Training Cluster Hardware Issue Log
由于单机内部的合并和广播非常快,整个分布式训练的等待时间,几乎完全取决于第二步跨机交换的那 24G 数据在网线里跑了多久。24÷3.756.4秒24 \div 3.75 = \mathbf{6.4} \text{ 秒}24÷3.756.4秒。(工程师体感:“感觉特别明显,有5秒左右延迟”,完全吻合!24÷102.4秒24 \div 10 = \mathbf{2.4} \text{ 秒}24÷102.4秒。(开半精度 FP16 压缩就是1 秒多。
2026-02-28 11:21:42
835
原创 Your own training platform
在这个过程中,A 机器(Harbor)就像是火车站的检票员。10 个人同时进站,检票员只负责看你的票(几十 KB 的握手和重定向),然后指着后面的 5 列高铁(MinIO 的多个存储节点)说:“你上那辆,你上那辆。真正承载这 10 个人体重的(GB 级别的镜像流量),是后面那几列高铁,旅客根本不需要骑在检票员的脖子上进站。由于 MinIO 本身是分布式的,可能部署在 3 台甚至 5 台机器上,这 10 个节点的并发下载流量,就被均匀地分摊到了 MinIO 集群的这几台机器的网卡上。
2026-02-22 20:26:51
834
原创 cube studio Installation Guide 2
开发机上(不要在生产环境安装没用的包)注意:如果你的 Harbor 是 HTTP(非 HTTPS),需要在 Docker 的还需要 docker login ip:port 和 创建项目 cube-studio。
2026-02-13 09:05:32
985
原创 cube studio Installation Guide
安装了docker,自动就安装了containerd。现在是要将containerd 移动到大空间。
2026-02-09 11:23:19
420
原创 cube-studio 一些概念
特性机器学习深度学习数据依赖较小规模即可表现良好需要海量数据才能发挥威力硬件要求普通电脑 CPU 即可高性能 GPU (显卡) 是刚需特征工程核心环节,靠专家手工完成自动化,模型自己学习特征黑盒程度过程较透明,容易解释像“黑盒”,很难解释模型为什么这么算数据挖掘的核心价值在于从“看过去”转变为“测未来”。统计报表告诉你上个月亏了多少钱。数据挖掘告诉你,如果不做促销,下个月可能会流失哪些客户。
2026-02-07 22:23:44
709
原创 模型全套服务 cube-studio
Pipeline 编排是将机器学习的各个步骤(数据处理、特征工程、模型训练、模型评估、模型部署等)串联成一个有向无环图(DAG),实现自动化、可重复、可追溯的端到端工作流。│ 数据拉取 │───▶│ 数据清洗 │───▶│ 特征工程 │───▶│ 模型训练 │───▶│ 模型部署 ││▼│ 模型评估 │价值维度具体收益效率提升端到端自动化,人力节省 80%+质量保障可重复、可追溯、可审计成本优化资源按需使用,利用率提升协作提升标准化流程,知识沉淀快速迭代从天级到小时级的实验周期。
2026-02-06 16:51:31
1248
原创 k8s project
三个主节点,用的keepalived和haproxy 配合vip做成的k8s集群,如何更新证书我的版本是 1.21.5针对 Kubernetes 1.21.5 版本,在基于 Keepalived + HAProxy + VIP 的三节点高可用(HA)架构下,更新证书通常使用kubeadm工具来完成。你需要在Master 节点上依次执行更新操作,并重启核心组件。
2026-01-21 11:28:36
562
原创 RAGFlow 2
管理员在配置页面(Chat Configuration)点击“Add Variable”。系统会在数据库里记录一个 JSON Schema。"label": "您的职业","options": ["工程师", "设计师", "产品经理"],“设置对话变量”是 RAGFlow 提供的低代码(Low-Code)逻辑控制能力。对比没用变量用了变量Prompt 形态静态的文本块动态的填空题模板用户体验所有人得到一样的服务用户可以定制自己的服务模式维护成本需要为不同场景创建多个 Bot。
2025-12-12 17:25:37
1185
原创 RAGFlow 2
Schema 定义:管理员在系统层面定义 Tag Key(标签名)和对应的可选 Values。类似于。文件入库与打标 (File Upload & Tagging):上传文件时,前端 UI 弹窗让用户选择标签。系统将文件 ID 与选定的标签进行关联。这个标签属性会被该文件切分出来的每一个 Chunk(切片)所继承。向量存储 (Storage):存入向量数据库(Elasticsearch/Infinity/Milvus)。
2025-12-12 11:26:23
1042
原创 RAGFlow 1
特性OllamaXinferenceIPEX-LLMTriton核心定位个人/开发者工具全栈模型部署框架Intel 硬件加速库工业级推理服务器上手难度⭐ (极简)⭐⭐ (简单)⭐⭐⭐ (需改代码/配置)⭐⭐⭐⭐⭐ (困难)模型支持主打 LLM (GGUF)LLM + 图片 + 音频 + 向量PyTorch 模型所有主流 AI 框架硬件倾向Apple Silicon, NV卡, CPUNV卡 (推荐), CPUIntel CPU/GPU 专用NVIDIA GPU 专用适合场景。
2025-12-11 17:24:41
1014
原创 MIRIX 3
Procedural Memory (程序记忆)Knowledge Vault (知识库)Episodic Memory (情景记忆)Semantic Memory (语义记忆)Resource Memory (资源记忆)系统主要依赖PostgreSQL 原生全文本搜索 (full-text search)来实现高性能和可扩展性。bm25是推荐的默认搜索方法,因为它利用 PostgreSQL 的原生能力,实现了优秀的性能和广泛的适用性。如果查询关注的是概念或含义。
2025-12-10 11:15:16
664
原创 MIRIX 2
每次用户发消息,这个 Agent 都会自动根据关键词从上面 6 种记忆中检索相关内容,拼进 system prompt 里,让 LLM “记得过去”。用户发图片、PDF、Google Docs 链接都能处理。Mirix 的架构极其模块化,它允许你拥有几十种不同的 Agent。这些 Agent 行为千差万别,但它们必须满足一个共同点:收到消息 → 思考 → 可能调用工具 → 可能修改记忆 → 最终返回使用统计。
2025-12-08 18:20:19
1044
原创 熟练版本控制 (Git)、CI/CD 流程。
如果面试官问:“你如何保证大模型部署的稳定性?” 你可以这样回答:“在之前的项目中,我负责 Llama-3 70B 的部署。为了解决大模型迭代中常见的性能退化和版本混乱版本控制方面:我实施了‘模型配置化’(Model-as-Code),将模型权重路径、Prompt 模版和推理参数统一在 Git 中管理,确保了环境的严格可复现。CI 环节:我引入了GPU 自动化回归测试。在代码合并前,流水线会自动拉起容器进行推理基准测试。我们设定了阈值,如果新代码导致首字延迟(TTFT)增加超过 10%,流水线会自动拦截。
2025-12-05 16:23:56
789
原创 理解训练 vs 推理时对计算图、内存、精度的不同要求
太棒了,这不仅是理论,更是顶级部署工程师和普通算法工程师的分水岭。在面试或实战中,很多人以为“部署不就是把 改成 吗?”大错特错。训练(Training)和推理(Inference/Serving)在底层逻辑上是两种完全不同的生物。下面我从计算图、内存、精度三个维度,结合真实项目场景来剖析。核心差异:动态图 vs 静态图 (Dynamic vs Static)训练时 (PyTorch 默认模式):推理时 (Deployment 模式):场景 A:Python 后端太慢,QPS 上不去痛点: 用原生 P
2025-12-04 17:32:15
838
原创 要懂 transformer 大模型(如 LLM)的基本构造 +关键组件(Attention, FFN, embedding 等)
老板问:“为什么这个 7B 模型显存只要 14G,那个 7B 模型要 20G?原理回答:“因为那个模型没用 GQA,KV Cache 太大,或者是词表(Embedding)特别大。客户问:“为什么输入长了之后,速度慢得像蜗牛?原理回答:“因为 Attention 是ON2O(N^2)ON2复杂度,我们需要开启 FlashAttention 来优化 IO。运维问:“怎么把两个 GPU 利用率跑满?原理回答。
2025-12-04 17:13:34
753
原创 模型分布式复制 /压缩 /动态加载机制
在实际工作中,这些知识不是死记硬背的概念,而是根据**SLA(服务等级协议)和没钱买卡?->压缩 (Quantization)用户嫌慢?->张量并行 (TP)用户太多?->副本复制 (Replication)模型太多?->动态加载 (LoRA/Swapping)
2025-12-04 09:40:52
1007
原创 对分布式推理架构有经验。包括跨机器 /跨节点部署、负载均衡、模型分片。
通过精确计算,Llama-3-70B 模型权重在 FP16 精度下,理论上需要约130.2 GB的显存。而实际应用中提到约140GB模型在推理过程中,每层计算产生的中间结果。这部分数据量取决于批次大小 (Batch Size)和序列长度 (Sequence Length)。用于存储 Attention 机制中的键(Key)和值(Value)向量,特别是进行长序列推理时,K/V Cache 会占用相当大的空间。PyTorch、TensorFlow 或 VLLM 等推理框架自身运行所需的少量显存。
2025-12-03 18:07:44
1123
原创 MIRIX 1
覆盖率 = 你的测试代码到底测了多少百分比的项目代码举一个超级简单的例子:if not user_id: # 第2行if tags is None: # 第5行tags = []# 保存到 Redis ... # 第8行save_to_redis(user_id, content, tags) # 第9行summarize_with_llm(content) # 第10行add_memory("u123", "我今天吃了火锅", ["food"])
2025-12-03 10:03:27
992
原创 缓存策略、批推理(batching)、异步 /并发机制
缓存是为了省显存和跳过重复计算。Batching是为了在单位时间内处理更多请求。异步是为了让 CPU 在等待 GPU 时不闲着,同时支持流式体验。这就是一名大模型部署工程师如何将理论转化为高性能服务的过程。希望这个视角的解答对你有所启发!
2025-12-01 17:35:32
1070
原创 model deployment 1201
只能得到一堆“死”的文字流(String)。对于复杂的表格和表单,计算机不知道哪个数字对应哪个标签。给了计算机**“空间感”**。它不仅知道这就是“100”,还知道它在“Total”的右边,且位于表格的最后一行,从而推断出这是“总价”。这个项目利用 OCR 读懂字,利用 Layout Embedding 读懂排版,最终实现像人类一样理解复杂的商业文档。这两个概念是自然语言处理(NLP)和文档智能项目的基石。简单来说,BERT 分词器是“把原本的句子切碎并编号”,而。
2025-12-01 14:34:20
779
原创 model deployment 11-28
在传统 Web 服务中,响应时间(Latency)通常指“请求进来到响应出去的总时间”。但在 LLM 的**流式输出(Streaming)**场景下,如果只看总耗时,工程师是无法优化的。作为顶级部署工程师,资源利用率(成本)、**响应时间(体验)和吞吐量(并发)**是一个“不可能三角”。利用量化和技术,榨干显存,提升吞吐量。利用流式输出和投机采样技术,掩盖延迟,优化TTFT和TPOT。利用精细化监控,在成本失控前进行削峰填谷。这就是这些理论指标在真实高并发 LLM 项目中的生存之道。通俗理解。
2025-11-28 16:54:40
975
原创 model deployment 11-27
metadata:spec:template:spec:# 1. 确保调度到高性能节点# 2. 启动命令参数化# 3. 资源限制resources:limits:nvidia.com/gpu: 4 # 申请4张卡做TP# 4. 共享内存挂载(解决多卡通信)name: dshmvolumes:emptyDir:claimName: pvc-llama3-weights # 5. 挂载高性能网络存储。
2025-11-27 15:17:37
986
原创 model deployment 11-26
显卡和显卡之间搭的“高速私家桥梁”。没有 NVLink (PCIe 模式)显卡 A 想把数据给 显卡 B,必须先走 PCIe 插槽 -> 传给 CPU -> 存入内存 -> CPU 再通过 PCIe -> 传给 显卡 B。速度:慢,像走拥堵的城市地面道路。有 NVLink (Bridge 模式)显卡 A 和 显卡 B 顶部插了一个桥接器(Bridge)。数据直接从 A 飞到 B,不经过 CPU。速度:极快,像走高速高架直达。你现在要做的是8卡 Tensor Parallelism (TP=8)。
2025-11-26 16:11:09
885
原创 model deployment 11-25
标准 Attention 算法需要计算一个N×NN \times NN×N的巨大矩阵(Attention Matrix)。如果序列长度NNN翻倍,显存消耗翻 4 倍(平方级复杂度)。而且读写显存次数极多,慢。它极度聪明地利用了 GPU 极快的。把大矩阵切成小块,把小块搬进 SRAM 算完再搬出去。避免了生成巨大的N×NN \times NN×N中间矩阵写回显存。显存占用从ON2O(N^2)ON2降到了ONO(N)ON(线性)!速度快 3-10 倍。
2025-11-25 13:41:08
674
原创 model deployment
这是一个很好的延伸问题。您提到的和以及KV Cache的管理,都是大型语言模型(LLM)推理部署中,实现高性能和低成本的关键技术。它们都是为了解决Transformer 架构计算速度慢和显存占用大。在 Transformer 模型中,每一层都包含一个自注意力机制(Self-Attention)。当模型逐个生成新的 token 时(即推理过程),它需要计算新 token 与所有历史 token 之间的注意力分数。Key (K) 向量Value (V) 向量。
2025-11-19 14:42:23
858
原创 triton和一些ai词汇
您可以把 NumPy 数组想象成一个**“超级格子”,它是一个在内存中用来存放数字**的、非常高效的容器。原始图片 (文件)像test.jpg或1.png这样的文件,是被压缩的二进制文件。一本合上的书,或者一个.zip压缩包。你无法直接阅读里面的内容。NumPy 数组 (内存中)当你用这样的命令读取图片时,程序会解压缩这个文件,把它“翻译”成计算机能理解的原始像素数据。这个“翻译”后的原始数据,就存放在一个 NumPy 数组(那个“超级格子”)里。你把书打开了,或者把.zip解压了。
2025-11-17 18:32:40
1142
原创 triton
Triton 在几十毫秒内就完成了,然后(20s、60s),说明:模型已经算完了,。你现在是用,客户端在把几十/几百 MB 的 FP32 张量解析成 Python / numpy,这一步是大头。
2025-11-13 15:36:58
1004
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅