自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

怨行客

将大问题切割成不起眼的小问题 蚂蚁就能吃掉大象--推理,每一个环节的输入输出

  • 博客(663)
  • 收藏
  • 关注

原创 RAGFlow 2

管理员在配置页面(Chat Configuration)点击“Add Variable”。系统会在数据库里记录一个 JSON Schema。"label": "您的职业","options": ["工程师", "设计师", "产品经理"],“设置对话变量”是 RAGFlow 提供的低代码(Low-Code)逻辑控制能力。对比没用变量用了变量Prompt 形态静态的文本块动态的填空题模板用户体验所有人得到一样的服务用户可以定制自己的服务模式维护成本需要为不同场景创建多个 Bot。

2025-12-12 17:25:37 1035

原创 RAGFlow 2

Schema 定义:管理员在系统层面定义 Tag Key(标签名)和对应的可选 Values。类似于。文件入库与打标 (File Upload & Tagging):上传文件时,前端 UI 弹窗让用户选择标签。系统将文件 ID 与选定的标签进行关联。这个标签属性会被该文件切分出来的每一个 Chunk(切片)所继承。向量存储 (Storage):存入向量数据库(Elasticsearch/Infinity/Milvus)。

2025-12-12 11:26:23 843

原创 RAGFlow 1

特性OllamaXinferenceIPEX-LLMTriton核心定位个人/开发者工具全栈模型部署框架Intel 硬件加速库工业级推理服务器上手难度⭐ (极简)⭐⭐ (简单)⭐⭐⭐ (需改代码/配置)⭐⭐⭐⭐⭐ (困难)模型支持主打 LLM (GGUF)LLM + 图片 + 音频 + 向量PyTorch 模型所有主流 AI 框架硬件倾向Apple Silicon, NV卡, CPUNV卡 (推荐), CPUIntel CPU/GPU 专用NVIDIA GPU 专用适合场景。

2025-12-11 17:24:41 868

原创 MIRIX 3

Procedural Memory (程序记忆)Knowledge Vault (知识库)Episodic Memory (情景记忆)Semantic Memory (语义记忆)Resource Memory (资源记忆)系统主要依赖PostgreSQL 原生全文本搜索 (full-text search)来实现高性能和可扩展性。bm25是推荐的默认搜索方法,因为它利用 PostgreSQL 的原生能力,实现了优秀的性能和广泛的适用性。如果查询关注的是概念或含义。

2025-12-10 11:15:16 624

原创 MIRIX 2

每次用户发消息,这个 Agent 都会自动根据关键词从上面 6 种记忆中检索相关内容,拼进 system prompt 里,让 LLM “记得过去”。用户发图片、PDF、Google Docs 链接都能处理。Mirix 的架构极其模块化,它允许你拥有几十种不同的 Agent。这些 Agent 行为千差万别,但它们必须满足一个共同点:收到消息 → 思考 → 可能调用工具 → 可能修改记忆 → 最终返回使用统计。

2025-12-08 18:20:19 979

原创 熟练版本控制 (Git)、CI/CD 流程。

如果面试官问:“你如何保证大模型部署的稳定性?” 你可以这样回答:“在之前的项目中,我负责 Llama-3 70B 的部署。为了解决大模型迭代中常见的性能退化和版本混乱版本控制方面:我实施了‘模型配置化’(Model-as-Code),将模型权重路径、Prompt 模版和推理参数统一在 Git 中管理,确保了环境的严格可复现。CI 环节:我引入了GPU 自动化回归测试。在代码合并前,流水线会自动拉起容器进行推理基准测试。我们设定了阈值,如果新代码导致首字延迟(TTFT)增加超过 10%,流水线会自动拦截。

2025-12-05 16:23:56 708

原创 理解训练 vs 推理时对计算图、内存、精度的不同要求

太棒了,这不仅是理论,更是顶级部署工程师和普通算法工程师的分水岭。在面试或实战中,很多人以为“部署不就是把 改成 吗?”大错特错。训练(Training)和推理(Inference/Serving)在底层逻辑上是两种完全不同的生物。下面我从计算图、内存、精度三个维度,结合真实项目场景来剖析。核心差异:动态图 vs 静态图 (Dynamic vs Static)训练时 (PyTorch 默认模式):推理时 (Deployment 模式):场景 A:Python 后端太慢,QPS 上不去痛点: 用原生 P

2025-12-04 17:32:15 769

原创 要懂 transformer 大模型(如 LLM)的基本构造 +关键组件(Attention, FFN, embedding 等)

老板问:“为什么这个 7B 模型显存只要 14G,那个 7B 模型要 20G?原理回答:“因为那个模型没用 GQA,KV Cache 太大,或者是词表(Embedding)特别大。客户问:“为什么输入长了之后,速度慢得像蜗牛?原理回答:“因为 Attention 是ON2O(N^2)ON2复杂度,我们需要开启 FlashAttention 来优化 IO。运维问:“怎么把两个 GPU 利用率跑满?原理回答。

2025-12-04 17:13:34 683

原创 模型分布式复制 /压缩 /动态加载机制

在实际工作中,这些知识不是死记硬背的概念,而是根据**SLA(服务等级协议)和没钱买卡?->压缩 (Quantization)用户嫌慢?->张量并行 (TP)用户太多?->副本复制 (Replication)模型太多?->动态加载 (LoRA/Swapping)

2025-12-04 09:40:52 923

原创 对分布式推理架构有经验。包括跨机器 /跨节点部署、负载均衡、模型分片。

通过精确计算,Llama-3-70B 模型权重在 FP16 精度下,理论上需要约130.2 GB的显存。而实际应用中提到约140GB模型在推理过程中,每层计算产生的中间结果。这部分数据量取决于批次大小 (Batch Size)和序列长度 (Sequence Length)。用于存储 Attention 机制中的键(Key)和值(Value)向量,特别是进行长序列推理时,K/V Cache 会占用相当大的空间。PyTorch、TensorFlow 或 VLLM 等推理框架自身运行所需的少量显存。

2025-12-03 18:07:44 1043

原创 MIRIX 1

覆盖率 = 你的测试代码到底测了多少百分比的项目代码举一个超级简单的例子:if not user_id: # 第2行if tags is None: # 第5行tags = []# 保存到 Redis ... # 第8行save_to_redis(user_id, content, tags) # 第9行summarize_with_llm(content) # 第10行add_memory("u123", "我今天吃了火锅", ["food"])

2025-12-03 10:03:27 953

原创 缓存策略、批推理(batching)、异步 /并发机制

缓存是为了省显存和跳过重复计算。Batching是为了在单位时间内处理更多请求。异步是为了让 CPU 在等待 GPU 时不闲着,同时支持流式体验。这就是一名大模型部署工程师如何将理论转化为高性能服务的过程。希望这个视角的解答对你有所启发!

2025-12-01 17:35:32 897

原创 model deployment 1201

只能得到一堆“死”的文字流(String)。对于复杂的表格和表单,计算机不知道哪个数字对应哪个标签。给了计算机**“空间感”**。它不仅知道这就是“100”,还知道它在“Total”的右边,且位于表格的最后一行,从而推断出这是“总价”。这个项目利用 OCR 读懂字,利用 Layout Embedding 读懂排版,最终实现像人类一样理解复杂的商业文档。这两个概念是自然语言处理(NLP)和文档智能项目的基石。简单来说,BERT 分词器是“把原本的句子切碎并编号”,而。

2025-12-01 14:34:20 747

原创 model deployment 11-28

在传统 Web 服务中,响应时间(Latency)通常指“请求进来到响应出去的总时间”。但在 LLM 的**流式输出(Streaming)**场景下,如果只看总耗时,工程师是无法优化的。作为顶级部署工程师,资源利用率(成本)、**响应时间(体验)和吞吐量(并发)**是一个“不可能三角”。利用量化和技术,榨干显存,提升吞吐量。利用流式输出和投机采样技术,掩盖延迟,优化TTFT和TPOT。利用精细化监控,在成本失控前进行削峰填谷。这就是这些理论指标在真实高并发 LLM 项目中的生存之道。通俗理解。

2025-11-28 16:54:40 941

原创 model deployment 11-27

metadata:spec:template:spec:# 1. 确保调度到高性能节点# 2. 启动命令参数化# 3. 资源限制resources:limits:nvidia.com/gpu: 4 # 申请4张卡做TP# 4. 共享内存挂载(解决多卡通信)name: dshmvolumes:emptyDir:claimName: pvc-llama3-weights # 5. 挂载高性能网络存储。

2025-11-27 15:17:37 914

原创 model deployment 11-26

显卡和显卡之间搭的“高速私家桥梁”。没有 NVLink (PCIe 模式)显卡 A 想把数据给 显卡 B,必须先走 PCIe 插槽 -> 传给 CPU -> 存入内存 -> CPU 再通过 PCIe -> 传给 显卡 B。速度:慢,像走拥堵的城市地面道路。有 NVLink (Bridge 模式)显卡 A 和 显卡 B 顶部插了一个桥接器(Bridge)。数据直接从 A 飞到 B,不经过 CPU。速度:极快,像走高速高架直达。你现在要做的是8卡 Tensor Parallelism (TP=8)。

2025-11-26 16:11:09 852

原创 model deployment 11-25

标准 Attention 算法需要计算一个N×NN \times NN×N的巨大矩阵(Attention Matrix)。如果序列长度NNN翻倍,显存消耗翻 4 倍(平方级复杂度)。而且读写显存次数极多,慢。它极度聪明地利用了 GPU 极快的。把大矩阵切成小块,把小块搬进 SRAM 算完再搬出去。避免了生成巨大的N×NN \times NN×N中间矩阵写回显存。显存占用从ON2O(N^2)ON2降到了ONO(N)ON(线性)!速度快 3-10 倍。

2025-11-25 13:41:08 555

原创 model deployment 11-24

导出时间: 2025/11/24 14:15:46。

2025-11-24 14:18:12 1002

原创 model deployment

这是一个很好的延伸问题。您提到的和以及KV Cache的管理,都是大型语言模型(LLM)推理部署中,实现高性能和低成本的关键技术。它们都是为了解决Transformer 架构计算速度慢和显存占用大。在 Transformer 模型中,每一层都包含一个自注意力机制(Self-Attention)。当模型逐个生成新的 token 时(即推理过程),它需要计算新 token 与所有历史 token 之间的注意力分数。Key (K) 向量Value (V) 向量。

2025-11-19 14:42:23 771

原创 triton和一些ai词汇

您可以把 NumPy 数组想象成一个**“超级格子”,它是一个在内存中用来存放数字**的、非常高效的容器。原始图片 (文件)像test.jpg或1.png这样的文件,是被压缩的二进制文件。一本合上的书,或者一个.zip压缩包。你无法直接阅读里面的内容。NumPy 数组 (内存中)当你用这样的命令读取图片时,程序会解压缩这个文件,把它“翻译”成计算机能理解的原始像素数据。这个“翻译”后的原始数据,就存放在一个 NumPy 数组(那个“超级格子”)里。你把书打开了,或者把.zip解压了。

2025-11-17 18:32:40 1057

原创 triton

Triton 在几十毫秒内就完成了,然后(20s、60s),说明:模型已经算完了,。你现在是用,客户端在把几十/几百 MB 的 FP32 张量解析成 Python / numpy,这一步是大头。

2025-11-13 15:36:58 918

原创 创建username和passwd

在上创建一个名为username的用户,并为其设置密码,同时赋予该用户sudo。

2025-10-24 15:30:45 195

原创 crictl pull 改镜像地址

(K8s 官方已经把镜像从 gcr.io 迁移到 registry.k8s.io)这些都是国内可用的镜像代理服务(由 DaoCloud、阿里云、网易提供)。如果你部署 K8s 或 ArgoCD,Kubeadm 默认拉取国外镜像。会让 kubeadm 所有组件镜像都走阿里云镜像仓库。有三种方式可以彻底解决,推荐第 2 种和第 3 种👇。👉 但是这只是“手动治标”,不治本。如果能正常拉取,那就说明配置成功 ✅。你可以直接告诉它使用国内镜像仓库。这个方法最干净、最“

2025-10-22 13:52:37 443

原创 github镜像网站

比如 git clone https://github.akams.cn/https://github.com/OpenMathLib/OpenBLAS.git。

2025-07-04 17:01:54 1039

原创 搭建 Kubernetes v1.29 集群

v1.29是长期支持版本sudoteesudotee。

2025-06-27 14:46:42 224

原创 vllm docker部署 大模型 api server

【代码】vllm docker部署 大模型 api server。

2025-05-30 09:07:23 171

原创 hf-mirror断点续传下载权重

c你也可以加速下载(多线程)使用aria2。

2025-05-29 13:33:48 367

原创 ollama部署模型

【代码】ollama部署模型。

2025-05-20 13:41:41 223

原创 大模型相关问题解答

当你需要用显卡做某个任务(比如深度学习训练),你会用工具箱里的工具(CUDA库),然后通过翻译官(显卡驱动)把任务交给显卡去做。是CUDA工具包的一部分,它提供了一个高层次的API,允许开发者在代码中直接访问CUDA的底层功能。所以,即使你的驱动是CUDA 12.0,容器中的CUDA库是12.4,只要驱动足够新,CUDA库的版本可以不同,不会有问题。它是程序和GPU硬件之间的高层接口。CUDA库(CUDA Toolkit)是一个为程序员提供GPU加速计算的工具集,包含了执行计算所需的库、编译器、运行时等。

2025-04-28 15:49:52 414

原创 win11 跳过连接网络

如果 Shift + F10 无反应,尝试按 Alt + Tab 切换窗口后再重试 Shift + F10。按下 Shift + F10 组合键以打开命令提示符(Command Prompt)。如果你的设备有 Fn 键,可能需要按 Fn + Shift + F10。

2025-04-27 09:44:35 448

原创 脚本备份数据

好问题!你想要,这是一个非常典型的,建议使用的方式实现,稳定高效。我来手把手教你配置,一次性搞定。

2025-04-22 18:01:28 574

原创 harbor Rocky linux 9.5 Docker部署

你这个思路是完全可行的!我们可以通过以下几个步骤在 Rocky Linux 9.5 上部署一个,并把镜像存储定向到本地的目录,实现便携式迁移。

2025-04-17 18:49:28 1164

原创 Rocky 9.5

【代码】Rocky 9.5设置网络。

2025-04-17 15:52:34 508

原创 软raid配置qq邮件通知

特性软 RAID硬 RAID成本低(无需专用硬件)高(需要 RAID 控制器)性能依赖 CPU,适合轻到中负载硬件加速,适合高负载灵活性高,支持多种配置和操作系统较低,受控制器限制可靠性无专用缓存,断电风险较高有 BBU,数据保护更好管理需手动配置,依赖命令行工具提供专用工具,管理更简单迁移性硬件无关,易迁移厂商锁定,迁移复杂故障点无控制器故障风险控制器可能成为单点故障适用场景小型服务器、个人工作站、低预算环境企业级服务器、高性能/可靠性需求环境。

2025-04-16 15:28:59 874

原创 Sonatype Nexus Repository Docker部署

总结:说明: 容器默认使用 UID 为 200 的用户运行,所以这里要提前设置权限。创建文件 :然后运行:3. 查看状态 & 访问查看日志:浏览器访问:默认初始密码在:

2025-04-16 13:57:29 460

原创 kubeadm更新证书

根据你提供的信息,证书将在 8 天后到期。你使用的是 K8s 版本 1.21,因此你需要采取以下步骤来更新证书。这里的步骤适用于使用kubeadm部署的集群。

2025-04-02 17:58:10 737

原创 物理内存和虚拟内存

就像是程序一直向操作系统请求内存,但它用了却没有释放出来,导致它占用了越来越多的虚拟内存和物理内存,就像房子里越来越多的东西堆积,甚至没地方放了。最终,操作系统可能会强制结束程序,或者整台机器卡死,因为没有足够的内存。如果你的物理内存(房间)不够用,操作系统会把一些暂时不需要的数据从房间里拿出去放到仓库(硬盘上的 swap 空间)。虽然仓库的空间比房间大,但取出和放入物品比房间慢得多,所以这样做会拖慢程序的运行速度。假设你开了一个程序(比如一个视频编辑软件),这个程序请求了 8GB 的虚拟内存。

2025-02-19 13:33:32 602

原创 禁用屏保(即使未激活 Windows)

如果按照这些方法仍未解决问题,请提供更多细节,我可以进一步帮您分析!

2024-11-22 09:45:28 10600 1

原创 OmniSearch Qwen2+VL+7B

【代码】OmniSearch Qwen2+VL+7B。

2024-11-15 13:44:43 485 1

原创 rockylinux 8安装 gcc11.2

要使系统默认使用新编译的 GCC 11.2 版本,可以通过更新路径或创建符号链接来完成。这样,你的 Rocky Linux 8 系统就会使用编译安装的更新版本的 GCC。:如果希望在每次登录时都默认使用 GCC 11.2,可以将。环境变量的前面,使其优先于系统默认的 GCC 路径。将新安装的 GCC 11.2 二进制文件链接到。显示新安装的 GCC 11.2 版本。通过这两种方法之一,你应该能够使。通常,新编译的 GCC 安装在。将新安装的 GCC 目录添加到。检查是否成功切换到新版本。

2024-11-12 15:47:16 1121

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除