- 博客(3473)
- 收藏
- 关注
原创 vllm同时开多个模型
对于双卡 4090D请使用Docker 容器化部署或多进程脚本。容器 A(端口 8000):绑定,跑模型 A。容器 B(端口 8001):绑定,跑模型 B。这是最干净、最不容易报错的方式。使用 vLLM 的LoRA 功能。3、如果显存不够分怎么办?利用 vLLM 的参数。例如,你可以强制两个模型都只使用 50% 的显存(如果它们都在同一张卡上),但这通常只适合非常小的模型。对于大模型,物理隔离(一卡一模型)是王道。
2026-04-14 08:09:20
5
原创 大模型量化
如果把大模型比作一个精密的仪器,原本的参数(权重)是用非常高精度的“刻度”来记录的(比如 FP16 或 BF16,16位浮点数)。量化前 (FP16):就像用一把精确到 0.001 毫米的尺子去测量,精度极高,但数据量大,计算慢。量化后 (INT8/INT4):就像换用一把刻度较粗的尺子(比如只保留整数),虽然精度稍微降低,但数据体积瞬间缩小了好几倍,搬运和计算都快得飞起。
2026-04-13 11:22:50
98
转载 显存大解放:vLLM Sleep模式实战指南,90% GPU资源瞬间回收!
vLLM的Sleep模式允许你临时释放模型占用的GPU内存(包括模型权重和KV缓存),而无需停止服务器或卸载Docker容器。RLHF训练:在训练和推理间无缝切换成本优化:空闲时段释放GPU资源给其他任务多模型调度:动态切换不同模型而无需重启服务✅释放90%+ GPU显存:将权重卸载到CPU内存,丢弃KV缓存✅快速恢复:秒级唤醒,无需完整重新加载模型✅精细控制:支持分布式部署,可单独唤醒权重或KV缓存。
2026-04-10 18:27:46
17
转载 虾壳: GitHub下载加速的 免费平台
虾壳还内置节点检测功能,可以实时检测所有加速节点的状态,选择最快的节点保障下载体验,适合下载GitHub上的文件、Releases、Archive、Gist及 raw.githubusercontent.com 等资源。1.支持GitHub 文件、Releases、Archive、Gist、raw.githubusercontent.com文件加速下载,不支持整个项目文件夹 的下载。虾壳是一个专注于GitHub下载加速的免费平台,能帮助用户轻松解决在GitHub上下载文件时遇到的速度问题。
2026-04-10 08:26:39
34
原创 4位量化的qwen3.5:9b为什么占19G显存
不用担心。5.7GB是硬盘上的文件大小。19GB是 Ollama 为了让你能流畅跑长文本和视觉任务,向显卡申请的“最大可用空间”。只要ollama ps显示PROCESSOR是100% GPU,你的 4090D 就在全力工作,没有被浪费。
2026-04-10 08:22:20
214
转载 linux下安装ollama
要自定义 Ollama 的安装,您可以通过运行以下命令来编辑 systemd 服务文件或环境变量或者,在中手动创建一个覆盖文件[Service]
2026-04-10 08:01:56
13
转载 Ollama:命令行操作、上下文长度调优与模型导入
如果想给模型设定专属角色(比如“开心的猫咪”),先创建一个Modelfile# Modelfile内容示例FROM gemma3 # 基于gemma3基础模型SYSTEM """你是一只开心的猫咪,说话要软萌"""ollama create my-cat-model -f Modelfile # -f指定Modelfile路径创建完成后,用就能启动这个自定义模型。Context Length(上下文长度)说白了就是模型能“记住”的对话/文本内容上限,单位是token。
2026-04-09 16:18:11
70
转载 什么是Semantic Chunking?与固定长度切分有什么区别?
是基于语义理解进行文本分块的技术。它会分析文本的语义边界、主题转换和逻辑结构来决定在哪里切分。简单来说,它就像一个经验丰富的编辑,在阅读文章时会自然地在段落之间、主题转换的地方停顿。具体来说,Semantic Chunking会:1、把文本按句子拆分2、计算每句话的语义向量(通过embedding模型)3、比较相邻句子的语义相似度4、当相似度出现明显下降时,就认为是一个语义单元的结束,在那里切分这样切出来的每个chunk在语义上是完整且连贯的,就像完整的段落或主题单元。与之相比,固定长度切分。
2026-04-08 11:09:51
22
转载 针对长文本处理的分段提示技巧
分段提示,简单来说,就是把需要处理的长文本按照一定的规则拆分成多个小段,然后针对每个小段分别编写提示词,让大模型逐一处理,最后再把各个小段的处理结果整合起来的一种提示词优化方法。(MapReduce模式)它的核心逻辑很简单,就是 “化整为零、逐个突破因为长文本的信息量超出了大模型在单次处理中能精准把握的范围,而把长文本拆成小段后,每一小段的信息量减少,大模型能更专注地处理每一部分内容,准确理解每小段的核心需求,从而提升处理结果的质量。
2026-04-08 10:53:49
136
原创 飞腾D2000与兆芯U6780A比较
性能更强,内存最高支持64GB,适合运行复杂应用、多任务处理。其PCIe扩展能力突出,可加装独立显卡,支持复杂算法处理。:适合轻量级任务,如工业物联网数据采集、边缘计算、环境监测等。其双通道内存最高支持16GB,满足轻量级需求。需要Windows或高兼容性选兆芯;追求低功耗和长期稳定运行选飞腾。总的来说,选择取决于。
2026-04-08 10:07:02
182
转载 10个GPU问题
随着AI大模型的爆发,GPU卡和GPU服务器的需求持续攀升。但在日常交流中,我发现很多朋友对GPU的基础概念仍存在模糊甚至混淆的地方。今天,我用10个典型问题,帮你彻底理清GPU的架构、分类、接口、产品线等核心知识。无论你是运维、销售还是刚入门的技术小白,都能有所收获。
2026-04-07 09:23:24
24
转载 AI大模型推理任务中的Prefill和Decode分别是什么,为什么要做PD分离
当我们与大语言模型对话时,输入问题后总能快速得到连贯回复——看似“瞬间响应”的背后,藏着两个核心技术环节:Prefill(预填充)和Decode(解码)。它们就像AI生成内容的“两道工序”,分工截然不同,而将两者分离,正是让大模型高效、流畅运行的关键。
2026-04-07 08:57:36
91
转载 GPU为什么要划分为推理卡和训练卡
推理卡和训练卡,从来没有“谁更好”,只有“谁更适配”——就像跑车和货车,用途不同,价值不同,用对了才能发挥最大作用。如果你是做AI研发、大模型训练,选训练卡,优先看显存容量、算力精度和多卡互联能力,不用纠结延迟和功耗;如果你是做AI部署、实时推理,选推理卡,优先看延迟、功耗和并发能力,显存够用就好,不用追求极致性能;新手避坑:别用训练卡做推理(浪费钱、不高效),别用推理卡做训练(算力不足、耗时久),按需选型才是最优解。
2026-04-07 08:30:44
48
转载 为什么 IPv4 可以直接放入URL,但 IPv6 却要加上方括号?
IPv6 地址必须放在[]里面。[IPv6地址]:端口浏览器只要看到,就知道:]后面的:才是端口IPv4 没有,所以直接写。IPv6 到处都是,所以必须用[]包起来避免和端口冲突。
2026-04-07 08:07:11
22
原创 Arm Cortex-A Processor Comparison Table
suchashostingarichoperatingsystem(OS)platform,andsupportingmultiplesoftwa7-AArmv7-AArmv7-AArmv7-AArmv7-ALPAELPAELPAEIn orderPartialYesYesYes32-bit40-bit32-bit40-bit40-bitYesYesYesYesOptional。
2026-04-02 14:10:53
305
转载 ARM Cortex-A77架构解读
从产品研发的代次上来看,Cortex-A77是Cortex-A76直接的继承者,这意味着新的架构和上代产品基本保持一致。ARM表示,Cortex-A77只需要简单地升级SoC IP即可部署,并不需要推倒重来。对应到实际产品上,Cortex-A77和Cortex-A76一样,依旧使用了ARMv8.2的CPU核心,支持AArch32和AArch64。在多核心设计方面,Cortex-A77依旧支持DSU(DynamIQ Shared Uint),以实现和较小的Cortex-A55单元配对。
2026-04-02 13:52:53
33
转载 大模型内部组成与层次调用关系
大模型 (如GPT-4、Llama 3、Qwen等)并非一个“黑箱”,而是一个由多个。方法:绝对位置编码(如BERT)、旋转位置编码(RoPE,用于Llama 3、Qwen)。:让模型在处理每个Token时,能够“关注”序列中的其他相关Token,建立。)转换为并行的高维向量(Embedding),作为模型的“数学表示”。:加权后的Value向量,表示每个Token的上下文感知表示。:加入位置信息,让模型知道Token的顺序。
2026-04-01 17:08:10
42
转载 什么是推理引擎
问题回答什么是推理引擎?是用来加载和运行模型的软件系统(如 vLLM、llama.cpp)模型参数加载到内存 = 构成推理引擎?❌ 不是。这只是推理引擎工作后的结果状态我需要自己写推理引擎吗?一般不需要。直接使用成熟的开源引擎即可如何选择推理引擎?看需求:性能、硬件、是否要 OpenAI API 兼容等如果你把“推理引擎”理解为“让大模型能说话的运行环境”,就更容易理解它和“模型参数”之间的关系了:🔧推理引擎是“播放器”🎬模型参数是“电影文件”💾。
2026-04-01 16:11:02
29
原创 推理引擎如何调用模型权重进行推理
读取配置(蓝图) → 加载权重(参数) → 编译优化(适配硬件) → 预处理输入(翻译) → 执行矩阵运算(计算) → 输出结果。正是有了推理引擎,那些庞大的模型文件才能从硬盘里的“死数据”,变成能与你流畅对话的“活智能”。
2026-04-01 14:35:53
413
原创 大模型文件的组成
大模型文件并非一个单一的“黑盒”,而是一个由多个核心组件构成的复杂系统。:硬盘上可见的多个文件,各自承担不同职责。:模型加载到内存后,其内部的神经网络层次结构。
2026-04-01 14:00:11
359
转载 学习框架和推理引擎有什么区别
与上面的 LogisticRegression 不同,它并不是一个已经实现好的模型 ,而是一个实现模型的框架,类似于脚手架,通过 Pytorch 中实现的“类”(import torch.nn as nn) 按照这个框架可以实现一个高性能的模型。:在 sklearn 中,它既可以说是一个“模型”,也可以称作“算法”,在代码层面表现为一个类(LogisticRegression)。模型的核心任务是从大量数据中学习规律,完成特定预测或者生成任务,前者即“模型训练”,后者即“模型运行”
2026-04-01 13:41:26
20
转载 为什么 Win 叫 Admin, Linux 叫 root?
操作系统的很多细节,其实都带着历史的痕迹。root但无论叫什么,它们都代表系统的最高控制权限。
2026-03-31 14:26:43
42
转载 内存,两根16G好,还是一根32G好?
追求性能,选双条(2×16G)。追求扩展,选单条(1×32G)。电脑硬件的选择,没有绝对的对错,只有适不适合你。知道自己需要什么,才是装机的第一步。如果你正打算升级电脑内存,不妨先想清楚:你要的是“现在跑得快”,还是“以后升得高”?
2026-03-30 17:01:04
119
转载 有免费开源Nginx,为啥企业还要买F5
Nginx免费、灵活、够用,但金融、电信、大型政企的核心系统,依然会花几十万甚至上百万买F5。核心原因就4点:性能顶、稳得住、安全强、运维省。
2026-03-30 16:57:35
17
转载 嵌入式里的小常识:帧头为啥偏爱0x55、0xAA
0x55 和 0xAA 作为帧头的设计,是嵌入式通信中 "信号特性与工程实践" 完美结合的典范。它们利用交替二进制序列带来的同步、调试、波特率识别等多重优势,成为无数自定义协议和部分工业标准的首选帧头,在 UART等异步通信场景中发挥着不可替代的作用。
2026-03-30 16:55:44
33
转载 服务化MindIE Benchmark工具介绍
服务化MindIE Benchmark工具是通过部署昇腾服务化配套包后,以调用终端命令的方式测试大语言模型在不同配置参数下的推理性能和精度,并通过表格的形式展示模型在各个阶段的推理耗时(例如FirstTokenTime、DecodeTime等),以及对应时延的平均值、最小值、最大值、75分位(P75)、90分位(P90、SLO_P90)和99分位(P99)概率统计值,最后将计算结果保存到本地csv文件中。须知。
2026-03-30 15:52:47
55
转载 一个词是如何进入大模型的?——「读懂 Transformer」系列 · 第①篇
x_embed:这个词是什么(语义)位置信息:这个词在哪里sin/cos PE 的做法:x_i = x_embed + PE[pos] ← 直接相加,维度不变RoPE 的做法:x_i = x_embed ← 暂不处理位置位置信息在后续 Q·K 投影时,通过旋转注入为什么 sin/cos PE 用相加而不是拼接(concat)?拼接会让维度从 768 变成 1536,后续所有矩阵都要变大,计算量翻倍。相加维度不变,代价是语义和位置信息会互相"混入"——但实验证明模型完全可以自己学会区分。
2026-03-29 18:13:26
21
转载 Q、K、V:撑起大模型时代的三个字母
回到开头的问题——模型为什么知道"它"指的是 iPhone,而不是苹果公司?因为在计算"它"的输出时,"它"的 Q 向量和"iPhone"的 K 向量点积最大,Softmax 之后"iPhone"拿到了最高的注意力权重,它的 V 信息因此流入最多。模型不是"理解"了语言,而是数学上自然地找到了最相关的词。QKV 的核心思想:用可学习的投影矩阵,把"提问"和"回答"解耦——Q 负责问,K 负责被匹配,V 负责给内容。三者各司其职,让模型在每一步都能动态决定"现在该关注谁"。下一篇,我们会看。
2026-03-29 17:51:48
26
转载 一文看懂算法、算子、数据、模型之间的逻辑关系
算法与算子的本质是数学解题逻辑的具象化,二者的发展历史远早于AI时代,是人类在数学与逻辑学领域的智慧结晶,AI技术的出现,只是为其赋予了新的应用场景与执行载体,让传统的数学逻辑实现了规模化、智能化的落地应用。:以算法为核心逻辑,以高质量数据集为训练基础,将算法与算子的逻辑植入模型,通过反复训练让模型学习数据中的规律,不断优化模型参数,实现对算法与算子的精准承载;算子是算法的组成单元,算法是模型的逻辑内核,数据是模型的训练原料,模型是三者的落地载体,四者是层层支撑、相互协作的关系,而非同一概念,无法等同。
2026-03-29 17:32:57
79
转载 GPU服务器主板:模组 vs 直插
NVIDIA H200 SXM5 141GB HBM3e模组1)GPU 模组(Module):以 NVIDIA SXM/OAM 为代表,是无 PCIe 金手指的裸 GPU 计算单元,集成 GPU 芯片、HBM 显存、NVLink 端口、供电 / 散热接口,封装在专用载板上。NVIDIA A100 8x80GB HGX SXM4 GPU Baseboard(基板)2)模组基板(Baseboard/HGX)专为 GPU 模组设计的专用承载板,不是通用服务器主板。它集成。
2026-03-29 17:21:36
81
转载 GPU服务器PCIe卡尺寸解析(HHHL、FHHL、HHFL、FHFL)
1)对于GPU服务器设计者和采购者来说,需要同时考虑三个物理维度:Height(高度):决定服务器机箱的 “U”数(1U/2U/4U)。Length(长度):决定机箱的深度和内部是否有足够空间。Thickness/Slot(厚度/槽宽):决定在主板上相邻卡之间的最小间距,即单机最大可安装GPU数量。2)例如:一台1U服务器通常只能安装的卡。一台2U服务器可以安装的卡,但长度可能受限。一台4U服务器则可以无压力地安装多张的长卡,并提供充沛的散热空间。
2026-03-29 16:55:19
73
原创 鲲鹏910(Hi1616)支持atlas300i Duo吗
组件规格/型号兼容性结论处理器鲲鹏 916 (Hi1616)❌不支持加速卡(PCIe 4.0 设备)推荐平台鲲鹏 920 (Hi1620)✅完美支持如果您必须使用,请务必将其部署在搭载鲲鹏920 (Hi1620)处理器的服务器上(例如华为 Atlas 800 推理服务器)。如果只能在鲲鹏916平台上运行,建议寻找支持 PCIe 3.0 的旧款推理卡(如 Atlas 300I 单芯版,具体需查阅当时的兼容性列表),或者升级硬件平台。
2026-03-29 16:41:32
181
原创 擎云 W515x/W585x(台式机)与 L420x/L540x(笔记本)的对比
华为擎云系列针对不同办公场景提供了台式机和笔记本两大类产品。以下是擎云 W515x/W585x(台式机)与 L420x/L540x(笔记本)的核心区别对比。
2026-03-27 16:45:37
231
原创 PCIe与HBM
特性PCIeHBM全称本质总线接口标准内存封装技术主要用途连接 CPU 与外设(显卡、SSD、网卡、FPGA等)为 GPU、AI 芯片提供紧邻的大容量、高带宽显存连接距离板卡级或机箱级连接(几厘米到几十厘米)芯片级连接(微米级,直接堆叠在逻辑芯片旁)典型用户所有现代电脑、服务器高端显卡 (NVIDIA H100/A100, AMD MI300)、高性能计算1)能不能用 PCIe 代替 HBM?不能。
2026-03-19 11:28:55
370
原创 PCIe各版本速度区别
PCIe(Peripheral Component Interconnect Express)各版本的主要区别在于(带宽),每一代的速度通常是上一代的。
2026-03-19 11:17:20
507
原创 Tauri-开源的跨平台桌面应用开发框架
,使用 Rust 编写后端逻辑,前端基于 Web 技术(如 HTML/CSS/JavaScript),以轻量级、高性能和安全性为核心优势,支持 Windows、macOS 和 Linux 系统。其发音为 /ˈtaʊri/(类似“taw-ree”)。。
2026-03-19 10:32:52
293
原创 将 Vue 应用以客户端形式分发到 Linux 客户机,并实现一键安装和自动升级
为了实现Vue 应用在 Linux 上的一键安装和自动升级1、首选框架Electron。2、打包格式:优先选择AppImage(免安装、兼容性好、易升级),辅以.deb(针对 Ubuntu/Debian 深度集成)。3、核心工具链(开发) +(打包) +(升级)。4、交付物:一个.AppImage文件 + 一个部署在 Nginx 上的更新目录。用户下载后chmod +x即可运行,程序内部会自动检查服务器版本并完成升级。你不能让 AppImage下载下来瞬间就自动。
2026-03-19 08:53:20
535
转载 DiskGenius
DiskGenius软件的主要功能及特点1、支持传统的MBR分区表格式及主流的GUID分区表格式。2、支持基本的分区建立、删除、隐藏等操作。可指定详细的分区参数;3、支持IDE、SCSI、SATA、NVME等各种类型的硬盘。支持U盘、USB硬盘(移动硬盘)、存储卡(闪存卡);4、支持FAT12、FAT16、FAT32、NTFS文件系统;5、支持EXT2/EXT3/EXT4文件系统的文件读取操作。支持Linux LVM2磁盘管理方式;
2026-03-18 15:22:09
610
转载 vLLM-Ascend 模型在昇腾 NPU 上的开发、调试与性能优化
最近几年来,随着大模型在自然语言处理、代码生成和知识问答等领域的快速发展,0Day 模型凭借其前沿算法和大规模参数优势,成为开发者进行高性能推理和实验的重要选择。但是像这些模型对算力资源的要求都比较高,以往的GPU在部署这类模型的时候容易出现性能下降,算力不足等问题。昇腾 NPU 提供了强大的 AI 加速能力,其高带宽内存架构和算子优化,为大模型推理提供了理想平台。我选择了vLLM-Ascend版本的0Day模型来进行实践操作,主要是因为。
2026-03-18 10:50:09
137
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅