盒子6910-CSDN博客

原创英伟达（NVIDIA）GPU 常用命令大全

英伟达GPU常用命令大全，涵盖基础监控、进程管理、硬件信息、性能分析和进阶调试五大场景。核心命令nvidia-smi可查看GPU状态、利用率、温度和进程信息，配合-l参数实现动态刷新。进程管理使用nvidia-smi pmon定位占用GPU的进程，硬件查询包括型号、带宽和驱动版本。性能分析关注功耗、CUDA版本和PCIe链路，进阶调试涉及容器GPU分配和多卡拓扑。推荐第三方工具nvtop和gpustat增强监控体验。这些命令覆盖90%的GPU管理需求，特别适合异构推理优化场景。

2026-01-08 17:15:54 78

原创异构硬件推理性能的细粒度分析

本文提出了一套针对异构硬件推理性能的系统化分析框架。首先构建了包含时间占比、资源效率、延迟构成和吞吐量等多维度的性能指标体系，并针对不同硬件特性设计动态权重。其次提出三层瓶颈定位方法：全链路宏观分析、算子级微观分析和互联分布分析，推荐使用Nsight、Triton等专业工具链。进一步设计了包含统一性能画像工具、硬件专属工具和自动化脚本的分析体系，并给出优化闭环设计方案，包括问题归因策略匹配和持续迭代机制。最后通过ResNet50优化案例展示实际效果，提出预测式分析、硬件感知编译等进阶方向。该框架实现了从宏观

2026-01-08 11:18:01 17

原创异构硬件推理性能细粒度分析体系

本文提出了一套异构硬件推理性能的细粒度分析体系，通过构建全链路、多维度的性能指标体系，结合分层诊断方法，实现从宏观到微观的瓶颈定位。该体系包含三个核心模块：1) 全链路耗时拆解指标（CPU预处理/H2D/Kernel/D2H），2) 核心资源利用率指标（MFU/MBU/PCIe带宽），3) 瓶颈特征指标。采用"宏观-微观-互联"三层分析方法，配合专用工具链（如Nsight Compute、nvidia-smi等），形成完整的性能优化闭环，适用于GPU/TPU/NPU等异构硬件场景，可精准

2026-01-08 11:15:39 118

原创【golang】替换 ioutil.ReadAll 为 io.ReadAll 性能会下降吗

摘要：ioutil.ReadAll 与 io.ReadAll 性能完全一致，替换无性能损失。Go1.16+ 中 ioutil.ReadAll 仅是 io.ReadAll 的包装，底层实现相同。实测1GB文件读取显示二者耗时、内存分配完全一致（约890ms/1.05GB）。废弃 ioutil 是出于代码规范考量，io 包作为核心将持续优化。Go1.16+项目应优先使用 io.ReadAll，仅需注意版本兼容性（Go1.16+支持）。其他类似函数如 ReadFile/WriteFile 替换也无性能差异。

2026-01-08 11:12:02 527

原创 qpm和并发的关系

QPM（每分钟查询数）与并发的关系详解 QPM（吞吐量指标）和并发（并行处理能力）是性能评估的核心指标，二者通过响应时间（RT）形成数学关系：QPS = 并发数 × 1000 ÷ RT(ms)。并发数决定QPM上限，但超过最优值后，QPM会因资源竞争而下降。AI场景中，GPU算力成为并发瓶颈，但公式依然适用。性能优化的关键是找到最优并发数，使QPM最大化，同时保持RT稳定。典型场景计算显示，200并发、20ms RT的系统理论QPM为6万。需注意并发与QPM非线性增长，系统资源有限性会导致过高并发时性能下降

2025-12-29 17:32:04 63

原创大模型中GPT 和 VIT 分离部署和PD分离部署的区别

摘要：GPT与ViT分离部署和PD分离部署是不同维度的概念。前者将文本处理（GPT）与图像处理（ViT）模型独立部署，实现资源隔离与灵活扩展，适用于多模态系统。后者可能指TiDB的Placement Driver分离或大模型推理中的Prefill-Decode阶段分离，优化单模型推理效率。两者分别解决跨模型资源分配和单模型内部阶段性能问题，目标均为提升系统效率，但适用场景与技术重点不同。

2025-12-10 19:40:08 107

原创传统小模型与大模型运维的不同

摘要：传统小模型与大模型运维在资源需求、部署架构、监控、性能优化等八大维度差异显著。大模型需分布式集群（千卡级GPU）、复杂监控（全链路追踪）、系统工程优化（量化/并行），成本高（训练千万级）、容灾要求高（99.99%可用性）。安全需防控多维度风险（数据/推理/合规），而小模型仅需单机资源与基础监控。两者运维从轻量单机升级为大规模分布式系统工程，技术复杂度和资源需求呈指数级增长。

2025-12-09 14:44:58 175

原创大模型服务中知识图谱、飞轮、意图分类分别是什么意思

摘要：知识图谱、飞轮和意图分类是大模型服务中的三大关键技术。知识图谱作为外部知识源，通过结构化三元组补充大模型的静态知识，解决时效性、专业性和推理问题。飞轮效应通过“数据-优化-增长”闭环驱动模型持续迭代，提升用户体验。意图分类则精准识别用户需求，确保生成内容与意图匹配。三者协同作用：知识图谱增强模型知识库，飞轮优化数据驱动迭代，意图分类提升交互准确性，共同推动大模型从基础功能向高效智能演进。

2025-12-09 14:18:33 408

原创大模型运维预案思考

摘要：在大模型推理服务中，模型本身无法直接感知用户输入的原始token数，但可通过工程手段在服务层优化token使用。主要方法包括：1) 输入预处理，通过tokenizer预估长度并截断或压缩文本；2) 优化prompt模板和多轮对话管理；3) 输出阶段限制生成长度；4) 实施token预算机制。这些方法可在不依赖模型感知token数的情况下，有效减少输入/输出token，优化资源利用率和响应延迟。核心思路是在服务层提前计算并控制token长度，通过截断、压缩等手段降低计算压力。

2025-12-08 19:49:29 58

原创大模型常用的监控指标

摘要：大模型推理服务的核心监控指标包括GPU利用率、SM利用率、平均耗时、首字耗时、P99耗时、输入/输出token数、功率、KV Cache和显存占用。这些指标受请求量和token长度影响：请求量增加会提高GPU利用率但可能延长延迟；token长度增加会提升计算复杂度并增加显存压力。优化需平衡资源利用率、延迟和显存，如通过动态批处理提升GPU利用率、KV Cache复用降低延迟、分页KV Cache缓解显存压力。需从硬件、模型和业务三个维度综合分析指标关系。

2025-12-08 16:15:32 215

原创运维中的SLA

SLA（服务等级协议）指标是衡量服务质量的量化标准，主要包括可用性、延迟、吞吐量、故障恢复时间等核心维度。这些指标明确服务提供商与客户之间的责任边界，通过百分比、时间等具体数值（如99.9%可用性、P99延迟≤200ms）量化服务质量。不同业务场景（如云服务、API、IT运维）的SLA侧重不同，通常配套监控工具和未达标罚则。SLA指标既作为服务承诺的契约，也驱动服务持续优化，是保障服务质量的关键管理工具。

2025-12-08 11:55:33 98

原创大模型架构有哪些

大模型推理框架选型指南：主流框架各有优势，vLLM、TGI、TensorRT-LLM、llama.cpp和MLC-LLM是五大主流选择。TGI深度集成Hugging Face生态，适合快速部署；TensorRT-LLM在NVIDIA GPU上性能最优；llama.cpp轻量跨平台，适合边缘设备；MLC-LLM擅长移动端部署；vLLM则在高吞吐场景表现突出。选型需结合硬件环境、性能需求和应用场景，如生产级服务推荐TGI，个人开发可选llama.cpp，移动端首选MLC-LLM。（149字）

2025-11-26 21:06:40 46

原创为什么 HTTP 是无状态的

HTTP 协议采用无状态设计，每个请求和响应都是独立且简单的。服务器仅处理当前请求，不会跟踪或保存之前的请求信息。这种设计简化了服务器处理逻辑，提高了协议的可扩展性。无状态特性使得每个请求都需包含完整信息，虽增加了请求数据量，但确保了协议的高效性和灵活性。

2025-11-11 15:23:45 114

原创浏览器在键入网址后，整个过程是怎样的

摘要：浏览器访问网址时，首先解析URL并生成HTTP请求报文，随后通过DNS解析获取IP地址。协议栈封装TCP/IP/MAC头部后，数据包经网卡转为电信号，通过交换机和路由器传输至服务器。服务器处理请求后返回响应数据，经反向路径传回浏览器，最终完成页面渲染。整个过程涉及网络各层协议及设备的协同工作。

2025-11-11 15:22:38 156

原创 PQL Rate函数

摘要：本文介绍了Prometheus中rate()函数的正确使用方法及注意事项。该函数用于计算计数器类型指标的每秒平均速率（如HTTP请求数），语法为rate(metric_name[时间范围])。文章强调rate()仅适用于单调递增的计数器，若误用于其他场景（如绝对值指标）会导致数据不准确，并对比了与irate()函数的区别。正确使用rate()函数能有效监控关键指标的变化趋势。（149字）

2025-11-10 17:53:20 48

原创大模型不同类型GPU卡的兑换比

摘要：本文分析了不同GPU在大模型训练/推理场景下的性能兑换比，以A100-80G为基准。H100/H800/H20等高端卡因架构优势可达A100的2-6倍性能，其中H100在FP16算力和带宽上表现最优。兑换比计算需综合考虑FP16吞吐、显存容量及带宽，并随任务类型浮动。实际应用中，H100集群级性能约为A100的6倍，而特供版H20凭借显存优势在推理场景性价比突出。选型建议：千亿参数训练首选H100，大模型推理可考虑H20。（149字）

2025-11-10 17:50:52 69

原创【WIP】大模型运维中GPU机器介绍

NVIDIA主流AI加速卡对比摘要 NVIDIA多款AI加速卡在架构、显存和算力上差异显著，覆盖从训练到推理的全场景需求：旗舰训练卡：H100/H200（Hopper架构）提供80-141GB HBM3显存，FP16算力达3,958-4,900 TFLOPS，支持900GB/s NVLink，适合千亿参数大模型训练；中国特供版H800/H20在带宽和互联性能上受限（400GB/s NVLink，FP16算力1,336-1,979 TFLOPS）。经典训练卡：A100（Ampere架构）仍为行业基准，80

2025-11-10 17:47:13 178

原创大模型评测探索--以业务价值导向进行评测

智能复盘系统评测体系构建核心观点：提出"自动化打底+人工校准"的人机协同评测模式智能复盘测评与传统客服测评存在本质差异，需重点关注洞察深度和可执行性传统NLP指标(ROUGE/BLEU)在业务场景中失效，需建立业务价值导向评估体系关键进展：构建四级评测架构：通用能力→语义相似→业务价值→人工校准最终采用"业务价值导向打分法"，评估维度包括： ✓ 洞察深度 ✓ 逻辑完整性 ✓ 可执行性 ✓ 证据支撑实践价值：突破传统AI评测局限，形成"感知-

2025-11-10 16:04:02 41

原创 prefill和decode的pd部署是什么

摘要：Prefill-Decode（PD）分离部署是大语言模型推理优化的关键技术，通过将计算密集的Prefill阶段与内存密集的Decode阶段分配到不同硬件设备独立处理。Prefill阶段专注并行处理输入文本生成KV缓存，Decode阶段则基于缓存自回归生成后续token。该技术解决了传统架构中资源竞争、服务中断等问题，显著提升吞吐量、降低延迟，并支持弹性扩展。已应用于OpenAI、阿里云等平台，成为现代LLM工程化的核心方案。

2025-11-07 14:46:05 306

原创【WIP】大模型评测指标

大模型推理性能评估的四大核心指标包括：TTFT（首token延迟，影响用户体验）、TPOT（每token延迟，决定生成速度）、Throughput（吞吐量，衡量系统并发能力）和Cost（成本，评估经济可行性）。这些指标直接影响模型的生产落地效果，必须纳入评测体系。企业选型时需平衡"模型能力"和"性能成本"，通过加权评分等方式进行综合评估。优化方向涉及模型量化、推理引擎改进及并发调度等，是评估大模型"运行效率"与"落地可行性"的关

2025-11-07 14:40:46 170

原创 IAAS PAAS SAAS MAAS分别是什么

摘要：云计算服务模式分为四层： IaaS（基础设施即服务）：提供虚拟机、存储等底层资源，用户需自行管理OS和应用（如AWS EC2）； PaaS（平台即服务）：提供开发环境，用户专注代码，服务商管理底层（如Heroku）； SaaS（软件即服务）：直接使用现成软件（如Zoom），无需维护； MaaS（模型即服务）：AI时代新范式，通过API调用大模型能力（如GPT API），用户仅需设计Prompt。四者逐层抽象，MaaS因低门槛、快速验证成为AI应用核心模式。需注意在AI领域MaaS特指模型服务，非交

2025-11-07 14:26:52 69

原创在大模型压测中是测试单卡还是压测单个机器上所有卡？

本文详细分析了大模型服务压测中的两种关键方式：单卡压测和单机多卡压测。单卡压测主要用于评估特定GPU卡的理论性能上限，为调度策略提供基准数据；单机多卡压测则评估整机性能，验证多卡并行推理效果和卡间协同效率。文章还阐述了二者的递进关系，建议压测流程应从单卡到单机再到集群分阶段进行，并提供了具体方法和注意事项。最后强调两者缺一不可，前者提供调度依据，后者验证实际部署效果，共同为生产环境容量规划提供数据支撑。（148字）

2025-11-04 14:21:12 205

原创在gpu卡异构部署的情况下如何做大模型压测

本文系统探讨了在大模型服务中混合使用不同GPU卡（如A100/H100/V100等）时的压测与容量评估方法。首先提出明确压测目标（容量摸底、性能评估、调度验证等），然后设计分层压测策略（单卡、混合卡、动态调权测试），并给出具体实施步骤。重点关注硬件异构环境下的调度策略验证、瓶颈定位（计算/显存/网络等）以及优化建议。最后强调通过"分而治之+动态验证"的方法，先测试单卡性能，再验证混合组合，最终输出容量曲线、资源利用率和最优部署方案，以实现异构资源的高效利用。

2025-11-04 14:19:05 49

原创【探索问题】如何运维一个大模型？

大模型运维体系摘要（150字）腾讯混元大模型等大型AI系统的运维需构建多维度技术框架，覆盖基础设施管理、模型部署、稳定性保障等关键环节。核心要点包括：硬件与网络：通过GPU监控、分布式存储和高速网络架构确保计算效能；模型运行：采用容器化部署、分布式计算及实时性能监控；高可用设计：建立故障检测机制、冗余架构和负载均衡策略；数据安全：实施数据加密、访问控制和合规审计；效能优化：结合模型压缩、动态资源分配提升性价比。运维需融合SRE方法论与自动化工具，形成"观测-响应-优化"闭环，

2025-10-31 15:46:10 91

原创如何训练一个运维大模型

摘要：利用开源大模型（如Qwen、ChatGLM）构建运维专用AI，可通过两种方法实现：轻量级RAG方案：结合向量检索与提示工程，快速接入运维文档（日志、手册）生成答案，适合初期验证；微调方案（SFT/LoRA）：基于运维对话数据（工单、脚本、日志样本）训练模型，提升专业能力，需GPU算力支持。关键步骤：选择模型底座（推荐中文优化的Qwen/ChatGLM）、准备结构化数据（JSON问答对）、部署推理服务（FastAPI/vLLM），并持续迭代优化。优势：自动化故障排查、命令生成、知识问答，降低人

2025-09-03 14:22:19 88

原创阿里云面试题：最大数

摘要：本文讨论如何将一组非负整数重新排列组成最大的整数。初始错误解法通过直接比较数字字符串的字典序和前缀进行排序，但在处理类似[432,43243]的输入时失效。正确解法应比较两个数字不同拼接方式的结果：若str(a)+str(b) > str(b)+str(a)，则a应排在b前。通过自定义排序函数结合functools.cmp_to_key实现，并处理全零特殊情况（如返回"0"而非"000"）。最终将排序后的字符串拼接即为最大整数。

2025-08-17 14:18:47 220

原创设计一个高可用、可拓展、监控报警系统，使用普罗米修斯和grafana，并给出go实现

本文介绍了基于Go的高可用微服务系统设计与监控方案。系统采用前后端分离架构，支持水平扩展，通过容器化部署实现高可用。重点展示了Go应用集成Prometheus监控的实践，包括自定义指标采集、暴露/metrics接口，以及Prometheus与Grafana的配置方法。同时提供了报警规则配置示例，支持多种通知方式。文章还补充了服务链路追踪(OpenTelemetry+Jaeger)和结构化日志的实现方案，完善了系统的可观测性。整体方案强调自动化部署、弹性伸缩和故障快速响应，适用于生产环境。

2025-07-29 12:45:20 404

原创 mysql 快速上手

MySQL快速上手指南摘要：本文介绍了MySQL数据库的基础操作和实用技巧，包括连接方式、SQL函数（查询/操作/定义）、数据拼接与格式化、高级查询（子查询/连接/分组）、事务处理、索引优化和常用数据类型。重点讲解了字符串拼接、条件判断、日期处理等实用功能，以及批量操作、性能优化等技巧。适合初学者快速掌握MySQL核心功能，为后续学习存储过程、触发器等高级特性打下基础。

2025-07-27 18:38:34 150

原创 golang实现一个定时引擎，功能包括按照corntab的时间任务实时增加、修改、删除定时任务

本文介绍了一个基于Go语言的轻量级Cron定时任务引擎实现。该引擎使用标准库time和第三方库cron/v3构建，支持秒级精度的定时任务调度。核心功能包括：任务管理：通过Task结构体封装任务信息，提供增删改查操作并发安全：使用读写锁(sync.RWMutex)保证多线程安全动态调度：支持运行时修改任务参数而不中断服务生命周期控制：提供Start/Stop方法管理引擎运行状态示例代码演示了如何创建任务(如每5秒执行)、更新任务频率和删除任务。系统设计考虑了扩展性，建议了任务持久化、执行监控、分布式

2025-07-26 16:20:02 134

编译原理试卷

空空如也