贺小涛-CSDN博客

原创大语言模型部署时怎么解决显存爆炸问题

显存爆炸是大语言模型部署中的常态问题，以下是应对方案的技术总结：INT4/INT8 量化压缩权重分片 + 懒加载分页缓存、自动回收、压缩Token-level 并发、异步 pipeline、CUDA Graph 缓存显存预分配池、激活复用、动态 rematerializationTensor/Pipeline/Hybrid 模型并行vLLM 提供最强 token 并发调度 + KV 缓存管理Triton/ONNX 适合多模型/多平台部署。

2026-04-04 22:53:22 73

原创 Linux系统堆与栈原理深度剖析

栈提供函数调用基础设施，硬件加速访问，自动生命周期管理堆支持灵活动态分配，适应多变内存需求内核机制透明处理虚拟内存映射和物理分配安全特性防御常见内存漏洞理解栈帧结构、堆分配算法、内存映射原理和内核管理机制，对于开发高性能服务器应用至关重要。在容器化环境中，需特别关注堆栈限制配置，避免因默认设置导致性能下降或运行时故障。掌握相关诊断工具和优化策略，可有效提升系统稳定性和资源利用率。

2026-04-04 22:52:02 81

原创 Jaeger深度解析

Jaeger作为云原生时代分布式追踪系统的标杆，其架构设计体现了对复杂微服务环境的深刻理解。整个系统围绕"低侵入、高扩展、强一致"三大原则构建，成为诊断分布式系统问题的"X光机"。Jaeger采用典型的分层架构，各组件通过明确定义的接口协作：• 客户端库：作为应用程序的"探针"，以OpenTracing API标准实现数据采集。支持Go/Java/Python等主流语言，通过约200KB的轻量级二进制嵌入目标进程。关键采集逻辑如下：• Agent：部署于每个主机的守护进程，通过UDP接收Span数据（默认

2026-04-04 22:50:59 97

原创 GlusterFS深度解析

去中心化架构消除单点故障弹性哈希支持线性扩展模块化设计提供灵活功能扩展零拷贝技术最大化硬件性能硬件配置匹配业务场景网络拓扑避免跨机房延迟定期验证数据一致性监控系统覆盖全栈指标（完整部署指南参考官方文档：https://docs.gluster.org）

2026-04-04 22:49:40 99

原创 VictoriaMetrics深度解析

评估维度VictoriaMetrics适用性数据规模日均百亿点以上查询模式以时间范围查询为主团队技能Go语言栈优先硬件资源有限预算但需高性能。

2026-04-04 22:47:36 85

原创磁盘smart信息

硬盘故障就像数字世界的"心肌梗塞"——突然发作时往往已经太晚。SMART技术正是为此而生的"心脏监测仪"，它能提前捕捉到那些细微但危险的异常信号。让我们揭开这项看似简单却至关重要的技术背后的秘密。

2026-03-30 09:08:24 160

原创 ROS2和FreeRTOS区别和联系

（Robot Operating System）是。FreeRTOS与ROS 2本质是。：FreeRTOS是。

2026-03-30 09:07:53 270

原创 Linux网卡调度

现代Linux网络栈（5.15-6.2内核）采用分层调度设计，实现从网卡到应用的高效数据流转。

2026-03-30 09:07:18 369 1

原创 Linux内核态与用户态

cli。

2026-03-30 09:06:46 373

原创 Vue介绍

响应式精准更新：Proxy 实现细粒度变更追踪虚拟 DOM 批处理：Diff 算法最小化 DOM 操作编译时预优化：模板静态分析提升运行时效率组件级隔离：独立更新队列避免全应用重渲染这些机制共同构成了 Vue 的分层优化模型顶层：模板编译优化（减少运行时计算量）中层：虚拟 DOM 差异批处理（减少 DOM 操作）底层：响应式依赖追踪（精确更新范围）批处理**：Diff 算法最小化 DOM 操作3.编译时预优化：模板静态分析提升运行时效率4.组件级隔离：独立更新队列避免全应用重渲染。

2026-03-30 09:06:14 375

原创 jenkins

本文将系统剖析其核心架构、关键特性，并给出生产环境的最佳实践方案。

2026-03-29 00:32:44 184

原创公有云灾备

多区域部署结合自动容灾机制，是提升云上业务弹性和稳定性的关键技术方案。通过合理设计跨区域数据同步、全球流量调度及自动故障切换流程，可以最大程度降低区域性故障带来的业务中断风险。GCP 和 AWS 均提供完善的基础设施和服务支持，结合自动化运维手段，实现稳定、高效的跨区域容灾体系。

2026-03-29 00:32:13 188

原创什么是微服务

很多人听过“微服务”这个词，但听起来高大上，用起来像玄学。一提到微服务，脑子里全是“模块拆分”“服务治理”“注册发现”“容器编排”，仿佛一个词背后藏着三页 PPT 和十个中台部门。但说到底，微服务其实是程序员给“大工程拆小块”的一种架构风格。下面我们用“吃火锅”和“开餐馆”来举例讲讲：到底什么是微服务，它和普通开发有什么区别，为什么这么做效率更高。

2026-03-29 00:31:39 216

原创磁盘smart信息

硬盘故障就像数字世界的"心肌梗塞"——突然发作时往往已经太晚。SMART技术正是为此而生的"心脏监测仪"，它能提前捕捉到那些细微但危险的异常信号。让我们揭开这项看似简单却至关重要的技术背后的秘密。

2026-03-29 00:31:08 204

原创 STM32学习

STM32的成功源于三层技术融合硬件层：ARM生态提供高性能计算基底外设层：经过工业验证的接口IP核（如FlexCAN）软件层：HAL/LL库平衡开发效率与性能在边缘计算爆发时代，STM32正从传统MCU向智能系统核心机器学习推理（Cube.AI支持TensorFlow Lite）实时操作系统深度整合（FreeRTOS线程感知调试）功能安全认证（IEC 61508 SIL3）

2026-03-29 00:30:18 194

原创基于BIND9的智能DNS

关联ACL与区域文件。

2026-03-28 22:45:57 220

原创 LoRA QLoRA DPO区别

LoRA、QLoRA 和 DPO 各自聚焦不同环节和需求，从参数高效微调、显存压缩到输出偏好优化，形成了大模型微调领域的多样化工具链。根据实际业务目标和资源限制，灵活选用或组合这些技术，能够实现更高效、更精准的大模型应用落地。以上内容若需继续深入代码细节或使用案例，可进一步展开。

2026-03-28 22:45:23 152

原创 linux内核架构

技术领域关键接口/命令性能指标调优参数实时系统cyclictest最大延迟(μs)NUMAnumactl跨节点访问比例持久化内存ndctl读写带宽(GB/s)热补丁kpatch补丁应用时间(ms)异构计算nvidia-smiGPU利用率(%)

2026-03-20 13:07:36 343

原创 Prometheus Alertmanager深度解析

Alertmanager作为Prometheus生态中的告警处理中枢，其设计哲学与实现机制值得深入探讨。本文将系统剖析其核心架构、关键特性，并给出跨集群统一告警的落地方案。

2026-03-20 13:06:55 361

原创 Golang Gin框架核心原理与架构解析

Gin框架通过精心设计的架构实现高性能Web服务开发。基于radix树的路由系统实现零分配匹配上下文对象池大幅降低GC压力中间件链式执行提供灵活扩展智能数据绑定简化请求处理这些特性使Gin成为构建高并发API服务的理想选择。理解其路由机制、上下文管理和中间件实现原理，对于开发高性能Go应用至关重要。随着云原生架构的演进，Gin在微服务、Serverless等场景将持续发挥重要作用。

2026-03-19 08:05:34 260

原创 Git代码提交规范和踩坑排水明沟

大多数开发者习惯使用git add .一把抓，但这往往导致无关改动混入提交。更优雅的方式是：•：逐块审查改动ynse•：精确控制范围。

2026-03-19 08:03:57 229

原创 linux下poll epoll select区别

在 Linux 网络编程和系统开发中，I/O 复用技术是实现高并发的重要手段。select、poll 和 epoll 是 Linux 提供的三种主要的 I/O 事件监听机制。理解它们的原理、结构、性能特点和实现细节，对于设计高效的事件驱动程序尤为关键。

2026-03-16 09:20:25 350

原创基于BIND9的智能DNS

关联ACL与区域文件。

2026-03-16 09:19:54 365

原创 GlusterFS深度解析

去中心化架构消除单点故障弹性哈希支持线性扩展模块化设计提供灵活功能扩展零拷贝技术最大化硬件性能硬件配置匹配业务场景网络拓扑避免跨机房延迟定期验证数据一致性监控系统覆盖全栈指标（完整部署指南参考官方文档：https://docs.gluster.org）

2026-03-14 16:47:56 371

原创 Jaeger深度解析

Jaeger作为云原生时代分布式追踪系统的标杆，其架构设计体现了对复杂微服务环境的深刻理解。整个系统围绕"低侵入、高扩展、强一致"三大原则构建，成为诊断分布式系统问题的"X光机"。Jaeger采用典型的分层架构，各组件通过明确定义的接口协作：• 客户端库：作为应用程序的"探针"，以OpenTracing API标准实现数据采集。支持Go/Java/Python等主流语言，通过约200KB的轻量级二进制嵌入目标进程。关键采集逻辑如下：• Agent：部署于每个主机的守护进程，通过UDP接收Span数据（默认

2026-03-14 16:47:24 384

通过AI提取PDF文件的文本内容

空空如也