自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(41)
  • 收藏
  • 关注

原创 大语言模型部署时怎么解决显存爆炸问题

显存爆炸是大语言模型部署中的常态问题,以下是应对方案的技术总结:INT4/INT8 量化压缩权重分片 + 懒加载分页缓存、自动回收、压缩Token-level 并发、异步 pipeline、CUDA Graph 缓存显存预分配池、激活复用、动态 rematerializationTensor/Pipeline/Hybrid 模型并行vLLM 提供最强 token 并发调度 + KV 缓存管理Triton/ONNX 适合多模型/多平台部署。

2026-04-04 22:53:22 73

原创 Linux系统堆与栈原理深度剖析

栈提供函数调用基础设施,硬件加速访问,自动生命周期管理堆支持灵活动态分配,适应多变内存需求内核机制透明处理虚拟内存映射和物理分配安全特性防御常见内存漏洞理解栈帧结构、堆分配算法、内存映射原理和内核管理机制,对于开发高性能服务器应用至关重要。在容器化环境中,需特别关注堆栈限制配置,避免因默认设置导致性能下降或运行时故障。掌握相关诊断工具和优化策略,可有效提升系统稳定性和资源利用率。

2026-04-04 22:52:02 81

原创 Jaeger深度解析

Jaeger作为云原生时代分布式追踪系统的标杆,其架构设计体现了对复杂微服务环境的深刻理解。整个系统围绕"低侵入、高扩展、强一致"三大原则构建,成为诊断分布式系统问题的"X光机"。Jaeger采用典型的分层架构,各组件通过明确定义的接口协作:• 客户端库:作为应用程序的"探针",以OpenTracing API标准实现数据采集。支持Go/Java/Python等主流语言,通过约200KB的轻量级二进制嵌入目标进程。关键采集逻辑如下:• Agent:部署于每个主机的守护进程,通过UDP接收Span数据(默认

2026-04-04 22:50:59 97

原创 GlusterFS深度解析

去中心化架构消除单点故障弹性哈希支持线性扩展模块化设计提供灵活功能扩展零拷贝技术最大化硬件性能硬件配置匹配业务场景网络拓扑避免跨机房延迟定期验证数据一致性监控系统覆盖全栈指标(完整部署指南参考官方文档:https://docs.gluster.org)

2026-04-04 22:49:40 99

原创 VictoriaMetrics深度解析

评估维度VictoriaMetrics适用性数据规模日均百亿点以上查询模式以时间范围查询为主团队技能Go语言栈优先硬件资源有限预算但需高性能。

2026-04-04 22:47:36 85

原创 磁盘smart信息

硬盘故障就像数字世界的"心肌梗塞"——突然发作时往往已经太晚。SMART技术正是为此而生的"心脏监测仪",它能提前捕捉到那些细微但危险的异常信号。让我们揭开这项看似简单却至关重要的技术背后的秘密。

2026-03-30 09:08:24 160

原创 ROS2和FreeRTOS区别和联系

(Robot Operating System)是。FreeRTOS与ROS 2本质是。:FreeRTOS是。

2026-03-30 09:07:53 270

原创 Linux网卡调度

现代Linux网络栈(5.15-6.2内核)采用分层调度设计,实现从网卡到应用的高效数据流转。

2026-03-30 09:07:18 369 1

原创 Linux内核态与用户态

cli。

2026-03-30 09:06:46 373

原创 Vue介绍

响应式精准更新:Proxy 实现细粒度变更追踪虚拟 DOM 批处理:Diff 算法最小化 DOM 操作编译时预优化:模板静态分析提升运行时效率组件级隔离:独立更新队列避免全应用重渲染这些机制共同构成了 Vue 的分层优化模型顶层:模板编译优化(减少运行时计算量)中层:虚拟 DOM 差异批处理(减少 DOM 操作)底层:响应式依赖追踪(精确更新范围)批处理**:Diff 算法最小化 DOM 操作3.编译时预优化:模板静态分析提升运行时效率4.组件级隔离:独立更新队列避免全应用重渲染。

2026-03-30 09:06:14 375

原创 jenkins

本文将系统剖析其核心架构、关键特性,并给出生产环境的最佳实践方案。

2026-03-29 00:32:44 184

原创 公有云灾备

多区域部署结合自动容灾机制,是提升云上业务弹性和稳定性的关键技术方案。通过合理设计跨区域数据同步、全球流量调度及自动故障切换流程,可以最大程度降低区域性故障带来的业务中断风险。GCP 和 AWS 均提供完善的基础设施和服务支持,结合自动化运维手段,实现稳定、高效的跨区域容灾体系。

2026-03-29 00:32:13 188

原创 什么是微服务

很多人听过“微服务”这个词,但听起来高大上,用起来像玄学。一提到微服务,脑子里全是“模块拆分”“服务治理”“注册发现”“容器编排”,仿佛一个词背后藏着三页 PPT 和十个中台部门。但说到底,微服务其实是程序员给“大工程拆小块”的一种架构风格。下面我们用“吃火锅”和“开餐馆”来举例讲讲:到底什么是微服务,它和普通开发有什么区别,为什么这么做效率更高。

2026-03-29 00:31:39 216

原创 磁盘smart信息

硬盘故障就像数字世界的"心肌梗塞"——突然发作时往往已经太晚。SMART技术正是为此而生的"心脏监测仪",它能提前捕捉到那些细微但危险的异常信号。让我们揭开这项看似简单却至关重要的技术背后的秘密。

2026-03-29 00:31:08 204

原创 STM32学习

STM32的成功源于三层技术融合硬件层:ARM生态提供高性能计算基底外设层:经过工业验证的接口IP核(如FlexCAN)软件层:HAL/LL库平衡开发效率与性能在边缘计算爆发时代,STM32正从传统MCU向智能系统核心机器学习推理(Cube.AI支持TensorFlow Lite)实时操作系统深度整合(FreeRTOS线程感知调试)功能安全认证(IEC 61508 SIL3)

2026-03-29 00:30:18 194

原创 基于BIND9的智能DNS

关联ACL与区域文件。

2026-03-28 22:45:57 220

原创 LoRA QLoRA DPO区别

LoRA、QLoRA 和 DPO 各自聚焦不同环节和需求,从参数高效微调、显存压缩到输出偏好优化,形成了大模型微调领域的多样化工具链。根据实际业务目标和资源限制,灵活选用或组合这些技术,能够实现更高效、更精准的大模型应用落地。以上内容若需继续深入代码细节或使用案例,可进一步展开。

2026-03-28 22:45:23 152

原创 linux内核架构

技术领域关键接口/命令性能指标调优参数实时系统cyclictest最大延迟(μs)NUMAnumactl跨节点访问比例持久化内存ndctl读写带宽(GB/s)热补丁kpatch补丁应用时间(ms)异构计算nvidia-smiGPU利用率(%)

2026-03-20 13:07:36 343

原创 Prometheus Alertmanager深度解析

Alertmanager作为Prometheus生态中的告警处理中枢,其设计哲学与实现机制值得深入探讨。本文将系统剖析其核心架构、关键特性,并给出跨集群统一告警的落地方案。

2026-03-20 13:06:55 361

原创 Golang Gin框架核心原理与架构解析

Gin框架通过精心设计的架构实现高性能Web服务开发。基于radix树的路由系统实现零分配匹配上下文对象池大幅降低GC压力中间件链式执行提供灵活扩展智能数据绑定简化请求处理这些特性使Gin成为构建高并发API服务的理想选择。理解其路由机制、上下文管理和中间件实现原理,对于开发高性能Go应用至关重要。随着云原生架构的演进,Gin在微服务、Serverless等场景将持续发挥重要作用。

2026-03-19 08:05:34 260

原创 Git代码提交规范和踩坑排水明沟

大多数开发者习惯使用git add .一把抓,但这往往导致无关改动混入提交。更优雅的方式是:•:逐块审查改动ynse•:精确控制范围。

2026-03-19 08:03:57 229

原创 linux下poll epoll select区别

在 Linux 网络编程和系统开发中,I/O 复用技术是实现高并发的重要手段。select、poll 和 epoll 是 Linux 提供的三种主要的 I/O 事件监听机制。理解它们的原理、结构、性能特点和实现细节,对于设计高效的事件驱动程序尤为关键。

2026-03-16 09:20:25 350

原创 基于BIND9的智能DNS

关联ACL与区域文件。

2026-03-16 09:19:54 365

原创 GlusterFS深度解析

去中心化架构消除单点故障弹性哈希支持线性扩展模块化设计提供灵活功能扩展零拷贝技术最大化硬件性能硬件配置匹配业务场景网络拓扑避免跨机房延迟定期验证数据一致性监控系统覆盖全栈指标(完整部署指南参考官方文档:https://docs.gluster.org)

2026-03-14 16:47:56 371

原创 Jaeger深度解析

Jaeger作为云原生时代分布式追踪系统的标杆,其架构设计体现了对复杂微服务环境的深刻理解。整个系统围绕"低侵入、高扩展、强一致"三大原则构建,成为诊断分布式系统问题的"X光机"。Jaeger采用典型的分层架构,各组件通过明确定义的接口协作:• 客户端库:作为应用程序的"探针",以OpenTracing API标准实现数据采集。支持Go/Java/Python等主流语言,通过约200KB的轻量级二进制嵌入目标进程。关键采集逻辑如下:• Agent:部署于每个主机的守护进程,通过UDP接收Span数据(默认

2026-03-14 16:47:24 384

原创 MinIO深度解析

采用Reed-Solomon算法将对象分片存储,12块盘配置下对象会被拆分为6个数据块和6个校验块,可容忍半数节点故障而不丢失数据。通过HighwayHash算法检测静默数据损坏,后台扫描进程定期校验数据完整性并自动修复。

2026-03-13 14:09:21 344

原创 Linux内核态与用户态

cli。

2026-03-13 14:08:50 392

原创 Linux网卡调度

现代Linux网络栈(5.15-6.2内核)采用分层调度设计,实现从网卡到应用的高效数据流转。

2026-03-11 08:32:26 702

原创 Linux GPU管理

需矩阵尺寸对齐到8的倍数(FP16)或16的倍数(INT8):NVIDIA数据加载库,减少CPU-GPU数据传输。:通过InfiniBand实现GPU-GPU直接通信。:将Intel Optane作为GPU缓存。:NVIDIA的多进程共享技术。:A100/H100的硬件分区。:A100+支持的TEE环境。:将优化器状态卸载到CPU。:微软开发的极端压缩算法。:GPU直接访问PMEM。:自动优化多机通信路径。:减少梯度同步数据量。

2026-03-11 08:31:17 575

原创 量化常用名词

非常抱歉给您带来重复和不满意的内容。我理解您希望获得一篇结构清晰、内容深入、通俗易懂且符合知乎编辑器格式要求的量化交易名词解释文章,特别关注数据源中的指标、特征工程中的具体指标以及模型评估的细节等方面。为了满足您的需求,我将重新组织和扩展内容,确保每个部分都有独特的阐述,并避免重复。以下是文章的第一部分,涵盖量化交易的基础概念、数据源和特征工程的核心指标。

2026-03-10 17:14:09 345

原创 FreeRTOS学习

任务即执行线程的抽象,每个任务拥有独立栈空间和程序计数器。

2026-03-10 17:13:17 314

原创 大语言模型部署时怎么解决显存爆炸问题

显存爆炸是大语言模型部署中的常态问题,以下是应对方案的技术总结:INT4/INT8 量化压缩权重分片 + 懒加载分页缓存、自动回收、压缩Token-level 并发、异步 pipeline、CUDA Graph 缓存显存预分配池、激活复用、动态 rematerializationTensor/Pipeline/Hybrid 模型并行vLLM 提供最强 token 并发调度 + KV 缓存管理Triton/ONNX 适合多模型/多平台部署。

2026-03-05 17:19:05 406

原创 人工智能-网络连接技术

在AI/HPC场景中,GPU间通信性能直接影响训练效率。(基于Ubuntu 22.04 LTS,内核5.15-6.2)

2026-03-05 17:16:49 397

原创 LoRA QLoRA DPO区别

LoRA、QLoRA 和 DPO 各自聚焦不同环节和需求,从参数高效微调、显存压缩到输出偏好优化,形成了大模型微调领域的多样化工具链。根据实际业务目标和资源限制,灵活选用或组合这些技术,能够实现更高效、更精准的大模型应用落地。以上内容若需继续深入代码细节或使用案例,可进一步展开。

2026-03-04 11:22:51 353

原创 vLLM 原理与功能详解

vLLM 以高效、灵活和现代化的推理架构为核心,通过动态内存调度、异步 batch 执行和 Flash 解码等机制,大幅提升了大语言模型推理部署的效率和灵活度。上层 Web 框架:FastAPI / Flask模型与权重管理:Hugging Face Transformers + PEFT多实例负载均衡:Nginx / Envoy容器与部署:Docker / Kubernetes监控与告警:Prometheus + Grafana。

2026-03-04 11:22:09 670

原创 blkio调度和IO隔离机制

在 Linux 的资源调度与性能管理体系中,blkio 子系统是极其关键的一环。它主要用于对块设备的 I/O 行为进行调度与隔离控制,是理解和掌控磁盘性能表现、资源公平使用、系统稳定性的基础模块。I/O 与 CPU 不同,具有明显的不可压缩特性(如磁盘转速、SSD寿命限制),这也使得 I/O 调度更具挑战性。blkio 提供了在多任务或多容器环境下控制不同进程(或 cgroup)使用块设备资源比例的能力,包括对吞吐(bandwidth)与 IOPS 的调度控制。

2026-03-02 15:42:09 557

原创 人工智能-基于vLLM与Hugging Face构建的自动语音问答系统

语音识别模块(ASR):将用户语音转为文本;问答生成模块(LLM Inference):基于文本问题调用语言模型生成回答;文本转语音模块(TTS,选配):将回答转为语音反馈;推理加速与服务:采用 vLLM 提供高并发、低延迟的推理后端;接口服务与交互控制:以 FastAPI 提供 REST/WebSocket 接口,并通过异步任务调度实现流式输入输出;监控与日志系统:用于服务可观测性和问题溯源。每一个模块都具备独立可替换性,满足微服务设计理念,在服务集群中可根据需要横向扩展。

2026-03-02 15:41:01 631

原创 什么是 eBPF

在现代 Linux 系统中,eBPF(extended Berkeley Packet Filter)是一个非常强大的内核功能扩展,它为系统安全、性能监控、网络处理等多个领域带来了革命性的变革。简单来说,eBPF 是一种安全的、可编程的内核运行环境,允许开发者动态注入代码到内核中执行,从而实现高效的事件处理和复杂的逻辑控制。这篇文章将系统性地讲解 eBPF 的基本原理、结构组成及其实现机制,帮助你深入理解它为何成为 Linux 内核不可或缺的工具。

2026-02-28 09:01:17 533

原创 langchain

LangChain是一个流行的语言模型应用框架,通过链式调用思想将多个功能模块串联,实现复杂任务的自动化处理。其核心模块包括:LLM接口层统一调用不同语言模型;Chain模块编排任务流程;Prompt模块管理动态提示词;Memory模块维护上下文记忆;Tool模块扩展外部功能调用;Agent模块集成模型推理和工具决策。这些模块协同工作,支持从简单问答到复杂业务场景的灵活适配。LangChain采用模板引擎、向量数据库等技术实现动态提示生成和上下文管理,具有高度可扩展性,能适应不同规模的系统需求。

2026-02-28 09:00:29 623

原创 Hugging Face 简介

Hugging Face 是一个开放的人工智能社区和平台,致力于提供方便易用的自然语言处理(NLP)模型和工具。它的核心价值在于通过统一接口快速访问海量预训练模型,并提供端到端的机器学习开发工具链,极大降低了构建智能应用的门槛。在架构上,Hugging Face 包含模型库(Model Hub)、数据集库(Datasets)、训练工具(Transformers 和 Trainer API)、推理部署方案等多个模块,彼此协同支持开发者从模型训练、微调到推理部署的全流程。

2026-02-27 20:26:54 308

通过AI提取PDF文件的文本内容

通过AI提取PDF文件的文本内容

2026-02-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除