破烂pan-CSDN博客

原创 Alembic数据库迁移指南

Alembic数据库迁移指南摘要 Alembic是SQLAlchemy生态中的数据库迁移工具，主要解决多人协作和环境同步时的数据库结构一致性问题。它通过版本化管理支持数据库变更的正向执行（升级）和反向回滚（降级），避免手动修改导致的冲突。核心特点：深度集成SQLAlchemy模型支持自动生成迁移脚本提供命令行工具执行升级/降级操作支持事务回滚和版本控制适用于开发、测试和生产环境 Alembic通过追踪数据库表结构变更记录实现版本控制，类似于数据库的"Git"，是管理数据库模

2026-03-18 17:06:24 348

原创 WSL Ubuntu Python 研发 matplotlib 中文乱码设置修改脚本

本文介绍了一个解决WSL2 Ubuntu中Python Matplotlib中文乱码问题的脚本。该脚本会自动检测系统类型：在Windows原生环境下使用微软雅黑字体，在Linux/WSL环境下则通过挂载Windows字体目录(/mnt/c/Windows/Fonts/)获取msyh.ttc字体文件，并将其注册到Matplotlib中。脚本还统一设置了字体家族和Unicode减号显示等参数，确保中文正常显示。该方法既保持了Windows和Linux环境的一致性，又解决了WSL环境下Matplotlib中文乱码

2026-02-28 15:25:11 78

原创 Python 实现 HTTP Client 的常见方式

本文总结了Python实现HTTP客户端的常见方式，包括标准库urllib、第三方同步库requests、现代同步/异步库httpx、异步高性能库aiohttp等。重点推荐httpx作为最佳实践，它支持同步/异步操作和HTTP/2，API风格类似requests但更强大。文章详细介绍了各库的使用方法、优雅实现技巧和适用场景，特别强调httpx在微服务调用、异步高并发系统中的优势，并提供了连接池管理、超时设置、重试机制等实用建议。

2026-02-12 15:43:47 703

原创百炼模型调优 API参数分组

本文摘要了阿里云百炼平台模型调优API中关于微调参数的分类说明。参数分为四类：1）基本参数（所有微调类型通用），包括模型ID、数据集等必填项；2）通用超参数（多数类型支持），如学习率、批次大小等训练配置；3）高效微调特有参数（仅适用于efficient_sft/dpo_lora），包含LoRA相关配置；4）混合训练参数（仅适用于sft/efficient_sft），支持与通用数据集的混合训练设置。文档还提供了各参数的默认值、类型和适用场景说明，帮助用户快速配置微调任务。

2026-02-10 16:03:08 414

原创大语言模型核心评测基准详解：从认知到实践

本文系统介绍了9个评估大语言模型能力的核心基准，涵盖知识广度、推理能力、常识真实性和代码生成等维度。重点解析了MMLU、CMMLU、GSM8K等基准的定义、应用价值、使用方法和优化技巧，强调多维度评估、错误归因和人工复核的重要性。通过对比表总结各基准特点，为模型能力诊断和优化提供系统方法论，帮助开发者科学评测大模型的真实性能。

2026-02-02 15:00:05 859

原创 Langchain Agent Skills 使用案例：GitHub 仓库分析技能

GitHub 仓库分析技能摘要本案例介绍了一个名为 github-analysis 的 LangChain 代理技能，用于自动化分析 GitHub 仓库。该技能包含三个核心功能：获取仓库基本信息、分析问题统计数据和提取提交历史。用户只需提供仓库所有者名称和仓库名，代理就能通过 GitHub API 获取关键指标并生成综合分析报告。技能要求预先配置 GitHub API 令牌，并提供示例代码实现和详细使用说明，使开发者能够快速集成到自己的 LangChain 代理中。该技能特别适合需要定期监控或分析 Git

2026-01-23 15:39:14 1361

原创 SGLang 服务器启动参数完整总结

SGLang服务器启动参数完整总结本文整理自SGLang官方文档，详细列出了服务器启动参数及其用途和推荐值。参数分为四大类：模型与Tokenizer（包括模型路径、加载格式等）、HTTP服务（监听地址、API密钥等）、并行与分布式（张量并行、流水线并行等）、内存与调度（内存占比、并发请求数等）。针对每个参数提供明确的推荐设置，如模型路径为必填项，HTTP端口默认30000，张量并行根据GPU数量设置等。特别注意事项包括多模态模型需启用enable-multimodal，生产环境建议设置API密钥，OOM时

2026-01-22 16:25:52 1113

原创 Vibe Coding 从入门到精通：工程化实践指南

Vibe Coding不是"让AI写代码"的简单工具，而是一种工程化的方法论。它解决了AI辅助编程中项目规模扩大后的失控问题，通过"规划先行"确保AI生成的代码质量与一致性。记住：不是你用不用AI，而是你有没有一套方法，能让AI在复杂项目中保持理性和一致性。本文所用示例均可在GitHub上找到：https://github.com/tukuaiai/vibe-coding-cn如何在AI时代保持开发控制权如何构建可复用的AI辅助开发流程如何将AI融入团队开发工作流。

2026-01-21 16:59:52 1122

原创 Agent Skills 从入门到精通：工程实践指南

《Agent Skills工程实践指南》摘要（150字）：本文面向3-5年经验工程师，提供Agent Skills的实战指导。核心解决大模型在特定领域任务中输出不一致、流程不规范的问题，适用于金融报告、客服话术等标准化场景。通过渐进式披露设计，实现按需加载技能组件（SKILL.md元数据+脚本+资源），平衡上下文窗口限制与执行稳定性。包含环境配置、最小示例及PDF处理等进阶案例，强调脚本处理确定性任务、模型负责决策的分工模式。反例说明不适合创意内容等灵活场景，为工程团队提供可落地的技术选型参考。

2026-01-21 16:35:10 1051

原创 AI 学习研发技术 / 工具通用提示词模版

AI 学习研发技术/工具通用提示词模板该模板为资深研发工程师提供了一套系统学习新技术/工具的完整框架，包含7个核心模块：技术定位与适用场景分析核心原理与架构解析基础使用与示例代码进阶工程实践方案生产环境经验总结技术选型对比指南知识迁移路径特点：强调工程实践导向包含真实可运行示例覆盖从入门到生产的完整路径突出常见误区与解决方案适合3-5年经验开发者自学使用（字数：148字）

2026-01-20 18:33:54 263

原创 OpenCode与Oh My OpenCode全面使用指南：从入门到精通

《OpenCode与Oh My OpenCode使用指南》摘要： OpenCode是一款开源终端AI编程助手，支持代码生成、调试和项目分析。配合Oh My OpenCode插件可增强为多智能体协作系统。安装通过官方脚本完成，支持多种AI模型提供商。基础功能包括交互式命令和分层配置。Oh My OpenCode提供高级特性：1) 专业分工的智能体系统；2) Ralph Loop自迭代开发循环；3) 背景任务并行处理；4) 关键词激活高性能模式。典型应用场景如通过AGENTS.md定义规范后，智能生成符合要求的

2026-01-20 15:29:18 5164

原创 Claude Skills 完整学习文档

Claude Skills是一种模块化、可复用的知识包，通过三层架构（元数据+指令+资源）向AI注入特定领域知识和标准化工作流程。与普通Prompt相比，Skills具有可复用性、自动触发和结构化设计等优势；与Tool/Function Calling相比，Skills专注于内部工作流程而非外部调用；与Agent Workflow相比，Skills是更细粒度的标准化组件。Skills采用渐进式披露设计，支持本地执行与远程调用，具有明确的行为边界和灵活的组合作业能力，适用于需要标准化流程或内部知识的场景。

2026-01-13 21:20:04 1092

原创 SDD驱动的项目结构模版-适配ClaudeCodeCli

本文介绍了一个符合Spec-Driven Development规范的FastAPI项目结构，重点包含三个核心部分： Spec驱动层：顶层spec/目录定义了项目宪法、架构约束、安全规范等，作为项目开发的最高指导原则。 Claude配置层：.claude/目录包含AI协作规范，通过配置文件、指令说明和修改范围限制来规范LLM的行为。 FastAPI实现层：采用清晰的分层结构（API路由层、业务服务层、数据模型层等），确保代码严格遵循spec定义。这种结构特别适合生产环境、多人协作及LLM参与的开发场景，通

2026-01-05 16:07:48 614

原创 spec-kit 架构哲学与实践指南

摘要： spec-kit是一套以规范为中心的工程方法论和工具集合，旨在解决LLM参与研发时的需求、约束和代码一致性挑战。其核心哲学包括：Spec优先（作为唯一真相来源）、显式化隐性工程经验、约束优先（明确定义边界）以及模块化可组合的Spec结构。spec-kit由宪法层、任务规范和代码风格三部分组成，通过"编写Spec→生成代码→人工Review"的工作流确保规范与代码同步演进。与传统工程相比，spec-kit将规范置于核心位置，使人和AI都能在清晰边界内协作。它最适合中大型、多人协作或

2026-01-05 16:00:34 1245

原创企业级 Docker 运维命令速查表

本文整理了企业级Docker运维核心命令速查表，涵盖容器状态排查、日志查看、服务管理、资源监控、网络诊断等关键场景。重点包括：1）基础排障命令如docker ps/logs/exec；2）Compose服务管理；3）资源监控工具；4）GPU专用命令；5）典型故障处理流程。特别强调10个必须形成肌肉记忆的核心命令，掌握这些即可满足企业级Docker运维需求。全文采用分级标注方式，突出高频使用命令和危险操作警示，适合运维人员快速查阅参考。

2025-12-29 19:01:24 320

原创模型格式 × GPU × 显存 × vLLM 参数模板对照表

本文提供了针对不同GPU和显存配置的大模型部署优化指南。主要内容包括：1）快速选型总表，根据模型格式、量化方式、GPU架构推荐最佳模型规模；2）详细配置方案，覆盖RTX4090/3090、A10/L4、A100/H100等主流GPU，推荐AWQ 4bit为首选方案；3）关键参数说明，如quantization、dtype等对性能的影响；4）工程结论强调参数匹配硬件的重要性，推荐优先级为AWQ 4bit > FP16/BF16 > GPTQ > bnb。全文提供了具体命令行示例和性能数据，为

2025-12-29 14:27:13 594

原创大语言模型在翻译领域的演进与游戏本地化应用分析

大语言模型在翻译领域的应用已从单一文本翻译向多模态理解与生成、从通用能力向专业领域适配、从云端服务向混合部署架构转变。在游戏行业，LLM的应用已覆盖开发、运营和玩家体验全链条，未来1-3年有望在实时多模态翻译、文化适配增强和边缘端部署三个方面实现突破性落地。在开发阶段，可利用LLM生成游戏文本内容和NPC对话，提高开发效率和创意多样性。例如，基于GPT-2的MarioGPT可根据自然语言描述生成游戏关卡；

2025-12-25 14:40:14 701

原创 TensorRT-LLM部署Qwen3-14B

本文介绍了使用TensorRT-LLM部署Qwen3-14B模型的完整流程。主要内容包括：下载Nvidia官方TensorRT-LLM镜像并安装必要依赖；准备基础模型和转换脚本；将模型checkpoint转换为TensorRT格式；构建engine文件（需与目标GPU架构一致）；最后部署engine并启动服务。重点强调了构建engine时需使用与部署环境相同的GPU资源，不同显卡生成的Engine不能通用。整个流程涵盖了从模型准备到服务部署的关键步骤。

2025-12-24 16:03:22 449

原创微调Qwen3-14B改变模型认知

摘要：本文详细介绍了使用LoRA微调Qwen3-14B模型实现身份认知对齐的技术方案。重点包括：1）选择LoRA微调方式而非全量微调；2）准备300-800条覆盖多种提问方式的中英文训练数据；3）提供H20显卡下的具体训练配置参数；4）强调验证阶段需确保模型在各种提问场景下稳定输出"我是贾维斯"。方案特别针对身份认知修改需求优化了学习率、LoRA秩数等关键参数，并给出了完整的训练流程和验证方法。

2025-12-24 15:54:14 851

原创 Elasticsearch 8.x + Python 官方客户端实战教程

本教程介绍了Elasticsearch 8.x与Python官方客户端的实战应用。内容涵盖：ES基础概念（索引、文档、映射、分片）、8.x安全机制、Python客户端安装与连接配置、索引设计与创建、数据写入（单条和批量）、查询技巧（基础查询、Bool查询、聚合）、深分页解决方案（search_after），以及工程级客户端封装示例和常见踩坑总结。重点强调生产环境中的最佳实践，如HTTPS认证、批量写入优化、查询性能调优等，为开发者提供从基础到进阶的全面指导。

2025-12-17 18:28:03 533

原创 Python 长连接实现方式全景解析

本文系统介绍了Python实现长连接的多种技术方案，包括HTTP Keep-Alive、WebSocket、SSE和TCP Socket等。文章从原理、适用场景、代码示例、优缺点等方面对各方案进行了详细分析，并提供了生产环境注意事项。其中，WebSocket适合全双工实时通信，SSE适用于单向推送场景，而底层TCP方案则适合自定义高性能协议。文章强调异步模型(asyncio/uvloop)对长连接的重要支撑作用，并给出了测试方法和选型建议，为不同业务场景下的长连接实现提供了实用指导。

2025-12-16 19:20:59 691

原创模型推理加速技术全景解析：从基础优化到前沿创新

2024-2025年大模型推理加速技术综述本报告系统梳理了当前主流的大模型推理加速技术，主要包括三大方向：模型压缩、并行化与向量化。模型压缩通过量化、剪枝和知识蒸馏降低计算量，其中INT8量化可缩减模型体积75%并提速2-4倍。并行化技术利用层间/层内/数据并行策略，理论加速可达数倍。向量化优化则通过SIMD指令集和GPU专用指令提升计算效率。这些技术协同应用，配合最新发布的模型框架，显著提升了推理速度，使大模型部署更加高效实用。报告还提供了PyTorch实现的关键代码示例，为技术落地提供参考。

2025-12-16 18:32:30 764

原创 Python 整合 Redis 哨兵（Sentinel）与集群（Cluster）实战指南

本文介绍了Python整合Redis哨兵(Sentinel)与集群(Cluster)的实战指南，主要内容包括：技术选型：推荐使用redis-py 5.x版本客户端，支持哨兵、集群、管道等特性项目结构：提供了生产环境推荐的项目目录结构，包含配置管理、核心连接、功能封装等模块配置管理：通过settings.py统一管理哨兵和集群配置客户端工厂：实现自动切换的Redis客户端工厂类，支持哨兵、集群和单机模式功能封装：通用缓存类，支持JSON序列化和TTL设置各类Redis数据结构操作封装分布式锁实

2025-12-16 16:03:17 539

原创 LoRA微调在垂直行业大模型训练中的应用指南

摘要：大模型训练正加速向金融、医疗、能源、通信和政务五大垂直行业渗透，各行业数据呈现差异化特征。金融数据以结构化交易记录为主，医疗数据包含多模态影像和病历，能源数据侧重时序监测数据，通信数据涵盖网络日志和用户行为，政务数据则融合政策文件和公共数据。数据获取需通过行业开放平台或内部系统，并严格遵循《数据安全法》等合规要求，采用脱敏、联邦学习等技术保障隐私安全。LoRA等高效微调方法可针对不同行业数据特点优化模型性能，推动行业智能化转型。

2025-12-15 18:53:17 915

原创 Agent核心工作模式深度解析：概念、实现与应用

大模型Agent五大核心工作模式解析本文系统阐述了大模型Agent从被动响应到主动执行的五大核心技术模式：反思模式、工具使用模式、ReAct模式、规划模式和多智能体模式。重点剖析了反思模式的技术实现与应用价值，该模式通过"生成-反馈-修正"循环机制提升输出质量，在医疗诊断（准确率提升至85.5%）、教育评估和代码生成（准确率提升40%）等场景展现显著效果。技术实现包含任务执行器、验证器、反思器和记忆存储四大组件，并提供了基于LangChain的Python代码示例，展示完整的反思工作流

2025-12-15 16:23:01 1050

原创 2025年下半年AI应用架构演进：从RAG到Agent再到MCP的生态跃迁

2025年AI应用架构演进：从单模型到多智能体协同摘要：2025年下半年，AI应用架构经历了从"单模型智能"向"多智能体协同"的范式转变。RAG技术突破传统边界，发展为支持多模态处理和记忆驱动的Agentic RAG架构；Agent技术升级为自主模式，形成完整智能执行体系。技术演进体现在三大方向：1）RAG实现多模态处理与记忆驱动；2）Agent能力分级（基础响应者到自主模式）；3）MCP与A2A协议构建多智能体协作机制。典型应用如企业知识问答系统（RAG+Agen

2025-12-15 15:17:19 966

原创阿里PAI平台使用ESA部署模型滚动更新

本文介绍了阿里云PAI平台使用ESA部署模型时的滚动更新配置要点。关键参数包括：1）"rolling_strategy.max_surge"控制更新时额外创建的实例数，需平衡更新速度与稳定性；2）"rolling_strategy.max_unavailable"设置允许的最大不可用实例数，避免服务中断；3）优雅退出相关参数"eas.termination_grace_period"和"rpc.enable_sigterm"用于

2025-12-15 14:26:04 247

原创 WSL2 使用的 VHDX正确压缩过程

WSL2使用的VHDX虚拟磁盘是动态扩展的，删除文件后磁盘空间不会自动回收。要缩小VHDX文件，需满足两个条件：ext4文件系统标记空闲块，并在WSL完全关闭后使用Windows的Optimize-VHD工具压缩。常见问题包括WSL未彻底关闭、Docker占用或未启用Hyper-V。正确步骤包括：1)完全关闭WSL实例；2)以管理员身份运行Optimize-VHD命令。若压缩失败，可能是文件系统仍有占用空间、Windows目录文件被删除或需要执行fstrim整理碎片。

2025-12-12 14:35:24 666

原创 Triton 部署 TensorRT-LLM 引擎的 Qwen3 vs 直接使用 trtllm-serve 部署 Qwen3对比

摘要： Triton与trtllm-serve在部署TensorRT-LLM引擎时核心差异如下：定位：Triton为生产级多模型框架，支持复杂调度与扩展；trtllm-serve是轻量级单模型服务，专注快速启动与OpenAI兼容。部署：Triton需配置模型仓库和调度策略，适合企业级多模型场景；trtllm-serve直接加载引擎，命令简单，适合快速上线。性能与扩展：两者推理速度相近，但Triton支持动态批处理、多模型并发及集群部署，而trtllm-serve仅优化单模型LLM场景。选择建议：快速

2025-12-09 17:35:02 816

原创 trtllm-serve 参数说明列表

trtllm-serve serve 命令摘要该命令用于启动兼容OpenAI API的推理服务器，支持PyTorch/TensorRT后端。主要参数包括：必需参数：MODEL（模型路径/名称），TensorRT引擎需额外指定--tokenizer 网络配置：--host、--port 并行设置：--tp_size（Tensor并行）、--pp_size（Pipeline并行）推理限制：--max_batch_size、--max_seq_len等控制资源使用实验功能：支持分块预填充(--enable

2025-12-08 19:55:22 372

原创 TensorRT-LLM中 trtllm-build的命令参数详解

摘要 trtllm-build工具提供了一系列参数用于配置TensorRT LLM模型的构建过程，主要分为以下几类：通用配置：包括模型检查点、配置文件路径及输出目录设置尺寸和性能优化：控制批处理大小、输入长度、KV缓存等关键性能参数 KV缓存配置：支持连续/分页/禁用KV缓存等多种模式构建和调试：提供计时缓存、分析详细程度、调试输出等开发辅助功能默认配置针对2048批处理量和1024输入长度进行了优化，支持单线程构建和基础日志级别。工具还提供了可视化网络、内存监控等高级调试选项。

2025-12-08 17:03:26 928

原创使用 Python 客户端库从 Prometheus 获取指标

Prometheus与Python生产级接入指南本文介绍了使用Python客户端库(prometheus-api-client)从Prometheus获取指标的实践方法。相比直接HTTP调用API，该库提供更高层接口、自动解析数据结构、Range查询支持、内置重试和超时机制等优势。主要内容包括：安装方法：pip install prometheus-api-client 核心功能：PrometheusConnect主入口、MetricRangeData结构化数据、MetricsList结果封装基础查

2025-12-08 13:29:35 717

原创 NVIDIA 显卡架构清单

摘要：本文整理了NVIDIA多代显卡架构（Hopper/Ada/Ampere）关键型号的技术参数，涵盖H200、H100、L40S、A100等数据中心及消费级产品。重点对比了显存容量（HBM3e最高141GB）、带宽（H200达4.8TB/s）、计算性能（FP32/Tensor核心算力）及典型应用场景（LLM训练/推理/HPC）。Hopper架构（如H200/H100）凭借超大显存和高带宽成为百亿参数模型首选，Ampere架构A100仍广泛用于成熟部署，Ada架构L40S则平衡推理与图形需求。表格标注了各

2025-12-05 16:58:01 1229

原创 Qwen3-14B 转换为 TensorRT-LLM Engine 的方式

本文总结了将Qwen3-14B模型转换为TensorRT-LLM Engine的四种主流方式：1）Python代码转换（灵活但环境配置复杂）；2）Docker镜像方式（推荐，环境稳定）；3）ONNX转换路径（适用于非HF格式模型）；4）NVIDIA NIM服务（全托管无需构建）。针对不同场景给出了推荐方案：生产环境建议使用Docker镜像，研发环境可选择Python脚本，企业用户可考虑NIM服务。文档还简要介绍了其他非主流转换方式，并提供了完整的团队内部参考指南，帮助开发者根据需求选择最适合的转换路径。

2025-12-05 15:12:47 1070

原创常用部署环境 Sticky Session 配置操作文档

本文档介绍了Sticky Session（会话保持）的配置方法，适用于需要固定客户端请求路由的场景。主要内容包括：Nginx通过ip_hash或Cookie实现会话保持；HAProxy通过Cookie或HTTP Header配置；AWS ALB基于应用Cookie启用；阿里云ASM使用DestinationRule配置一致性哈希；Kubernetes Ingress通过注解实现；Cloud Foundry自动生成实例标识。文档还提供了验证方法和注意事项，推荐优先使用集中式Session存储或Token认证等

2025-12-05 13:44:32 794

原创 NVIDIA Triton Inference Server 与 TensorRT-LLM 的关系以及部署Qwen3模型部署

摘要：本文介绍了NVIDIA Triton Inference Server与TensorRT-LLM的协同关系，并详细指导了Qwen系列模型（如Qwen2.5/3-14B）的部署流程。TensorRT-LLM作为底层推理引擎负责模型优化，而Triton Server则提供高性能服务框架。部署步骤包括：1)准备GPU环境；2)通过TensorRT-LLM编译模型为高效引擎文件；3)配置Triton模型仓库；4)启动推理服务；5)测试API调用。整个过程强调了对大模型的高效部署方法，特别适用于需要高并发、低延

2025-12-04 14:25:45 762 2

原创 SGLang框架全面解析：定义、功能、使用与最佳实践

SGLang是一款专为大型语言模型和视觉语言模型设计的高性能推理框架，通过创新的前后端协同设计显著提升模型推理效率。该开源项目由伯克利团队开发，支持多轮对话、批量API调用等场景，提供结构化输出控制、多模态支持等功能。核心技术创新包括RadixAttention缓存系统、结构化输出约束和推测执行等，在多轮对话中吞吐量可达vLLM的5倍。SGLang支持多种部署方式（PyPI/源码/Docker）和编程接口（HTTP/Python），适用于大模型推理服务和AI辅助开发工具两大方向，成为连接模型开发与产业应用的

2025-12-02 10:42:14 1245

原创张量并行度和数据并行度详细解读

摘要：TP=2（张量并行）和DP=2（数据并行）是两种分布式训练策略。DP将数据切分到多个设备，每个设备保存完整模型，通过梯度同步更新；TP将模型参数切分到多个设备，降低单卡显存占用但通信频繁。实际训练中常组合使用TP和DP，如4个GPU可配置为TP=2和DP=2，形成混合并行策略。DP通信频率低但通信量大，TP通信频繁但通信量较小。TP解决模型过大问题，DP解决数据过多问题，二者协同提升训练效率。

2025-12-01 16:39:00 715

原创大模型部署指南：TensorRT-LLM 框架部署Qwen3-7B

TensorRT-LLM部署Qwen3-7B大模型实战指南本文介绍如何利用NVIDIA的TensorRT-LLM框架高效部署Qwen3-7B大语言模型。TensorRT-LLM专为GPU优化，支持FP16/INT8量化和动态批处理，在A100上可实现3倍加速（实测30ms/请求）。对比LmDeploy和vLLM，TensorRT-LLM在NVIDIA硬件上性能最优，但需CUDA环境。部署方案包括命令行快速部署和容器化企业级部署两种方式，并提供了环境配置、模型转换和API测试的详细步骤。同时指出常见问题解决

2025-12-01 16:22:17 1048

原创 SGLang启动参数详解

本文介绍了大型语言模型推理服务的核心配置参数及其用途，涵盖模型加载、HTTP服务、显存管理、并行计算等关键模块。重点展示了多卡启动示例（TP=2），包括模型路径、张量并行、显存分配等参数设置，并提供了优化长Prompt处理和KV Cache存储的高级技巧，如分块预填充和FP8量化。这些参数组合能有效提升推理性能、解决显存瓶颈，适用于生产环境部署调优。

2025-12-01 15:47:20 870

本文档为《Claude技能构建完全指南》，系统阐述了如何创建、测试、分发和优化专用于Claude AI系统的技能（Skills）

内容概要：本文系统介绍了如何构建Claude AI技能，即通过一组结构化指令文件（SKILL.md、scripts/、references/等）教会AI执行特定任务。技能采用三级渐进式披露机制，支持文档生成、工作流自动化和MCP集成增强三类典型场景。文档详述了技能的文件结构规范、YAML元数据要求、设计模式（如顺序编排、多系统协调、迭代优化）以及测试分发方法，强调可组合性、可移植性和安全性原则。; 适合人群：希望定制化AI工作流的开发者、高级AI用户及企业团队管理者，尤其适用于需标准化AI操作流程的技术团队。; 使用场景及目标：①构建自动化项目管理、客户入驻等多步骤工作流；②统一文档、设计等产出物的质量标准；③结合MCP工具实现跨平台业务集成，提升AI执行效率与一致性；阅读建议：建议按照“用例规划—结构搭建—测试迭代—分发共享”的路径实践，优先使用技能创建器辅助开发，并通过触发测试、功能验证和性能对比持续优化技能表现。

2026-02-25

人工智能Agent长期记忆处理方案：基于向量数据库与知识图谱的持久化记忆系统设计

内容概要：本文系统性地探讨了Agent产品中长期记忆处理方案的核心概念、架构设计与工程实现。文章首先界定了长期记忆的定义及其在个性化体验、持续学习、复杂任务支持等方面的核心价值，并对比了长期记忆与短期记忆在存储载体、生命周期、访问方式等方面的差异。随后，文章深入分析了长期记忆在Agent认知闭环中的位置，涵盖感知、推理、行动、反思与记忆五个环节，并阐述其在知识积累、经验沉淀、个性化塑造等生命周期职责中的作用。进一步地，文档详细拆解了长期记忆的六大设计目标（持久性、可检索性、可演化性、可压缩性、可治理性、成本可控性），提出优先级排序与权衡策略。针对实现范式，文章对比了基于RAG的向量数据库方案、结构化存储（Schema/JSON/图结构）、事件驱动型记忆及混合架构的优劣与适用场景。此外，文档还涵盖了写入策略、更新修正机制、检索使用策略、多Agent环境下的共享与组织级记忆设计、工程架构选型、成本优化与高可用方案，并通过客服、教育辅导、复杂任务执行等实战案例展示具体应用。最后，文章总结了当前技术局限与未来发展方向，强调长期记忆对提升Agent智能深度的关键意义适合人群：具备一定AI与软件开发基础，从事Agent系统设计、大模型应用开发、智能系统研发等相关工作的技术人员、架构师及产品经理，尤其适合工作年限在1-5年之间希望深入理解Agent记忆机制的专业人士使用场景及目标：①理解Agent为何需要长期记忆及其在提升智能性方面的核心作用；②掌握长期记忆在Agent认知架构中的定位与模块交互逻辑③学习不同类型记忆（事实型、经验型、规则型等）的划分与存储策略；④对比主流实现范式（RAG、结构化、混合架构）并选择合适的技术路线；⑤设计写入、更新、检索与遗忘机制以保障记忆质量与系统性能；⑥应用于客服、教育、项目管理等实际场景中构建具备持续学习能力的智能体

2026-01-07

【人工智能Agent】短期记忆处理方案：基于上下文窗口的多通道记忆模型设计与工程实现

内容概要：本文系统阐述了Agent产品中短期记忆（Short-Term Memory）的核心概念、设计目标、常见模型、工程实现方案及其在多Agent系统中的应用。短期记忆作为Agent的“工作台”，对应大语言模型的上下文窗口，用于存储任务执行所需的临时信息，支撑多轮对话、复杂推理与任务状态跟踪。文章对比了短期记忆与上下文窗口、长期记忆、状态和会话历史的区别，提出了五大核心设计目标：有限性、时效性、相关性、可控性与可解释性，并介绍了原始拼接、滑动窗口、摘要型、关键事件型、状态化及多通道等多种记忆模式。此外，文档还涵盖了工程实现细节，包括内存结构设计、读写流程、Token成本控制、与Prompt组装的关系，以及生命周期管理和调试评估方法，最后通过一个自动化项目执行Agent的完整示例展示了理论落地实践的全过程。; 适合人群：具备一定AI和大语言模型基础知识的研发工程师、AI产品经理、系统架构师，尤其适合从事Agent系统设计与开发的1-3年及以上经验的专业人员。; 使用场景及目标：①理解Agent短期记忆的本质及其在持续思考、任务规划、工具调用和反思中的关键作用；②掌握多种短期记忆模型的优缺点与适用场景，能够在实际项目中选择或设计合适的记忆架构；③学习如何通过结构化设计、多通道管理、摘要与清理策略解决上下文膨胀、记忆污染和性能退化等问题；④构建具备高效上下文管理能力的复杂任务型Agent或多Agent协作系统。; 阅读建议：此文档理论与实践结合紧密，包含大量代码示例与架构图，建议读者在理解概念的基础上，动手实现文中提到的记忆结构（如多通道短期记忆），并结合LangChain等框架进行调试与优化。同时，应重点关注记忆与规划、长期记忆、工具调用等模块的交互关系，避免常见设计误区，提升系统的稳定性和可维护性。

2026-01-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人