- 博客(165)
- 收藏
- 关注
原创 Alembic数据库迁移指南
Alembic数据库迁移指南 摘要 Alembic是SQLAlchemy生态中的数据库迁移工具,主要解决多人协作和环境同步时的数据库结构一致性问题。它通过版本化管理支持数据库变更的正向执行(升级)和反向回滚(降级),避免手动修改导致的冲突。 核心特点: 深度集成SQLAlchemy模型 支持自动生成迁移脚本 提供命令行工具执行升级/降级操作 支持事务回滚和版本控制 适用于开发、测试和生产环境 Alembic通过追踪数据库表结构变更记录实现版本控制,类似于数据库的"Git",是管理数据库模
2026-03-18 17:06:24
348
原创 WSL Ubuntu Python 研发 matplotlib 中文乱码设置修改脚本
本文介绍了一个解决WSL2 Ubuntu中Python Matplotlib中文乱码问题的脚本。该脚本会自动检测系统类型:在Windows原生环境下使用微软雅黑字体,在Linux/WSL环境下则通过挂载Windows字体目录(/mnt/c/Windows/Fonts/)获取msyh.ttc字体文件,并将其注册到Matplotlib中。脚本还统一设置了字体家族和Unicode减号显示等参数,确保中文正常显示。该方法既保持了Windows和Linux环境的一致性,又解决了WSL环境下Matplotlib中文乱码
2026-02-28 15:25:11
78
原创 Python 实现 HTTP Client 的常见方式
本文总结了Python实现HTTP客户端的常见方式,包括标准库urllib、第三方同步库requests、现代同步/异步库httpx、异步高性能库aiohttp等。重点推荐httpx作为最佳实践,它支持同步/异步操作和HTTP/2,API风格类似requests但更强大。文章详细介绍了各库的使用方法、优雅实现技巧和适用场景,特别强调httpx在微服务调用、异步高并发系统中的优势,并提供了连接池管理、超时设置、重试机制等实用建议。
2026-02-12 15:43:47
703
原创 百炼模型调优 API参数分组
本文摘要了阿里云百炼平台模型调优API中关于微调参数的分类说明。参数分为四类:1)基本参数(所有微调类型通用),包括模型ID、数据集等必填项;2)通用超参数(多数类型支持),如学习率、批次大小等训练配置;3)高效微调特有参数(仅适用于efficient_sft/dpo_lora),包含LoRA相关配置;4)混合训练参数(仅适用于sft/efficient_sft),支持与通用数据集的混合训练设置。文档还提供了各参数的默认值、类型和适用场景说明,帮助用户快速配置微调任务。
2026-02-10 16:03:08
414
原创 大语言模型核心评测基准详解:从认知到实践
本文系统介绍了9个评估大语言模型能力的核心基准,涵盖知识广度、推理能力、常识真实性和代码生成等维度。重点解析了MMLU、CMMLU、GSM8K等基准的定义、应用价值、使用方法和优化技巧,强调多维度评估、错误归因和人工复核的重要性。通过对比表总结各基准特点,为模型能力诊断和优化提供系统方法论,帮助开发者科学评测大模型的真实性能。
2026-02-02 15:00:05
859
原创 Langchain Agent Skills 使用案例:GitHub 仓库分析技能
GitHub 仓库分析技能摘要 本案例介绍了一个名为 github-analysis 的 LangChain 代理技能,用于自动化分析 GitHub 仓库。该技能包含三个核心功能:获取仓库基本信息、分析问题统计数据和提取提交历史。用户只需提供仓库所有者名称和仓库名,代理就能通过 GitHub API 获取关键指标并生成综合分析报告。技能要求预先配置 GitHub API 令牌,并提供示例代码实现和详细使用说明,使开发者能够快速集成到自己的 LangChain 代理中。该技能特别适合需要定期监控或分析 Git
2026-01-23 15:39:14
1361
原创 SGLang 服务器启动参数完整总结
SGLang服务器启动参数完整总结 本文整理自SGLang官方文档,详细列出了服务器启动参数及其用途和推荐值。参数分为四大类:模型与Tokenizer(包括模型路径、加载格式等)、HTTP服务(监听地址、API密钥等)、并行与分布式(张量并行、流水线并行等)、内存与调度(内存占比、并发请求数等)。针对每个参数提供明确的推荐设置,如模型路径为必填项,HTTP端口默认30000,张量并行根据GPU数量设置等。特别注意事项包括多模态模型需启用enable-multimodal,生产环境建议设置API密钥,OOM时
2026-01-22 16:25:52
1113
原创 Vibe Coding 从入门到精通:工程化实践指南
Vibe Coding不是"让AI写代码"的简单工具,而是一种工程化的方法论。它解决了AI辅助编程中项目规模扩大后的失控问题,通过"规划先行"确保AI生成的代码质量与一致性。记住:不是你用不用AI,而是你有没有一套方法,能让AI在复杂项目中保持理性和一致性。本文所用示例均可在GitHub上找到:https://github.com/tukuaiai/vibe-coding-cn如何在AI时代保持开发控制权如何构建可复用的AI辅助开发流程如何将AI融入团队开发工作流。
2026-01-21 16:59:52
1122
原创 Agent Skills 从入门到精通:工程实践指南
《Agent Skills工程实践指南》摘要(150字): 本文面向3-5年经验工程师,提供Agent Skills的实战指导。核心解决大模型在特定领域任务中输出不一致、流程不规范的问题,适用于金融报告、客服话术等标准化场景。通过渐进式披露设计,实现按需加载技能组件(SKILL.md元数据+脚本+资源),平衡上下文窗口限制与执行稳定性。包含环境配置、最小示例及PDF处理等进阶案例,强调脚本处理确定性任务、模型负责决策的分工模式。反例说明不适合创意内容等灵活场景,为工程团队提供可落地的技术选型参考。
2026-01-21 16:35:10
1051
原创 AI 学习研发技术 / 工具通用提示词模版
AI 学习研发技术/工具通用提示词模板 该模板为资深研发工程师提供了一套系统学习新技术/工具的完整框架,包含7个核心模块: 技术定位与适用场景分析 核心原理与架构解析 基础使用与示例代码 进阶工程实践方案 生产环境经验总结 技术选型对比指南 知识迁移路径 特点: 强调工程实践导向 包含真实可运行示例 覆盖从入门到生产的完整路径 突出常见误区与解决方案 适合3-5年经验开发者自学使用 (字数:148字)
2026-01-20 18:33:54
263
原创 OpenCode与Oh My OpenCode全面使用指南:从入门到精通
《OpenCode与Oh My OpenCode使用指南》摘要: OpenCode是一款开源终端AI编程助手,支持代码生成、调试和项目分析。配合Oh My OpenCode插件可增强为多智能体协作系统。安装通过官方脚本完成,支持多种AI模型提供商。基础功能包括交互式命令和分层配置。Oh My OpenCode提供高级特性:1) 专业分工的智能体系统;2) Ralph Loop自迭代开发循环;3) 背景任务并行处理;4) 关键词激活高性能模式。典型应用场景如通过AGENTS.md定义规范后,智能生成符合要求的
2026-01-20 15:29:18
5164
原创 Claude Skills 完整学习文档
Claude Skills是一种模块化、可复用的知识包,通过三层架构(元数据+指令+资源)向AI注入特定领域知识和标准化工作流程。与普通Prompt相比,Skills具有可复用性、自动触发和结构化设计等优势;与Tool/Function Calling相比,Skills专注于内部工作流程而非外部调用;与Agent Workflow相比,Skills是更细粒度的标准化组件。Skills采用渐进式披露设计,支持本地执行与远程调用,具有明确的行为边界和灵活的组合作业能力,适用于需要标准化流程或内部知识的场景。
2026-01-13 21:20:04
1092
原创 SDD驱动的项目结构模版-适配ClaudeCodeCli
本文介绍了一个符合Spec-Driven Development规范的FastAPI项目结构,重点包含三个核心部分: Spec驱动层:顶层spec/目录定义了项目宪法、架构约束、安全规范等,作为项目开发的最高指导原则。 Claude配置层:.claude/目录包含AI协作规范,通过配置文件、指令说明和修改范围限制来规范LLM的行为。 FastAPI实现层:采用清晰的分层结构(API路由层、业务服务层、数据模型层等),确保代码严格遵循spec定义。 这种结构特别适合生产环境、多人协作及LLM参与的开发场景,通
2026-01-05 16:07:48
614
原创 spec-kit 架构哲学与实践指南
摘要: spec-kit是一套以规范为中心的工程方法论和工具集合,旨在解决LLM参与研发时的需求、约束和代码一致性挑战。其核心哲学包括:Spec优先(作为唯一真相来源)、显式化隐性工程经验、约束优先(明确定义边界)以及模块化可组合的Spec结构。spec-kit由宪法层、任务规范和代码风格三部分组成,通过"编写Spec→生成代码→人工Review"的工作流确保规范与代码同步演进。与传统工程相比,spec-kit将规范置于核心位置,使人和AI都能在清晰边界内协作。它最适合中大型、多人协作或
2026-01-05 16:00:34
1245
原创 企业级 Docker 运维命令速查表
本文整理了企业级Docker运维核心命令速查表,涵盖容器状态排查、日志查看、服务管理、资源监控、网络诊断等关键场景。重点包括:1)基础排障命令如docker ps/logs/exec;2)Compose服务管理;3)资源监控工具;4)GPU专用命令;5)典型故障处理流程。特别强调10个必须形成肌肉记忆的核心命令,掌握这些即可满足企业级Docker运维需求。全文采用分级标注方式,突出高频使用命令和危险操作警示,适合运维人员快速查阅参考。
2025-12-29 19:01:24
320
原创 模型格式 × GPU × 显存 × vLLM 参数模板对照表
本文提供了针对不同GPU和显存配置的大模型部署优化指南。主要内容包括:1)快速选型总表,根据模型格式、量化方式、GPU架构推荐最佳模型规模;2)详细配置方案,覆盖RTX4090/3090、A10/L4、A100/H100等主流GPU,推荐AWQ 4bit为首选方案;3)关键参数说明,如quantization、dtype等对性能的影响;4)工程结论强调参数匹配硬件的重要性,推荐优先级为AWQ 4bit > FP16/BF16 > GPTQ > bnb。全文提供了具体命令行示例和性能数据,为
2025-12-29 14:27:13
594
原创 大语言模型在翻译领域的演进与游戏本地化应用分析
大语言模型在翻译领域的应用已从单一文本翻译向多模态理解与生成、从通用能力向专业领域适配、从云端服务向混合部署架构转变。在游戏行业,LLM的应用已覆盖开发、运营和玩家体验全链条,未来1-3年有望在实时多模态翻译、文化适配增强和边缘端部署三个方面实现突破性落地。在开发阶段,可利用LLM生成游戏文本内容和NPC对话,提高开发效率和创意多样性。例如,基于GPT-2的MarioGPT可根据自然语言描述生成游戏关卡;
2025-12-25 14:40:14
701
原创 TensorRT-LLM部署Qwen3-14B
本文介绍了使用TensorRT-LLM部署Qwen3-14B模型的完整流程。主要内容包括:下载Nvidia官方TensorRT-LLM镜像并安装必要依赖;准备基础模型和转换脚本;将模型checkpoint转换为TensorRT格式;构建engine文件(需与目标GPU架构一致);最后部署engine并启动服务。重点强调了构建engine时需使用与部署环境相同的GPU资源,不同显卡生成的Engine不能通用。整个流程涵盖了从模型准备到服务部署的关键步骤。
2025-12-24 16:03:22
449
原创 微调Qwen3-14B改变模型认知
摘要:本文详细介绍了使用LoRA微调Qwen3-14B模型实现身份认知对齐的技术方案。重点包括:1)选择LoRA微调方式而非全量微调;2)准备300-800条覆盖多种提问方式的中英文训练数据;3)提供H20显卡下的具体训练配置参数;4)强调验证阶段需确保模型在各种提问场景下稳定输出"我是贾维斯"。方案特别针对身份认知修改需求优化了学习率、LoRA秩数等关键参数,并给出了完整的训练流程和验证方法。
2025-12-24 15:54:14
851
原创 Elasticsearch 8.x + Python 官方客户端实战教程
本教程介绍了Elasticsearch 8.x与Python官方客户端的实战应用。内容涵盖:ES基础概念(索引、文档、映射、分片)、8.x安全机制、Python客户端安装与连接配置、索引设计与创建、数据写入(单条和批量)、查询技巧(基础查询、Bool查询、聚合)、深分页解决方案(search_after),以及工程级客户端封装示例和常见踩坑总结。重点强调生产环境中的最佳实践,如HTTPS认证、批量写入优化、查询性能调优等,为开发者提供从基础到进阶的全面指导。
2025-12-17 18:28:03
533
原创 Python 长连接实现方式全景解析
本文系统介绍了Python实现长连接的多种技术方案,包括HTTP Keep-Alive、WebSocket、SSE和TCP Socket等。文章从原理、适用场景、代码示例、优缺点等方面对各方案进行了详细分析,并提供了生产环境注意事项。其中,WebSocket适合全双工实时通信,SSE适用于单向推送场景,而底层TCP方案则适合自定义高性能协议。文章强调异步模型(asyncio/uvloop)对长连接的重要支撑作用,并给出了测试方法和选型建议,为不同业务场景下的长连接实现提供了实用指导。
2025-12-16 19:20:59
691
原创 模型推理加速技术全景解析:从基础优化到前沿创新
2024-2025年大模型推理加速技术综述 本报告系统梳理了当前主流的大模型推理加速技术,主要包括三大方向:模型压缩、并行化与向量化。模型压缩通过量化、剪枝和知识蒸馏降低计算量,其中INT8量化可缩减模型体积75%并提速2-4倍。并行化技术利用层间/层内/数据并行策略,理论加速可达数倍。向量化优化则通过SIMD指令集和GPU专用指令提升计算效率。这些技术协同应用,配合最新发布的模型框架,显著提升了推理速度,使大模型部署更加高效实用。报告还提供了PyTorch实现的关键代码示例,为技术落地提供参考。
2025-12-16 18:32:30
764
原创 Python 整合 Redis 哨兵(Sentinel)与集群(Cluster)实战指南
本文介绍了Python整合Redis哨兵(Sentinel)与集群(Cluster)的实战指南,主要内容包括: 技术选型:推荐使用redis-py 5.x版本客户端,支持哨兵、集群、管道等特性 项目结构:提供了生产环境推荐的项目目录结构,包含配置管理、核心连接、功能封装等模块 配置管理:通过settings.py统一管理哨兵和集群配置 客户端工厂:实现自动切换的Redis客户端工厂类,支持哨兵、集群和单机模式 功能封装: 通用缓存类,支持JSON序列化和TTL设置 各类Redis数据结构操作封装 分布式锁实
2025-12-16 16:03:17
539
原创 LoRA微调在垂直行业大模型训练中的应用指南
摘要:大模型训练正加速向金融、医疗、能源、通信和政务五大垂直行业渗透,各行业数据呈现差异化特征。金融数据以结构化交易记录为主,医疗数据包含多模态影像和病历,能源数据侧重时序监测数据,通信数据涵盖网络日志和用户行为,政务数据则融合政策文件和公共数据。数据获取需通过行业开放平台或内部系统,并严格遵循《数据安全法》等合规要求,采用脱敏、联邦学习等技术保障隐私安全。LoRA等高效微调方法可针对不同行业数据特点优化模型性能,推动行业智能化转型。
2025-12-15 18:53:17
915
原创 Agent核心工作模式深度解析:概念、实现与应用
大模型Agent五大核心工作模式解析 本文系统阐述了大模型Agent从被动响应到主动执行的五大核心技术模式:反思模式、工具使用模式、ReAct模式、规划模式和多智能体模式。重点剖析了反思模式的技术实现与应用价值,该模式通过"生成-反馈-修正"循环机制提升输出质量,在医疗诊断(准确率提升至85.5%)、教育评估和代码生成(准确率提升40%)等场景展现显著效果。技术实现包含任务执行器、验证器、反思器和记忆存储四大组件,并提供了基于LangChain的Python代码示例,展示完整的反思工作流
2025-12-15 16:23:01
1050
原创 2025年下半年AI应用架构演进:从RAG到Agent再到MCP的生态跃迁
2025年AI应用架构演进:从单模型到多智能体协同 摘要:2025年下半年,AI应用架构经历了从"单模型智能"向"多智能体协同"的范式转变。RAG技术突破传统边界,发展为支持多模态处理和记忆驱动的Agentic RAG架构;Agent技术升级为自主模式,形成完整智能执行体系。技术演进体现在三大方向:1)RAG实现多模态处理与记忆驱动;2)Agent能力分级(基础响应者到自主模式);3)MCP与A2A协议构建多智能体协作机制。典型应用如企业知识问答系统(RAG+Agen
2025-12-15 15:17:19
966
原创 阿里PAI平台使用ESA部署模型滚动更新
本文介绍了阿里云PAI平台使用ESA部署模型时的滚动更新配置要点。关键参数包括:1)"rolling_strategy.max_surge"控制更新时额外创建的实例数,需平衡更新速度与稳定性;2)"rolling_strategy.max_unavailable"设置允许的最大不可用实例数,避免服务中断;3)优雅退出相关参数"eas.termination_grace_period"和"rpc.enable_sigterm"用于
2025-12-15 14:26:04
247
原创 WSL2 使用的 VHDX正确压缩过程
WSL2使用的VHDX虚拟磁盘是动态扩展的,删除文件后磁盘空间不会自动回收。要缩小VHDX文件,需满足两个条件:ext4文件系统标记空闲块,并在WSL完全关闭后使用Windows的Optimize-VHD工具压缩。常见问题包括WSL未彻底关闭、Docker占用或未启用Hyper-V。正确步骤包括:1)完全关闭WSL实例;2)以管理员身份运行Optimize-VHD命令。若压缩失败,可能是文件系统仍有占用空间、Windows目录文件被删除或需要执行fstrim整理碎片。
2025-12-12 14:35:24
666
原创 Triton 部署 TensorRT-LLM 引擎的 Qwen3 vs 直接使用 trtllm-serve 部署 Qwen3对比
摘要: Triton与trtllm-serve在部署TensorRT-LLM引擎时核心差异如下: 定位:Triton为生产级多模型框架,支持复杂调度与扩展;trtllm-serve是轻量级单模型服务,专注快速启动与OpenAI兼容。 部署:Triton需配置模型仓库和调度策略,适合企业级多模型场景;trtllm-serve直接加载引擎,命令简单,适合快速上线。 性能与扩展:两者推理速度相近,但Triton支持动态批处理、多模型并发及集群部署,而trtllm-serve仅优化单模型LLM场景。 选择建议:快速
2025-12-09 17:35:02
816
原创 trtllm-serve 参数说明列表
trtllm-serve serve 命令摘要 该命令用于启动兼容OpenAI API的推理服务器,支持PyTorch/TensorRT后端。主要参数包括: 必需参数:MODEL(模型路径/名称),TensorRT引擎需额外指定--tokenizer 网络配置:--host、--port 并行设置:--tp_size(Tensor并行)、--pp_size(Pipeline并行) 推理限制:--max_batch_size、--max_seq_len等控制资源使用 实验功能:支持分块预填充(--enable
2025-12-08 19:55:22
372
原创 TensorRT-LLM中 trtllm-build的命令参数详解
摘要 trtllm-build工具提供了一系列参数用于配置TensorRT LLM模型的构建过程,主要分为以下几类: 通用配置:包括模型检查点、配置文件路径及输出目录设置 尺寸和性能优化:控制批处理大小、输入长度、KV缓存等关键性能参数 KV缓存配置:支持连续/分页/禁用KV缓存等多种模式 构建和调试:提供计时缓存、分析详细程度、调试输出等开发辅助功能 默认配置针对2048批处理量和1024输入长度进行了优化,支持单线程构建和基础日志级别。工具还提供了可视化网络、内存监控等高级调试选项。
2025-12-08 17:03:26
928
原创 使用 Python 客户端库从 Prometheus 获取指标
Prometheus与Python生产级接入指南 本文介绍了使用Python客户端库(prometheus-api-client)从Prometheus获取指标的实践方法。相比直接HTTP调用API,该库提供更高层接口、自动解析数据结构、Range查询支持、内置重试和超时机制等优势。 主要内容包括: 安装方法:pip install prometheus-api-client 核心功能:PrometheusConnect主入口、MetricRangeData结构化数据、MetricsList结果封装 基础查
2025-12-08 13:29:35
717
原创 NVIDIA 显卡架构清单
摘要: 本文整理了NVIDIA多代显卡架构(Hopper/Ada/Ampere)关键型号的技术参数,涵盖H200、H100、L40S、A100等数据中心及消费级产品。重点对比了显存容量(HBM3e最高141GB)、带宽(H200达4.8TB/s)、计算性能(FP32/Tensor核心算力)及典型应用场景(LLM训练/推理/HPC)。Hopper架构(如H200/H100)凭借超大显存和高带宽成为百亿参数模型首选,Ampere架构A100仍广泛用于成熟部署,Ada架构L40S则平衡推理与图形需求。表格标注了各
2025-12-05 16:58:01
1229
原创 Qwen3-14B 转换为 TensorRT-LLM Engine 的方式
本文总结了将Qwen3-14B模型转换为TensorRT-LLM Engine的四种主流方式:1)Python代码转换(灵活但环境配置复杂);2)Docker镜像方式(推荐,环境稳定);3)ONNX转换路径(适用于非HF格式模型);4)NVIDIA NIM服务(全托管无需构建)。针对不同场景给出了推荐方案:生产环境建议使用Docker镜像,研发环境可选择Python脚本,企业用户可考虑NIM服务。文档还简要介绍了其他非主流转换方式,并提供了完整的团队内部参考指南,帮助开发者根据需求选择最适合的转换路径。
2025-12-05 15:12:47
1070
原创 常用部署环境 Sticky Session 配置操作文档
本文档介绍了Sticky Session(会话保持)的配置方法,适用于需要固定客户端请求路由的场景。主要内容包括:Nginx通过ip_hash或Cookie实现会话保持;HAProxy通过Cookie或HTTP Header配置;AWS ALB基于应用Cookie启用;阿里云ASM使用DestinationRule配置一致性哈希;Kubernetes Ingress通过注解实现;Cloud Foundry自动生成实例标识。文档还提供了验证方法和注意事项,推荐优先使用集中式Session存储或Token认证等
2025-12-05 13:44:32
794
原创 NVIDIA Triton Inference Server 与 TensorRT-LLM 的关系以及部署Qwen3模型部署
摘要:本文介绍了NVIDIA Triton Inference Server与TensorRT-LLM的协同关系,并详细指导了Qwen系列模型(如Qwen2.5/3-14B)的部署流程。TensorRT-LLM作为底层推理引擎负责模型优化,而Triton Server则提供高性能服务框架。部署步骤包括:1)准备GPU环境;2)通过TensorRT-LLM编译模型为高效引擎文件;3)配置Triton模型仓库;4)启动推理服务;5)测试API调用。整个过程强调了对大模型的高效部署方法,特别适用于需要高并发、低延
2025-12-04 14:25:45
762
2
原创 SGLang框架全面解析:定义、功能、使用与最佳实践
SGLang是一款专为大型语言模型和视觉语言模型设计的高性能推理框架,通过创新的前后端协同设计显著提升模型推理效率。该开源项目由伯克利团队开发,支持多轮对话、批量API调用等场景,提供结构化输出控制、多模态支持等功能。核心技术创新包括RadixAttention缓存系统、结构化输出约束和推测执行等,在多轮对话中吞吐量可达vLLM的5倍。SGLang支持多种部署方式(PyPI/源码/Docker)和编程接口(HTTP/Python),适用于大模型推理服务和AI辅助开发工具两大方向,成为连接模型开发与产业应用的
2025-12-02 10:42:14
1245
原创 张量并行度和数据并行度详细解读
摘要:TP=2(张量并行)和DP=2(数据并行)是两种分布式训练策略。DP将数据切分到多个设备,每个设备保存完整模型,通过梯度同步更新;TP将模型参数切分到多个设备,降低单卡显存占用但通信频繁。实际训练中常组合使用TP和DP,如4个GPU可配置为TP=2和DP=2,形成混合并行策略。DP通信频率低但通信量大,TP通信频繁但通信量较小。TP解决模型过大问题,DP解决数据过多问题,二者协同提升训练效率。
2025-12-01 16:39:00
715
原创 大模型部署指南:TensorRT-LLM 框架部署Qwen3-7B
TensorRT-LLM部署Qwen3-7B大模型实战指南 本文介绍如何利用NVIDIA的TensorRT-LLM框架高效部署Qwen3-7B大语言模型。TensorRT-LLM专为GPU优化,支持FP16/INT8量化和动态批处理,在A100上可实现3倍加速(实测30ms/请求)。对比LmDeploy和vLLM,TensorRT-LLM在NVIDIA硬件上性能最优,但需CUDA环境。部署方案包括命令行快速部署和容器化企业级部署两种方式,并提供了环境配置、模型转换和API测试的详细步骤。同时指出常见问题解决
2025-12-01 16:22:17
1048
原创 SGLang启动参数详解
本文介绍了大型语言模型推理服务的核心配置参数及其用途,涵盖模型加载、HTTP服务、显存管理、并行计算等关键模块。重点展示了多卡启动示例(TP=2),包括模型路径、张量并行、显存分配等参数设置,并提供了优化长Prompt处理和KV Cache存储的高级技巧,如分块预填充和FP8量化。这些参数组合能有效提升推理性能、解决显存瓶颈,适用于生产环境部署调优。
2025-12-01 15:47:20
870
本文档为《Claude技能构建完全指南》,系统阐述了如何创建、测试、分发和优化专用于Claude AI系统的技能(Skills)
2026-02-25
人工智能Agent长期记忆处理方案:基于向量数据库与知识图谱的持久化记忆系统设计
2026-01-07
【人工智能Agent】短期记忆处理方案:基于上下文窗口的多通道记忆模型设计与工程实现
2026-01-07
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅