- 博客(330)
- 收藏
- 关注
原创 我开源了一个新项目,notes-on-llms——一个从「模型原理 → 训练 → 推理 → Agent → 安全 → 多模态」系统拆解大语言模型的知识仓库
《构建LLM系统性认知框架:notes-on-llms技术仓库介绍》摘要 针对当前大语言模型(LLM)学习资源零散化与实践需求系统化之间的矛盾,作者创建了开源知识仓库"notes-on-llms"。该仓库突破单点知识局限,采用工程架构视角系统梳理LLM技术栈,涵盖模型原理、训练流程、推理优化、Agent系统、安全对齐及多模态等核心模块。区别于碎片化教程,该项目强调技术模块间的关联性,如训练阶段的角色分工、推理性能瓶颈等工程实践关键问题。仓库持续更新维护,既可作为技术参考手册,也与作者博客
2025-12-24 14:47:47
541
原创 深度解析DeepSeek大语言模型架构演进——从多头注意力机制到 DeepSeek 核心技术体系 (DeepSeek-MoE, MTP, MLA)
摘要: DeepSeek系列大模型通过三大核心技术突破传统LLM的显存与效率瓶颈: 多头潜在注意力(MLA):采用低秩压缩KV Cache,显存占用接近MQA,性能保留MHA优势,兼容解耦RoPE; DeepSeek-MoE:细粒度专家分割(256路由专家)与共享专家隔离,解决知识冗余,提升参数效率; 多Token预测(MTP):训练时并行预测未来token增强梯度信号,推理时可作草稿模型加速2倍。 结合FP8训练与DualPipe流水线优化,实现高效能模型设计,为千亿级大模型提供可扩展方案。
2025-12-24 14:45:38
511
原创 大语言模型混合专家(MoE)架构深度技术综述
摘要: 混合专家(MoE)架构通过稀疏激活机制实现参数与算力的解耦,成为千亿级大模型的核心技术。其核心组件包括专家网络和门控机制,采用Top-k路由策略平衡性能与负载。MoE面临训练稳定性、分布式通信瓶颈等挑战,需结合辅助损失函数和并行优化技术。典型模型如Mixtral 8x7B、Grok-1等展示了高参数效率,未来将向端侧部署、异构专家等方向发展。MoE正推动AI从规模扩张转向精细化计算,成为实现万亿参数模型的可行路径。
2025-12-24 14:21:20
484
原创 Transformer 架构中的位置编码机制深度研究报告
本文系统梳理了Transformer模型中位置编码技术的发展历程与核心方法。从绝对位置编码(正弦编码、可学习嵌入)到相对位置编码(Shaw、Transformer-XL、T5),再到现代主流方案旋转位置编码(RoPE)和线性偏差注意力(ALiBi),详细分析了各类方法的数学原理、特性优劣及适用场景。特别探讨了长上下文扩展技术(NTK、YaRN)和新兴方案(NoPE、CoPE),通过对比表总结各方法在类型、参数量、外推能力等方面的差异。研究表明,RoPE凭借其综合性能成为当前主流选择,而ALiBi在外推性上表
2025-12-24 13:54:42
493
原创 下一代智能代理架构:Agent Skills 与 AGENTS.md 的深度技术解析与生态演进报告
摘要:AI代理架构的范式演进——从提示词工程到AGENTS.md与Agent Skills的协同 本文系统阐述了AI领域从提示词工程向自主代理架构的范式转移。研究聚焦两大关键技术: AGENTS.md:作为上下文治理层,通过标准化Markdown协议解决AI协作中的角色定义、行为边界和操作指令问题,实现透明化人机协作。其层次化解析逻辑特别适合大型单体仓库管理。 Agent Skills:作为能力执行层,采用"代码即工具"理念,通过渐进式披露的三层架构(发现层→指令层→执行层)和沙箱环境,
2025-12-22 14:07:03
1053
原创 我把大语言模型的所有核心模块,整理成了一张“可复用的技术地图”
《系统性拆解大语言模型技术栈:notes-on-llms项目推荐》 该项目提供了一套结构化的大语言模型(LLM)认知框架,将碎片化的技术知识整合为完整系统。文档从模型原理到多模态应用,系统性地拆解了LLM技术栈的六大核心模块:RAG检索增强生成、Agent架构设计、训练与微调系统、Prompt工程、多模态技术以及新兴的MCP范式。 不同于零散的教程,该项目采用"技术地图"的组织方式,着重展现各模块在系统中的位置、职责和连接关系。特别适合已掌握基础LLM知识,希望进阶理解模型系统架构的开发
2025-12-22 08:30:00
593
原创 我把 LLM 技术栈做成了一张“可复用的认知地图”:notes-on-llms 开源仓库介绍
《notes-on-llms:大语言模型结构化知识库》是一个系统性整理LLM技术栈的开源项目,覆盖模型原理、训练范式、推理优化到Agent架构等核心模块。区别于零散资料,该项目采用技术栈拆解方式,提供RAG、Agent、训练微调等8大主题的工程化指南,包括RAG的离线/在线链路设计、Agent系统构成要素、训练工程全景等深度内容。项目持续更新,适合希望从"使用"进阶到"系统理解"LLM的开发者,提供在线阅读和GitHub仓库两种访问方式,欢迎参与共建。
2025-12-21 18:37:10
1422
原创 我如何系统性整理大语言模型:notes-on-llms 仓库介绍
《构建系统性LLM认知框架:notes-on-llms仓库介绍》针对当前大语言模型学习中零散知识与工程需求脱节的问题,推出一个系统性知识仓库。该仓库从模型原理、训练、推理到安全、多模态等7大模块,构建LLM全景技术图谱,强调工程视角而非碎片化信息。适合已具备基础、希望建立完整技术框架的开发者,可作为长期更新的参考手册。仓库与作者博客形成互补,将持续补充新模型和范式,致力于成为LLM领域的结构化知识库。
2025-12-21 18:11:54
803
原创 AI Agent 知识体系全景详解:从理论基石到前沿实践
摘要: 人工智能正从对话式AI向**代理式AI(Agentic AI)**演进,形成以LLM为核心,融合规划、记忆与工具使用的智能体架构。报告系统梳理了AI Agent知识体系,涵盖CoT、ToT、ReAct等规划技术,MetaGPT、AutoGen等多智能体协作框架,以及向量检索、工具调用等模块。同时探讨了安全评测、具身智能(如Minecraft Voyager)等应用,并展望端侧Agent与Agent OS的未来趋势,为AI向自主任务执行迈进提供全景视角。
2025-12-21 17:50:15
566
原创 模型上下文协议 (MCP) 深度技术综述:架构、实现与未来生态
模型上下文协议(MCP)是AI领域的通用接口标准,旨在解决生成式AI模型与外部数据源间的互操作性危机。该协议采用客户端-服务器架构,通过JSON-RPC 2.0实现模型与工具的无缝对接,支持资源、工具和提示词三类核心原语。MCP借鉴USB-C的设计理念,将集成复杂度从M×N降至M+N,并内置安全机制。其开源特性与跨平台支持(包括Google Cloud等主流平台)使其成为AI生态系统的关键基础设施。开发人员可通过Python SDK快速构建MCP服务,实现智能应用的标准化连接。
2025-12-21 17:44:43
959
原创 大语言模型提示工程全景综述:从上下文学习机制到多模态认知架构与安全防御体系
摘要: 提示工程已发展为融合认知科学、计算语言学与安全工程的系统性学科。报告系统解构了其四层架构:基础层(上下文学习ICL与CRISPE框架)、进阶层(思维链CoT与树状推理ToT)、前沿层(自动化提示APE与多模态融合)及安全层(对抗防御与指令层级)。研究表明,千亿参数模型通过非梯度更新的ICL机制实现任务适配,CoT/ToT可提升复杂推理成功率至74%,而指令层级防御能有效抵抗DAN攻击。未来提示工程将向流工程与智能体编排演进,成为AGI系统的核心组件。(149字)
2025-12-21 17:30:22
522
原创 多模态大模型全栈技术深度综述:从底层架构机制到前沿统一范式与工程实践
本报告系统梳理了多模态大模型与生成式AI的核心技术体系。在基础架构方面,详细解析了ViT的Patch Embedding机制、CLIP对比学习目标,以及LLaVA与BLIP-2的模态连接器设计差异。数据工程部分重点阐述了LAION-5B的CLIP过滤策略和ShareGPT4V的高质量标注方法。报告还深入探讨了多模态RLHF对齐、扩散模型架构演进(DiT到SD3)、ControlNet控制技术等前沿方向,并分析了多模态RAG和具身智能的应用实践。最后介绍了Uni-MoE统一架构和vLLM高性能推理等最新进展,
2025-12-21 17:11:14
1398
原创 大语言模型(LLM)全栈技术深度综述:理论、系统与工程实践
本报告系统梳理了大语言模型(LLM)技术栈的最新进展,涵盖架构优化、训练部署和推理加速等关键环节。重点分析了Transformer架构的现代变体(RoPE、ALiBi、GQA)、万亿参数训练技术(3D并行、ZeRO优化)、高效微调方法(LoRA、QLoRA)以及推理优化方案(FlashAttention、投机采样)。报告还深入探讨了数据工程流程和人类价值观对齐技术(RLHF、DPO),为研究人员和工程师提供了全面技术参考。这些创新显著提升了模型性能、训练效率和推理速度,推动了LLM技术的工业化应用。
2025-12-21 17:02:52
555
原创 检索增强生成(RAG)技术全景:从架构原理到工程实践的深度综述
《RAG技术生态全景报告:从数据准备到检索增强生成》摘要 本报告系统梳理了检索增强生成(RAG)技术生态,揭示其如何通过非参数化记忆解决大语言模型的知识滞后与幻觉问题。核心内容涵盖:1)数据准备阶段的分块策略与多模态处理;2)索引构建中的向量空间优化与树状检索技术;3)主流向量数据库选型指南;4)混合检索、查询重写等优化方法;5)生成阶段的上下文增强与评估体系。报告指出,RAG技术正从朴素架构向模块化代理演进,未来将向多模态融合、知识图谱结合及端侧部署方向发展,成为大模型落地的关键支撑。
2025-12-21 16:44:32
732
原创 下一代 AI 销售陪练系统的架构蓝图与核心技术挑战深度研究报告
摘要: 生成式AI和大语言模型(LLM)正推动销售赋能从静态脚本向动态仿真转变。AI销售陪练系统需解决低延迟、高情商交互及严格遵循销售方法论(如MEDDIC、SPIN)等挑战。报告探讨了级联架构与端到端语音模型的权衡,强调混合架构的可行性;分析了全双工通信、打断处理等实时交互技术;提出基于状态机(FSM)和知识图谱(GraphRAG)的对话管理方案;并构建了自动化评分体系。最终指出,实现亚秒级延迟与类人交互需综合音频工程、实时通信与认知控制技术,未来可结合视觉分析提升沉浸感。 (150字)
2025-12-19 15:10:35
991
原创 混合搜索中的分数归一化方法深度解析:从 BM25 到 vLLM Cross-Encoder 的 Sigmoid 变换
摘要: 混合搜索中稀疏检索(BM25)与稠密向量分数的异质性导致融合困难。本文对比了最大最小归一化(Min-Max)与Sigmoid变换的优劣,指出Min-Max对离群值敏感且易丢失语义信号,而Sigmoid通过非线性映射提供鲁棒的概率校准,尤其适用于vLLM框架下Cross-Encoder输出的Logits转换。Sigmoid将Logits还原为概率,支持RAG系统的阈值截断和幻觉抑制,是数学上的最优解。工程实践中,动态Sigmoid适用于高精度场景,RRF则提供零样本鲁棒性。正确选择归一化方法可提升混合
2025-12-19 11:40:45
522
原创 异构向量空间失配机制与负余弦相似度的深层拓扑学解析(RAG索引,检索期间embedding模型不一致会带来的后果)
摘要: 本文系统研究了语义检索中向量空间失配导致的负相似度现象。核心发现异构模型(如BERT与RoBERTa混用)会引发高维空间的几何互斥:分词器差异导致随机映射,训练目标不同造成空间利用冲突,各向异性使向量分布呈互斥锥形。数学上,这使点积退化为以0为中心的随机分布,约50%文档呈现负分。解决方案强调模型全生命周期一致性,包括严格版本控制、重建索引及跨模型对齐。研究揭示了语义检索系统底层拓扑结构错位的本质,为工程实践提供了理论依据。
2025-12-19 10:01:33
598
原创 混合检索中短查询高分异常的深度剖析与神经重排序(Rerank)的修正机制研究报告
混合检索系统在短查询场景下存在显著缺陷,导致返回大量不相关文档。研究发现,该问题源于稀疏检索中IDF失效、稠密检索中的各向异性和枢纽点效应,以及融合算法对弱信号的放大。神经重排序(Cross-Encoder)通过早期语义交互和细粒度分析,能有效修正这种系统性错误。研究建议采用两阶段流水线(混合检索+重排序)来平衡精度与效率,这对提升RAG系统质量至关重要。
2025-12-19 09:50:56
653
原创 LangChainv1 Agent 新版教程,与之前大有不同(二)
LangChain Agent 概述与实践指南 LangChain Agent 是一种结合大型语言模型(LLM)与外部工具的高级智能代理系统,能够通过推理、规划和工具调用完成复杂任务。其核心组件包括LLM模型(支持静态/动态选择)、可扩展的工具集(支持错误处理和ReAct循环调用)以及灵活的系统提示词机制。Agent通过AgentExecutor执行,提供结构化输出、记忆状态、流式响应等进阶功能。开发者可自定义Agent模板和工具,并通过中间件实现输入预处理、动态路由等企业级需求。最佳实践建议关注多工具协作
2025-11-29 18:06:31
928
原创 大语言模型词表构建技术的深度剖析:从原理重构到词表扩充的工程实践(二)
摘要: 大模型架构中,词表构建(Tokenization)是连接自然语言与机器计算的离散化基石。现代大模型普遍采用子词切分算法(如BPE、Unigram),但通用词表在垂直领域表现不佳。词表重构需通过数据准备、预分词、SentencePiece训练等步骤实现,并评估压缩率与Rényi熵。词表扩充则需合并增量词表、调整模型嵌入层,并采用均值初始化策略优化新增权重。持续预训练是赋予新token语义的关键步骤,需平衡新旧语料比例以避免遗忘。
2025-11-29 18:04:24
911
原创 我新开源了一个项目,Genesis-LLM帮助大家快速复用大语言模型训练脚本,小白快速入门!(二)
Genesis-LLM是一个开箱即用的中文/领域大模型训练全流程工具包,提供从数据预处理到模型部署的完整解决方案。该项目整合了数据处理管线、词表扩充、高效微调(LoRA/QLoRA)、RLHF对齐(DPO/PPO)等核心功能,支持vLLM高性能推理和llama.cpp边缘部署。通过YAML配置驱动和实验追踪集成,帮助开发者快速复用训练脚本,避免重复造轮子。适用于LLM初学者学习全流程、算法工程师快速实验调优以及研究人员探索不同训练策略,显著降低大模型训练门槛。
2025-11-29 18:03:40
888
原创 从零构建属于你的大语言模型:Genesis-LLM 全流程开源项目解析(二)
Genesis-LLM:一站式大语言模型训练与部署解决方案 Genesis-LLM是一个开源工程级项目,旨在简化大语言模型(LLM)的全流程开发。该项目提供从数据预处理、词表扩展、模型训练(CPT/SFT/RLHF)到推理部署(vLLM/量化)的完整工具链,具有三大核心优势: 降低门槛:通过配置驱动和详细注释,帮助初学者理解LLM训练全流程 工程友好:集成LoRA/QLoRA高效微调、DPO/PPO对齐等主流技术,支持单卡训练 灵活部署:提供vLLM高性能推理、llama.cpp边缘部署及AWQ/GPTQ量
2025-11-29 18:02:48
604
原创 我新开源了一个项目,Genesis-LLM帮助大家快速复用大语言模型训练脚本,小白快速入门!
Genesis-LLM是一个开源的中文/领域大模型全流程训练工具包,提供从数据处理到模型部署的完整解决方案。主要特性包括:数据处理管线(采集、清洗、去重)、中文词表扩充、高效微调(LoRA/QLoRA)、RLHF对齐(DPO/PPO)以及多种推理部署方案(vLLM/llama.cpp/量化)。项目采用配置驱动设计,集成实验追踪工具,帮助开发者快速复用训练流程,避免重复开发。适用于LLM初学者学习全流程、算法工程师快速调优以及研究人员开展实验。技术栈基于PyTorch、Transformers和PEFT等主流
2025-11-29 09:36:46
1010
原创 大语言模型词表构建技术的深度剖析:从原理重构到词表扩充的工程实践
本文探讨了大语言模型(LLM)中的词表构建技术,重点分析了BPE和Unigram两种主流算法的原理与差异,并提供了词表重构与扩充的实践方案。文章指出,词表作为连接自然语言与机器计算的桥梁,其构建质量直接影响模型性能。通过详细阐述算法机制、训练流程和评估指标,为从通用模型向垂直领域迁移提供了技术路径,特别强调了词表扩充中的权重初始化策略和持续预训练的重要性。这些技术要点对于优化模型在多语言和特定领域的表现具有重要指导意义。
2025-11-28 16:50:57
957
原创 从零构建属于你的大语言模型:Genesis-LLM 全流程开源项目解析
Genesis-LLM是一个开源的大语言模型全流程训练框架,旨在简化LLM开发流程。项目提供从数据处理、词表扩展、模型训练(CPT/SFT/RLHF)到推理部署(vLLM/量化)的完整解决方案,支持LoRA/QLoRA高效微调和DPO/PPO对齐。通过配置驱动和实验管理功能,帮助开发者快速构建领域专用模型。项目适合LLM初学者、算法工程师和研究人员,致力于降低大模型开发门槛,推动中文社区LLM生态发展。
2025-11-28 15:19:25
1673
原创 LangChainv1 模型模块全面教程,与之前改变很大
摘要: LangChain的模型模块为企业应用开发提供了统一接口,支持多种大型语言模型(LLM)及相关功能。该模块涵盖三大模型类型:聊天模型(ChatModel)适用于多轮对话与指令任务,LLM用于单轮文本生成,文本嵌入模型(TextEmbeddingModel)则处理语义向量计算。初始化方式包括便捷的init_chat_model()或直接实例化,支持OpenAI、Anthropic等提供商。调用方法提供单次(.invoke())、流式(.stream())和批量(.batch())处理。高级功能如工具调
2025-11-20 15:44:12
725
原创 LangChainv1 Agent 新版教程,与之前大有不同
摘要:LangChain Agent是一种结合大型语言模型(LLM)和外部工具的系统,能够自主调用工具完成复杂任务。其核心组件包括LLM模型(支持动态选择)、工具系统(含错误处理)和提示词(可动态调整)。Agent遵循ReAct模式循环执行"推理→行动→观察",支持结构化输出、状态管理、流式输出等进阶功能。通过中间件机制可扩展监控、审计等能力,并支持自定义Agent模板和工具开发。企业应用中需关注多工具协作、错误处理和系统监控等实践要点。 (149字)
2025-11-20 10:42:16
728
原创 LangChain v1.0 技术研究报告:架构范式向智能体中间件与图运行时的演进
摘要 LangChain v1.0 是一次根本性架构变革,从线性链式转向基于图的智能体工作流。核心改进包括: 引入 LangGraph 作为运行时引擎,支持循环执行和持久化状态 通过 create_agent 统一接口简化智能体构建 采用 中间件架构 实现控制逻辑与核心推理的解耦 强化状态管理,使用严格类型模式替代松散字典 废弃提示词工程,转向结构化工具策略 迁移需注意: 旧功能移至 langchain-classic 包 要求 Python 3.10+ 需重构基于链的应用为智能体工作流 该版本标志着LLM
2025-11-19 16:34:03
877
原创 视觉与语言的深度融合:从对比学习到多模态生成范式的技术演进全景报告
多模态AI技术演进:从视觉语言对齐到智能助手 本报告系统梳理了视觉语言模型(VLMs)的技术发展路径。OpenAI CLIP通过对比学习开创了视觉-语义对齐新范式,其双编码器架构和零样本迁移能力成为行业基准。随后,ALIGN验证了数据规模的重要性,SigLIP优化了损失函数效率,而CoCa实现理解与生成的统一。BLIP系列创新性地引入MED架构和CapFilt数据清洗方案,BLIP-2则通过Q-Former实现冻结大模型的高效适配。LLaVA证明简单投影层即可连接视觉与强大LLM,开创多模态助手新方向。这些
2025-11-19 15:56:24
449
原创 大模型上下文窗口详解与 RNN/Transformer 架构比较
本文探讨了大型语言模型(LLM)中的上下文窗口概念及其技术限制。上下文窗口决定了模型处理文本的长度,直接影响模型的理解连贯性和处理能力。虽然当前技术正不断扩展上下文窗口(如GPT-4支持128K token),但由于Transformer架构的平方级计算复杂度、显存瓶颈和推理成本等问题,无限扩展仍不可行。文章对比了RNN和Transformer的机制,指出RNN的递归处理虽适合短序列但存在梯度消失问题,而Transformer凭借自注意力机制在并行计算、长程依赖处理上的优势成为大模型的主流架构。尽管面临技术
2025-11-12 16:23:57
1003
原创 从异步到自治:深入探究 verl 的 Agentic RL 框架
摘要: Verl框架通过"Agentic RL"解决了AI智能体训练的三大核心挑战:1) 工程挑战:采用异步架构分离智能体(客户端)与推理引擎(服务器),利用asyncio协程避免GPU闲置;2) 系统挑战:通过交互系统实现生产级复杂逻辑,支持多轮会话管理和工具调用;3) 算法挑战:引入增量式分词策略精准计算多轮损失,解决信用分配问题。其创新设计包括:基于Token的generate接口确保RL训练准确性、Delta-Based Tokenization对齐多轮响应损失、插件化架构支持负
2025-11-11 11:19:32
946
原创 登顶云端:一份面向开发者的 verl、Ray 与多节点 RL 终极指南
摘要:分布式智能与强化学习的架构演进 本文探讨了从单机强化学习向分布式智能架构的演进过程。随着AI模型复杂度提升,传统的单机训练已无法满足需求,催生了基于Actor-Learner架构的多节点解决方案。该架构将数据收集(Actors)与模型训练(Learner)解耦,通过分布式系统实现高效的探索-利用平衡。Ray框架作为分布式AI引擎,提供了Task、Actor和对象存储三大核心抽象,完美支持这一架构的实现。最后,文章详细介绍了在Ray环境下调试verl分布式应用的具体方法,包括推荐的VSCode扩展方案和
2025-11-10 17:11:19
732
原创 Parquet 范式:大语言模型训练数据格式优化的基础解析
摘要 Parquet格式通过列式存储架构,在大规模数据处理(尤其是LLM训练)中带来显著性能优化。相较于CSV/JSON等行式格式,Parquet通过列裁剪和谓词下推技术可减少99.8%数据扫描量,存储空间节省87%,查询速度提升34.8倍。其核心优势包括:1)混合存储结构(行组+列块)实现并行处理与I/O优化;2)两级压缩(编码+压缩)大幅减少存储体积;3)原生支持复杂嵌套数据结构。Parquet与Apache Arrow、内存映射技术共同构成现代LLM数据加载栈的基础,被Hugging Face等工具链
2025-11-10 17:05:38
982
原创 机器的自述文件:AGENTS.md 详尽技术指南
摘要: AGENTS.md 是一个开放的Markdown规范,旨在解决AI编码助手生态中的碎片化问题。它作为“机器的自述文件”,为AI助手提供项目特定的精确指令(如构建命令、测试步骤等),补充传统的人类可读文档。通过标准化命名(根目录的AGENTS.md)和简洁的Markdown格式,它降低了采用门槛,促进了跨AI工具互操作性。该文件需包含关键章节(架构、测试指令、代码风格等)并持续维护,帮助AI助手避免歧义,提升开发效率。其设计平衡了机器可读性与人类友好性,成为AI时代代码库协作的新标准。
2025-11-10 10:58:45
1933
原创 GraphRAG 技术教程:从核心概念到高级架构
文章摘要 传统检索增强生成(RAG)系统依赖语义相似性搜索,但存在关系推理不足、信息冗余等问题。GraphRAG通过知识图谱增强RAG,分为两种范式: 事实数据库流派(如蚂蚁集团):提取文本三元组构建图谱,通过子图遍历或Cypher查询实现精确推理; 洞察结构流派(如微软):利用社区检测算法(如Louvain)划分主题集群,解决全局性查询聚焦摘要问题。 GraphRAG通过结构化知识表示和多跳推理,显著提升了复杂问答的可解释性和准确性。
2025-11-07 14:07:09
1382
原创 显式推理轨迹与隐式计算:大型语言模型推理范式的底层逻辑与架构演进
本文探讨了大型语言模型(LLM)推理范式的现代分歧与演进。核心对比了显式推理(输出中间思维轨迹)与隐式推理(内部潜在计算)的差异:显式推理(如DeepSeek-R1)可解释性强但效率低,隐式推理(如GPT-o1)高效流畅但黑盒化。文章指出范式转向的三大动因:语言媒介的低效性、"忠实性谬误"问题,以及潜在空间计算的哲学跃迁。现代架构通过Planner-Executor分层设计实现隐式推理,但面临可解释性缺失、对齐风险等挑战。最后展望Agentic推理的未来方向,认为智能定义正从"
2025-11-07 09:30:00
910
原创 [特殊字符] 深入解构 Assistants API:从“黑盒”抽象到“显式”控制的架构演进与终极指南
摘要:Assistants API 提供了一个构建有状态AI代理的核心架构蓝图,通过五个关键对象实现:Assistant(配置)、Thread(会话状态)、Message(内容)、Run(执行)和Run Step(日志)。其核心创新在于状态抽象,将复杂的对话状态管理转移到服务端。Run的生命周期包含多种状态,其中requires_action是关键机制,实现AI代理与外部函数的交互。API还提供三大工具:Code Interpreter(沙盒执行)、File Search(向量搜索)和Function Ca
2025-11-07 04:00:00
705
原创 OpenAI 生产环境终极指南:从原型到规模化
AI应用生产化挑战与优化策略 摘要:将AI应用从原型推进到生产环境面临质量、速度、成本和安全的四维挑战。本指南提出统一优化框架:1) 通过迭代优化循环提升模型质量,结合提示工程和微调技术;2) 采用流式传输、预测输出等7大策略降低延迟;3) 根据服务层级选择平衡成本与性能,优先处理适用于实时应用,Flex和Batch适合非紧急任务。关键发现:提示工程既是质量工具也是成本优化手段,微调可降低99%输入token;流式传输与安全检查存在直接权衡;合理选择服务层级是最大的成本决策。生产优化的核心在于智能管理四维度
2025-11-06 15:53:18
669
原创 OpenAI Realtime API 权威技术指南:从“Hello”到生产级语音代理
摘要:OpenAI Realtime API 彻底改变了实时语音交互架构,采用端到端的语音到语音(S2S)模式替代传统链式架构。该API通过原生多模态模型直接处理音频输入和输出,保留情感和语调信息,实现更低延迟和更自然的交互。开发可通过三种方式接入:使用Agents JS SDK快速原型开发、底层WebRTC/WebSocket协议定制实现,以及SIP电话集成。核心概念RealtimeSession支持有状态交互,而临时客户端密钥机制确保了安全性。WebRTC是浏览器/移动端推荐方案,通过RTCPeerCo
2025-11-06 15:23:48
1157
原创 掌握AI推理:从“提示工程”到“推理架构”的范式转变
摘要: 本文探讨了大型语言模型(LLM)的“系统1”与“系统2”认知分流现象,指出传统的提示工程技巧(如思维链CoT)在新型推理模型(如OpenAI的o-系列)中已不再适用。GPT系列(如GPT-4o)属于快速直觉的“系统1”,适合实时交互任务;而o-系列(如o1)则是慢速审慎的“系统2”,专为复杂推理设计。对于o-系列,开发者需放弃传统CoT提示,转而采用简洁直接的指令,避免干扰模型的内部推理过程。文章还对比了经典推理技巧(如自洽性)与新范式的差异,为模型选型提供了实用指南。
2025-11-06 12:02:19
691
5.图像分类算法原理与实战.pptx
2023-10-02
4.深度学习网络模型.pptx
2023-10-02
3.深度学习算法基础.pptx
2023-10-02
2.深度学习开发框架.pptx
2023-10-02
计算机视觉-飞桨深度学习实战-学习ppt-1
2023-10-02
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅