AI应用方法论
文章平均质量分 84
学习大语言模型通用方法论
FserSuN
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
AI时代的组织单元重构
摘要 STL(单线程领导)是AI时代的新型组织形态,源自亚马逊实践,强调领导者100%专注、跨职能自治、充分授权和高层深度参与。AI时代需要STL的原因在于:小团队获得端到端闭环能力,判断质量取代执行效率成为核心价值,信息透明化使决策权下沉。STL还具有人才涌现机制,通过暴露完整能力培养优秀领导者。AI时代STL进化为更注重判断力配置和人机边界定义。实践STL需判断业务适配性、选对人才并建立保障机制。个体适合STL的关键在于对不确定性的耐受、端到端负责的意愿和主动判断能力。STL代表了AI时代组织变革方向:原创 2026-05-25 02:03:50 · 277 阅读 · 0 评论 -
Artificial Analysis - 模型评测与分析平台
Artificial Analysis是全球领先的独立AI评测平台,专注于提供客观的模型基准测试服务。平台已评测474+语言模型和50+API提供商,覆盖语言、图像、视频等多模态领域。其核心Intelligence Index v4.0整合10个高难度评测基准,综合评估模型性能。特色功能包括个性化推荐、多维度对比工具和竞技场盲测模式。平台采用独立第三方评测方法,保障数据透明公正,为开发者、企业和研究人员提供权威参考。2026年品牌焕新后,持续追踪最新AI模型表现,促进AI行业良性竞争。原创 2026-04-16 01:42:38 · 880 阅读 · 0 评论 -
LLM 上下文管理完全指南——从理论到实践
将积累的上下文压缩为简洁的摘要,替换原始的冗长内容。上下文摘要最初是为了应对上下文窗口限制而诞生的。但随着上下文窗口扩大,研究者发现摘要的价值远不止于此——即使没有达到 token 上限,过长的上下文也会导致"上下文干扰"。原创 2026-04-07 00:50:03 · 439 阅读 · 0 评论 -
OpenCode中Agent开发模式
OpenCode Agents 指南摘要:本文系统介绍了 OpenCode 中的 AI 代理系统,涵盖核心概念、代理类型(主代理/子代理/系统代理)及配置方法(Markdown/JSON)。重点分析了内置代理(Build/Plan)和专业子代理(General/Explore)的特性与适用场景,详细阐述了三种典型工作流模式(规划→构建循环/多代理协作/专业任务委派)。指南还提供了代理配置深度解析(工具权限/模型选择/行为设置)、高级应用模式(代理链/并行团队/条件路由)以及性能优化建议,最后总结了代码审查、原创 2026-04-06 19:24:12 · 813 阅读 · 0 评论 -
OpenCode入门使用学习总结
OpenCode是一款开源的多提供商AI编程助手,通过四大核心架构实现灵活高效的开发体验:1)Zen模型路由器提供75+个AI模型的统一访问和透明计费;2)终端优先的TUI界面支持文件引用、Shell集成和实时成本显示;3)可定制的AI代理系统包含构建、计划等专业角色;4)OpenCode技能实现工作流自动化。相比传统工具,OpenCode提供更灵活的模型选择、按需付费模式和高度可定制性,特别适合终端开发者。典型工作流程包括计划-构建循环、多代理协作和技能自动化,支持从基础到精通的渐进式学习路径。原创 2026-04-06 17:58:19 · 679 阅读 · 0 评论 -
学习Harness Engineering 概念与实践经验
摘要: Harness Engineering 是AI Agent时代的工程范式革命,核心是"人类掌舵,智能体执行"。它通过三大支柱——上下文工程(Context Engineering)、架构约束(Architectural Constraints)和熵管理(Entropy Management)——构建系统化的约束框架,引导AI Agent自主工作。工程师角色从编码者转变为系统设计师,通过设计环境、明确意图和构建反馈回路来管理AI行为。这一范式解决了传统工程实践在AI时代面临的信任债原创 2026-03-30 20:18:24 · 666 阅读 · 0 评论 -
AI应用Agent Skills综述学习
本文综述了AI Agent Skills的发展现状与应用前景。Agent Skills是一种模块化、可复用的AI能力增强方案,通过"渐进式披露"架构实现高效能力扩展。其核心是将专业知识和流程打包为标准化技能包,包含SKILL.md元数据文件和辅助资源。该技术已被主流AI平台采纳,形成包含上万技能的生态系统,覆盖文档处理、设计开发、项目管理等领域。企业如Anthropic、Atlassian等开发了官方技能,社区也贡献了大量第三方技能。这种技术显著提升了AI代理的专业化水平和任务执行能力,原创 2026-03-14 16:15:34 · 548 阅读 · 0 评论 -
AI编程 - 规范驱动开发(SDD)学习
规范驱动开发(SDD)是2025年AI编程领域的新方法论,强调"先写规范,再写代码"。SDD分为三个层次:规范优先(Level1)、规范锚定(Level2)和规范即源码(Level3)。主流SDD工具包括AWS的Kiro(轻量级)、GitHub Spec-Kit(可定制)和Tessl Framework(激进)。Kiro使用三个Markdown文档流程,Spec-Kit采用宪法-规范-计划-任务的循环流程,Tessl则完全由AI根据规范生成代码。SDD方法通过明确的规范文档,解决了AI编原创 2026-02-25 17:10:48 · 2539 阅读 · 0 评论 -
Anthropic文章-打造高性能智能体 学习笔记
摘要: 智能体(Agent)与工作流(Workflow)是LLM应用的两类核心范式,前者动态决策,后者固定流程。构建原则遵循“极简优先”,优先优化单轮LLM调用,仅在必要时引入智能体系统(以延迟/成本换取性能)。架构分层实现:基础层为增强型LLM(检索/工具/记忆);中层为5类Workflow模式(提示链、路由、并行化等),处理可预定义任务;高层为自主智能体,应对开放式问题。工具设计需贴近模型训练数据,参数清晰,并通过沙盒测试。成功智能体的三大核心:需求适配、架构简洁、流程透明。 (150字)原创 2025-12-14 20:01:48 · 1038 阅读 · 0 评论 -
提示词工程技巧-要 “角色化”,而非 “观点化” 学习
摘要:Karpathy提出LLM本质是"模拟器"而非有自主观点的实体,建议优化提示词策略:避免模糊的"你认为"类提问,转而明确指定"特定群体/角色+视角模拟"。这种方法能激活模型中对应专业知识,获得更精准的回应。在可验证领域(如技术问题)模拟专家角色效果显著,而在主观领域模拟多群体视角更有价值。核心是解构LLM的"实体幻觉",通过角色化模拟榨取模型性能,同时让用户清晰认知回应来源。(149字)原创 2025-12-14 19:24:38 · 446 阅读 · 0 评论 -
生产级Agent落地补充工作总结
本文总结了生产级Agent落地的关键工作,分为三类:基础架构强化类(上下文管理、状态管理、分层设计)、工程化落地核心类(可复现性保障、可观测性构建、安全合规、日志调试)和运维与优化类(性能优化、容错机制、持续迭代)。通过架构分层、数据加密、异常检测等措施,确保Agent的精准性、可维护性和安全性;建立监控告警、日志回放等机制提升问题定位效率;优化上下文压缩、工具调用等方案降低延迟和成本。整套方案旨在实现Agent的高效稳定运行,满足生产环境需求。原创 2025-11-17 10:50:42 · 450 阅读 · 0 评论 -
LangMem 三种记忆类型学习总结
文章摘要: LLM智能体的记忆系统可分为三类:情景记忆(原始对话记录)、语义记忆(抽象化知识)和程序性记忆(行为模式)。这三类记忆呈现明确的衍生关系:情景记忆作为基础,语义记忆和程序性记忆从中提炼而出。情景记忆存储具体对话,语义记忆整理用户偏好和事实,程序性记忆固化任务流程。三者协同实现个性化、智能化的交互。工程实践中建议优先构建语义记忆,选择性使用情景记忆检索,并将程序性记忆融入系统架构。随着自我反思技术的发展,智能体将实现从简单存储到自主学习的进化,完成记忆系统向智能系统的关键跃迁。(150字)原创 2025-11-13 14:50:07 · 608 阅读 · 0 评论 -
Mem0 使用案例学习总结 - 记忆化应用结构
本文介绍了一个完全本地化的Mem0应用实现方案,使用Chroma作为向量数据库,Ollama提供LLM和Embedding能力。方案包含四个步骤:安装依赖、准备本地模型、编写示例代码和运行程序。配置中使用llama3.2作为LLM模型,nomic-embed-text作为嵌入模型,所有数据持久化存储在本地文件中。该方案无需外部服务,仅依赖Python环境和Ollama,实现了轻量级、可本地运行的记忆管理功能,适合开发和单机部署场景。原创 2025-10-26 22:32:28 · 1094 阅读 · 0 评论 -
Mem0:构建具有可扩展长期记忆的生产级AI代理 - 论文学习总结2
摘要:本文提出Mem0与Mem0g两种互补记忆架构,解决大语言模型长程对话中的事实一致性问题。Mem0通过增量更新稠密文本片段实现高效查询,Mem0g额外引入图记忆支持时序推理。在LOCOMO基准测试中,二者在单跳/多跳任务上精度提升5-11%,延迟降低85-92%,存储占用比商业方案减少两个数量级。实验表明,该架构通过"先压缩-再结构化"范式,在保持低延迟(Mem0 1.44s p95)的同时实现高效记忆管理,为持久智能体发展奠定基础。未来将优化图遍历、探索分层记忆机制并扩展多模态应用原创 2025-10-26 21:47:36 · 547 阅读 · 0 评论 -
Mem0:构建具有可扩展长期记忆的生产级AI代理 - 论文学习总结1
摘要: 大语言模型(LLMs)在长期对话中面临上下文窗口固定导致关键信息丢失的核心问题,表现为遗忘用户偏好、任务进度混乱及跨主题信息淹没。研究提出Mem0(动态提取关键信息)和Mem0g(基于图的增强版)两种内存架构,在LOCOMO基准测试中全面优于现有方法:单跳/多跳问题准确率提升26%,延迟降低91%,节省90%token成本。实验证明结构化内存机制能有效维护对话连贯性,为构建可靠AI助手提供新方向。原创 2025-10-25 21:21:11 · 897 阅读 · 0 评论 -
构建基于大语言模型的智能数据可视化分析工具的学习总结
本文总结了构建基于大语言模型(LLM)的智能数据可视化分析工具的关键技术与实现路径。首先介绍了Python数据分析的标准流程和核心工具(pandas、可视化库),重点阐述了LLM驱动系统的四大模块:自然语言接口、数据上下文增强、安全代码执行和交互式输出。通过对比Streamlit、Gradio、Panel等Web框架的特性,提出了从MVP到生产部署的渐进式实现方案,包括使用RAG增强、沙箱隔离和本地LLM集成等关键技术。该方案能有效实现"自然语言驱动"的数据分析,快速生成可交互的可视化洞原创 2025-10-18 21:56:31 · 1002 阅读 · 0 评论 -
GraphRAG 与 Neo4j 社区版:能力边界与适用场景学习总结
摘要: GraphRAG结合Neo4j社区版能有效构建中小规模知识图谱,适用于开发测试或内部知识库,但存在单机部署、无高可用等限制。企业级需求(如超大规模图、多租户隔离)需升级至企业版或选用分布式图数据库。社区版满足功能需求,但需根据业务规模、可用性要求选择技术栈。原创 2025-10-15 22:25:11 · 749 阅读 · 0 评论 -
智能体模式(Agent Mode)与深度研究(Deep Research)概念学习
ChatGPT的智能体模式(Agent Mode)与深度研究(Deep Research)代表了AI协作的两种范式。智能体模式专注于任务执行,通过自主拆解目标、调用工具完成自动化流程,适用于客户支持、销售运营等场景。深度研究则强调系统性分析,通过多源信息采集、逻辑验证生成结构化报告,适用于战略决策、市场分析等场景。二者可互补使用:深度研究提供洞察,智能体模式执行方案。选择时需考虑目标类型(执行/理解)、风险容忍度和任务频率。这两种模式共同推动AI从工具向智能协作者进化,提升团队效率与决策质量。原创 2025-10-05 20:48:56 · 2306 阅读 · 0 评论 -
基于LLM开发Agent应用开发问题总结
本文总结了智能体(Agent)应用开发中的六大常见问题及应对策略。核心内容包括:1)根据任务复杂度、工具数量等选择单Agent或多Agent架构;2)避免过度依赖对话交互,采用GUI与自然语言混合界面;3)避免将AI强行嵌入旧系统,应重构流程;4)根据业务场景选择合适模式,避免盲目使用高级模式;5)在信息不足时延迟意图分类;6)提供清晰准确的工具定义。文章强调架构设计需遵循"分治+高内聚低耦合"原则,并针对不同问题提供了具体解决方案,如权衡中心化与去中心化协同机制、模块化设计等。原创 2025-09-06 22:15:40 · 884 阅读 · 0 评论 -
OpenAI接口学习之finish_reason
OpenAI API响应中的finish_reason字段表示生成结束原因,主要有三种类型:stop(自然完成)、length(达到token限制)、content_filter(内容被阻止)。max_tokens参数用于限制生成的token数量,不同模型有不同上限(如GPT-4o支持16,384 tokens)。当遇到finish_reason=length时,可调整max_tokens值解决。在LangChain框架中若出现异常,可尝试使用BaseChatOpenAI替代ChatOpenAI。原创 2025-07-29 10:38:43 · 1513 阅读 · 1 评论 -
AI Agent应用方向学习总结
AI Agent领域涌现四大核心方向:1)垂直行业深度应用,如金融合规、工业质检等专用Agent开发;2)技术创新,聚焦多Agent协作、边缘计算与轻量化部署;3)新兴商业模式,包括Agent即服务(AAaaS)和超级个体赋能工具;4)生态基建,涉及协议标准、安全伦理等。未来爆发点在于具身智能、多模态融合及群体智能网络。建议优先切入高价值场景(ToB如工业维护)、体验升级(ToC如教育Agent)或参与开源生态建设,差异化竞争需依托数据资产与工程化能力。原创 2025-06-20 15:17:27 · 630 阅读 · 0 评论 -
GAIA(General AI Assistants Benchmark)
GAIA基准测试评估AI助手在真实场景中的综合能力,包含基础(单步任务)、中级(多工具协同)和高级(开放式规划)三个难度层级。测试用例强调多模态处理(文本/图像/音频)、强制工具调用(搜索/API/代码)和标准化答案设计,避免预训练记忆干扰。与传统基准相比,GAIA更关注现实任务(如医疗诊断)而非抽象推理,并支持动态难度调整。该基准包含466个结构化问题,为评估通用AI提供更贴近实际应用的测试框架。(注:摘要严格控制在150字内,提炼了原文核心要素:测试层级划分、设计原则、对比差异和数据来源)原创 2025-06-18 01:36:30 · 1441 阅读 · 0 评论 -
Prompt工程学习之思维树(TOT)
定义:思维树(Tree of Thoughts, ToT) 是一种先进的推理框架,它通过同时探索多条推理路径对思维链(Chain of Thought)** 进行了扩展。该技术将问题解决视为一个搜索过程 —— 模型生成不同的中间步骤,评估这些步骤的可行性,并探索最有希望的路径。Tree of Thoughts (ToT) 是一种大语言模型推理框架,通过树状结构探索多条推理路径,允许模型自我评估路径可行性并回溯调整,模拟人类解决复杂问题时的 “试错 - 评估 - 选择” 过程。目标:解决传统 LLMs 逐 T原创 2025-06-08 22:24:55 · 1172 阅读 · 0 评论 -
Prompt工程学习之自我一致性
文章摘要:自我一致性(Self-consistency)是一种提升大语言模型推理准确性的技术,通过生成多样化推理路径并聚合结果来解决输出的可变性问题。其核心步骤包括:1)对同一问题采用不同采样设置生成多条推理路径;2)通过多数投票选择最一致答案。该方法替代了传统的贪心解码,特别适用于复杂推理任务。案例展示了在邮件分类中的应用:通过5次不同推理的分类结果,采用多数投票确定最终分类。研究表明,自洽性技术能有效提升语言模型在复杂任务中的表现(参考arXiv:2203.11171)。原创 2025-06-08 21:19:25 · 1028 阅读 · 0 评论 -
MCP协议学习
MCP协议:大语言模型与外部工具的标准化桥梁 Anthropic公司于2024年推出MCP(Model Context Protocol),旨在统一大语言模型(如GPT-4)与外部数据源/工具的交互标准。该协议采用分层架构(Host-Client-Server)和JSON-RPC 2.0通信规范,支持多模态数据传输,涵盖三大核心交互阶段(初始化、操作、关闭)。MCP提供多种传输方式(stdio/HTTP/WebSocket)适配不同场景,并通过严格的权限控制确保安全性,同时内置请求取消、进度跟踪等实用机制。原创 2025-06-02 21:49:33 · 1330 阅读 · 0 评论 -
大语言模型减少幻觉的常见方案
大语言模型的幻觉(Hallucination)是指模型在生成文本时,输出与输入无关、不符合事实、逻辑错误或完全虚构的内容。这种现象主要源于模型基于概率生成文本的本质,其目标是生成语法合理、上下文连贯的文本,而非严格追求事实准确性。原创 2025-04-18 20:41:09 · 1489 阅读 · 0 评论 -
LLM的局限性学习
大型语言模型(LLM)在自然语言处理领域取得了显著成就,但也存在一些局限性,导致其在某些任务上表现不佳或无法完成。原创 2025-04-06 02:07:08 · 1022 阅读 · 0 评论 -
大语言模型微调的基本概念介绍
大型语言模型(LLM)微调是指在预训练模型的基础上,进一步使用较小且特定的数据集进行训练,以提升模型在特定任务或领域的能力和性能。微调的目的在于将通用模型转变为专业化模型。它弥合了通用预训练模型与具体应用独特需求之间的差距,确保语言模型更好地符合人类的期望。以OpenAI的GPT-3为例,这是一种设计用于广泛自然语言处理(NLP)任务的先进大型语言模型。假设某家医疗机构希望使用GPT-3帮助医生从文字记录中生成病人报告。原创 2025-03-02 21:07:44 · 880 阅读 · 0 评论 -
大语言模型Agent
LLM Agent是一种高级人工智能系统,专为创建需要顺序推理的复杂文本而设计。它们可以进行前瞻性思考,记住过去的对话,并根据需要的情境和风格使用不同的工具来调整其回应。考虑一个在法律领域的问题,如下所示:“在加利福尼亚,某种类型的合同违约可能产生的法律后果是什么?一个带有检索增强生成(RAG)系统的基本LLM可以轻松地从法律数据库中获取所需信息。在这种情况下,当项目需要顺序推理、规划和记忆时,LLM代理就会发挥作用。对于这个问题,代理可以将其任务分解为如下子任务。原创 2025-02-18 01:49:20 · 1152 阅读 · 0 评论
分享