Agent & Workflow & 模型 & 其他

最新推荐文章于 2025-04-02 14:55:58 发布

ApiHug

最新推荐文章于 2025-04-02 14:55:58 发布

阅读量1.2k

点赞数 26

分类专栏： ApiHug ApiSmart 文章标签： ApiSmart AI LLM DeepSeek OpenAI 大模型 Agent

本文链接：https://blog.csdn.net/AK15221736052/article/details/145323505

版权

ApiHug 同时被 2 个专栏收录

91 篇文章

订阅专栏

ApiSmart

58 篇文章

订阅专栏

最近(2025-01) 关于Agent 探讨颇多，不管是 Scaling Law 可能出现的瓶颈，还是专小垂直领域小模型"繁荣"，亦或是2B场景急于落地，总之讨论的非常多，更甚有扭曲、牵强附会的解释。

下面是年前(2025春节)最后的一次个人总结归纳，预计这个概念2025 会有更多的解释或者变体，有必要仔细梳理形成有效理解。

## 定义

此篇文章比较原汁原味解释了 Agent 概念，这里抽几个核心概念，具体阅读原文，作者blog 有不少干货(作者也很厉害角色 :-) )。

Chip Huyen《Agents》:

https://huyenchip.com//2025/01/07/agents.html

Foundation model (FM) versus reinforcement learning (RL) planners

关于Planner有意义的探讨 ; 自回归大语言模型（Auto-Regressive LLMs） 也就是现在各种LLM, 难以进行规划（planning), 这些可能的论点：

局部性：每次只预测下一个词，缺乏全局视角。
缺乏长期记忆：无法记住复杂的上下文。
无法回溯：生成错误后无法修正。
缺乏推理能力：无法进行逻辑推理或模拟未来。
无法模拟未来：无法评估不同选择的结果。

智能体是强化学习中的一个核心概念，维基百科将其定义:“关注智能体应如何在动态环境中采取行动以最大化累积奖励。” (concerned with how an intelligent agent ought to take actions in a dynamic environment in order to maximize the cumulative reward.)

RL偏重，基础模型通过prompt 更简单，这个未来会模糊。

复杂Plan 的编排就非常简单了，类Flow: 这个在很多产品工具中都已实现，如Dify,Flowise, LangFlow etc:

工具选择：

Toolformer (Schick et al., 2023) finetuned GPT-J to learn 5 tools.
Chameleon (Lu et al., 2023) uses 13 tools.
Gorilla (Patil et al., 2023) attempted to prompt agents to select the right API call among 1,645 APIs.

Gorilla 以前提到过，这里可以看到不管是何种方式和外界tool链接，最后调整都在工具集的大小，MCP(Model Context Protocol) 是个什么东东？也讨论过局限，最终不在模型本身，如果有上万个工具，或者RAG 召回数据集爆增，挑战又来了！

## 设计实现

vectorize: 《AI Agents》分四篇章讲解了agent 实现步骤。

https://vectorize.io/category/ai-agents/

Agent Architectures
Modularity
Agent to Agent Interactions
Data Retrieval and Agentic RAG
Cross-cutting concern CI/CD, TBD

工具层：系统的基础。此层与外部数据源和服务交互，包括 API、矢量数据库、操作数据、知识库和用户交互。它负责获取系统所依赖的原始信息。精心设计的工具可确保代理高效地检索相关的高质量数据。
行动层：有时也称为编排层。此层负责协调 LLM 与外界（工具）之间的交互。它在适用时处理与用户的交互。它从 LLM 接收有关下一步要采取什么行动的指令，执行该行动，然后将结果提供给推理层中的 LLM。
推理层：系统智能的核心。该层使用大型语言模型 (LLM)* 处理检索到的信息。它利用上下文、逻辑和预定义目标来确定代理下一步需要做什么。推理能力差会导致冗余查询或操作不一致等错误。

Architecture

Flow

Design Principle

RAG

## 其他（笔记）

Atom Capital：中美AI最前沿——创投新趋势、中美竞争与初创企业出海战略

结构性挑战：某些场景只有等关键技术突破之后，才可能产生落地的应用。

工程性挑战：场景已经没有关键技术障碍了，但产品和技术实现需要一段时间的成熟期，是个时间问题。

AI Agent的大量落地实践是在2B/Prosumer市场，2B领域的主要工程性障碍:

编程模式转换
传统企业软件依赖硬编码规则，如workflow和SOP，存在定制化边际效益递减问题。LLM为企业软件带来动态决策可能，但核心挑战是将人类模糊决策逻辑形式化为AI可理解机制。目前，部分AI应用仍沿用旧思路，开发者需认识到Agent是递归状态机，而非简单自动化。
业务场景理解不足
当前AI开发处于早期，开发者更关注技术实现，缺乏对业务逻辑和垂直场景数据的洞察，导致Agent落地时需用户介入。未来，开发者需转向业务场景适配，深度融入用户工作流程，实现从通用智能到场景智能的跃迁。
知识搜索是基础
AI落地需引入企业经验性知识，知识搜索是关键。例如，Cursor和Glean AI通过知识搜索实现精准落地和能力演进。高质量知识搜索将推动AI从Copilot到Agent再到AI Worker的演进。
自学习能力
智能的核心在于学习能力。AI系统需实现从知识检索到决策、执行再到新知识积累的闭环。缺乏学习能力，AI Agent和AI Worker难以落地。预计1-2年内，具备自学习能力的系统将普及。

Copilot->Agent->AI Worker持续演进;知识搜索会成为AI企业应用的基础，无论代码 Cursor, 还是 Glean AI，或是Perplexity。

随着AI可以编程，现有软件行业的壁垒和定制化魔咒正在被打破。

软件行业的壁垒。传统软件开发是高智商蛮力的积累，同时建立了用户粘性，让迁移成本很高。
定制化魔咒。中国企业软件都面临着这个问题。客户要求功能定制化，而定制意味着系统更加复杂，人工投入更大，边际效益递减。

软件开发需求尚未被满足，难度降低两个量级后，爆发更多需求，但是需要更优秀的产品，新商业模式，分销渠道。

实际落地AI Agent的主要挑战集中在以下三方面：

行业认知与流程重塑：需深入理解行业逻辑、流程及数据，才能有效利用AI Agent重塑流程，发挥其价值。
效果稳定性与响应时间：
1. 效果稳定性：通过工作流提升AI Agent的稳定性和可控性。
2. 响应时间：确保首次响应时间（TTFT-Time to First Token）在合理范围内，避免影响用户体验。
充分发挥大模型能力：理解大模型的优势与不足，优化Prompt等策略，挖掘其潜力，规避潜在问题。

智能体的本质是工具生态的编排：工作流vs全自动

智能体是agent的意译，根本特征是基于意图采取行为的能动性（agency），更精准的翻译可能是agentic system。根据能动性来源可区分两类智能体：