Letta：AI代理技术栈市场地图

最新推荐文章于 2025-04-08 12:31:07 发布

程序员笑武

最新推荐文章于 2025-04-08 12:31:07 发布

阅读量1.3k

点赞数 22

文章标签：人工智能机器学习深度学习知识图谱 AIGC

本文链接：https://blog.csdn.net/m0_59164304/article/details/143893737

版权

根据硅谷科技评论数据库（svtr.ai），在AI代理领域全球有50多家高潜初创企业获得知名机构投资（见附录），其中Letta是最近备受关注的一家AI代理框架企业。

Letta，2024年成立于美国加州伯克利，帮助人工智能模型记住用户和对话。完成1000万美元融资，投资方为Felicis的Astasia Myers、Google的Jeff Dean、Hugging Face的Clem Delangue、Runway的Cristóbal Valenzuela、Anyscale的Robert Nishihara等。本轮估值为7000万美元，累计融资1000万美元。

Letta是伯克利天空计算实验室（Sky Lab）的孵化项目，也是流行的 MemGPT 开源项目的商业实体。伯克利的 Sky 计算实验室由著名教授、Databricks 联合创始人 Ion Stoica 领导，是 RISELab 和 AMPLab 的后代，这两个实验室催生了 Anyscale、Databricks 和 SiFive 等公司，这里也诞生了许多流行的开源大语言模型（ LLM ）项目，例如Gorilla LLM 、vLLM和LLM结构化语言SGLang。

Letta联合创始人兼CEO Charles Packer，曾是Berkeley人工智能研究院（BAIR）研究生研究员，曾是加州大学伯克利分校研究人员，也曾在加州大学圣地亚哥分校担任CSE课程的辅导员和系统管理员。他还曾是华盛顿州立大学NSF REU研究员。Charles在加州大学伯克利分校获得计算机科学博士学位，并在加州大学圣地亚哥分校获得计算机科学学士学位，毕业时获得最高荣誉。

最近Latta公布2024年最新的“代理栈”（Agent Stack），将 AI 代理堆栈分为三个关键层：代理托管/服务（agent hosting/serving）、代理框架（agent frameworks）以及LLM模型和存储（LLM models & storage）。

这套代理栈来源于其过去一年多在开源AI领域的实践，以及过去7年以上在AI研究中的积累。它不仅试图更真实地反映开发者的实际需求与行为，也开发者群体提供一个实用的参考框架。

难能可贵的是，Letta推出的代理栈与一般[AI代理研究报告]不一样，并不仅仅是对现有工具的整理，更关注它们在实际应用中的价值与协作方式。

一、从大语言模型（LLMs）到LLM代理（LLM Agents）

在2022年和2023年，我们见证了LLM框架与SDK的崛起，例如LangChain（2022年10月发布）和LlamaIndex（2022年11月发布）。与此同时，也有多种“标准”平台被广泛采用，用于通过API消费LLM或进行自部署的LLM推理，例如vLLM和Ollama。

进入2024年，AI“代理”（Agents）以及更广义上的复合系统（Compound Systems）成为了行业关注的核心。这种转变令人瞩目。尽管“代理”一词在人工智能领域已有数十年的历史（尤其是在强化学习领域），但在后ChatGPT时代，它的定义变得更加宽泛。如今，“代理”通常指大语言模型（LLMs）在自主环境中执行任务，具体表现为生成动作（如工具调用）并结合工具的使用进行自动化运行。

从LLMs向代理系统的转变，意味着需要整合工具使用、自主执行和记忆管理这三大关键能力。实现这一转变的需求催生了全新的代理技术栈。这套栈不仅满足了对复杂操作的需求，也推动了AI代理生态系统的快速发展。

这种进化表明，AI技术正在从单一的语言生成能力，向更复杂、更动态、更智能的任务执行框架迈进，为开发者和用户带来了前所未有的可能性。

二、AI代理栈（Agent Stack）有和独特之处？

与基础的LLM聊天机器人相比，AI代理的开发在工程上复杂得多。原因在于代理面临以下两大核心挑战：

状态管理（state management）

需要保留消息/事件的历史记录，支持上下文的持久性。
存储长期记忆，以便在未来的任务中参考。
在代理循环中执行多次LLM调用，保持逻辑连贯性和目标驱动性。

工具执行（tool execution）

安全地执行由LLM生成的动作（如调用工具、API请求等）。
返回执行结果并将其融入到后续任务中，确保可靠性和高效性。

正因为如此，AI代理栈的结构与传统的LLM栈有着显著差异。下文是Charles Packer对当前AI代理栈的关键组成部分的逐层解析：

1、模型服务（Model Serving）

AI代理的核心是大语言模型（LLM）。为了让代理能够使用这些模型，模型需要通过推理引擎提供服务，通常是通过付费API服务运行。主流模型服务选项包括以下4大类：

1）基于封闭API的推理服务

[OpenAI]和 [Anthropic] 是目前封闭式API推理服务的领先提供商，它们提供高性能的专属前沿模型。这些服务通常适合需要高质量输出和强大支持的商业级应用。

2）开放权重模型的API服务

Together.AI、Fireworks 和 Groq 提供基于开放权重模型（例如Llama 3）的付费API服务。这些平台的优势在于结合了开放模型的灵活性和付费服务的便利性。

3）本地化模型推理服务（Local Model Inference）

对于需要在本地部署模型的用户，以下解决方案最受欢迎：

vLLM 是生产级GPU推理的领先工具，广泛应用于企业环境中。
SGLang 是一个新兴项目，吸引了类似的开发者群体，其目标是在本地推理服务中占据一席之地。

4）AI爱好者的选择（AI Enthusiasts）

在个人电脑上运行模型的用户（如Apple MacBook的M系列芯片）中，以下选项很受欢迎：

Ollama 提供了直观的用户界面和高效的推理性能。
LM Studio 则是另一个受到欢迎的工具，适合希望快速启动本地模型的用户。

2、存储（Storage）

存储是状态化代理（stateful agents）的核心构件之一，支持代理的持续状态管理，如对话历史、记忆以及用于检索增强生成（RAG）的外部数据源。对于代理来说，存储解决方案的选择直接影响其处理复杂任务的能力和效率。主流存储工具包括以下两类：

1）向量数据库

向量数据库是代理存储的核心，特别适用于存储和检索大规模嵌入数据。以下是一些常见的选择：

Chroma：专为AI应用优化，便于集成。
Weaviate：提供丰富的内置特性，如图谱查询和嵌入存储。
Pinecone：以高性能向量检索为核心，适合生产环境。
Qdrant：开源解决方案，具有强大的定制能力和易用性。
Milvus：开源项目，支持分布式存储和高性能检索。

2） PostgreSQL（传统数据库的新生）

尽管PostgreSQL是一种传统的关系型数据库，它通过pgvector扩展实现了向量搜索功能，使其在现代AI代理应用中焕发新生：

Neon：无服务器（Serverless）的PostgreSQL版本，支持动态扩展。
Supabase：集成了嵌入存储和向量搜索，适合快速构建代理应用。

3、工具库（Tools & Libraries）

AI代理与传统AI聊天机器人的主要区别之一在于代理可以调用“工具”（或称“函数”）。这种能力使代理能够执行超出文本生成范围的任务，从而显著提升其功能性和适应性。代理工具执行_不是_由LLM提供商本身完成的 - LLM仅选择要调用的工具以及要提供的参数。支持任意工具或工具中的任意参数的代理服务必须使用沙箱（例如Modal 、 E2B ）来确保安全执行。

标准化的JSON Schema

OpenAI定义了一种JSON模式，成为代理调用工具的通用接口标准。由于这一标准化，工具可以在不同框架中实现互操作性。例如，Letta代理可以调用LangChain、CrewAI或Composio提供的工具。
跨平台工具生态

这一互操作性推动了通用工具生态的形成，一些常用工具提供了特定功能：
Composio：一个通用工具库，管理授权与工具调用，广泛应用于各种场景。
Browserbase：专注于网页浏览的工具，用于爬取和解析网页内容。
Exa：提供网页搜索功能的专用工具。

4、代理框架（Agent Frameworks）

代理框架是AI代理栈的核心，负责协调LLM调用并管理代理的状态。不同框架在状态管理、上下文窗口的构建、多代理通信、记忆处理，以及对开放模型的支持等方面有各自的设计特点。代理框架包括5大核心功能：

1）状态管理

状态序列化（Serialization）

大多数框架支持将代理的状态（如对话历史、代理记忆、执行阶段）序列化为文件（JSON、字节流等），以便稍后加载。例如，Letta使用数据库（如消息表、代理状态表、记忆块表）来持久化状态，无需显式序列化。这种方法使得状态查询（如按日期查找过去消息）更加便捷。
可扩展性与灵活性

状态管理的设计直接影响代理系统的扩展能力（例如处理更长的对话历史或更多代理实例）以及状态访问和修改的灵活性。

2）上下文窗口的构建

每次调用LLM时，框架会将代理的状态“编译”进上下文窗口，包括指令、消息缓冲区等。
透明性是一个重要考虑因素：框架是否允许开发者清晰了解哪些数据被传入上下文窗口？透明的设计让开发者更容易优化代理的行为和性能。

3）多代理通信（Cross-Agent Communication）

不同框架支持多代理协作的方式各有不同：

Llama Index：通过消息队列实现代理间通信。
CrewAI 和 AutoGen：使用显式的抽象器进行多代理协作。
Letta 和 LangGraph：支持代理之间直接调用，既可以集中式（通过监督代理）也可以分布式地进行代理通信。

此外，大多数框架支持单代理和多代理的灵活转换，使跨代理协作易于实现。

4）记忆处理（Memory Management）

LLM的上下文窗口限制对记忆管理提出了要求，框架通常采用不同的技术应对：

基于RAG的记忆，CrewAI和AutoGen依赖检索增强生成（RAG）技术，通过从外部数据源检索相关信息扩展上下文。
高级记忆技术。一些框架（如phidata和Letta）还采用了更复杂的方法，如MemGPT的自编辑记忆和递归摘要。Letta 内置了一套强大的记忆管理工具，支持文本搜索、记忆存储和编辑上下文窗口等功能。

5）对开源模型的支持

挑战：开源模型需要额外的处理，比如在输出格式不符合要求时重新采样，或者通过提示词（prompt engineering）微调输出（如“请输出JSON格式”）。
并非所有框架都支持开放模型，一些框架专注于主流模型提供商的集成。

5、代理托管与服务（Agent Hosting and Serving）

目前，大多数代理框架的设计局限于Python脚本或Jupyter Notebook环境，代理在这些环境中运行，但无法超越其所在的开发上下文。然而，随着代理技术的不断发展，代理服务化（Agent-as-a-Service）的未来趋势愈发明确：将代理部署到本地或云端基础设施，通过REST API提供访问服务。

类似于OpenAI的ChatCompletion API成为LLM服务的行业标准，预计未来会出现一个统一的Agents API标准。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述