2024 年 AI Agents 的发展现状

经过一年的发展,AI Agents 现状如何?就着 LangChain 研究报告:《State of AI Agents 2024》,跟大家聊一聊。

导读

简单来说,大家都期望使用 AI 以及 AI Agents,但是 AI Agent 的应用领域依然集中在 GEN AI 初期的擅长领域:

  • 研究

  • 总结

  • 客户

  • 个人助理

  • 代码生成等

不过,AI Agent 的应用领域也有很多新领域,包括:

  • 任务路由和协作

  • 管理多步骤任务

  • 自动执行重复性任务

  • 类人推理

但是现阶段来说,很复杂的使用还有没普及,应用都集中在特定和行业和企业内, 不具备通用型,而且对于企业和个人的要求也比较高。

下面详细看一下报告内容。

背景

到 2024 年,AI 代理不再是小众兴趣。各行各业的公司都越来越重视将代理整合到他们的工作流程中:从自动化日常任务协助数据分析编写代码

但是喧嚣表面的背后到底发生了什么?

  • AI 代理是否发挥了他们的潜力,或者他们只是另一个流行词

  • 谁在部署它们,是什么阻止了其他人一头扎进去?

报告调查了 1,300 多名专业人士(从工程师和产品经理到业务领导者和高管), 以揭示 AI 代理的现状,分解当今 AI 代理的使用方式(或未使用)。

代理到底是什么?在 LangChain,将代理定义为使用 LLM 来决定应用程序控制流的系统。就像自动驾驶汽车的自主性级别一样,也有一系列代理功能。

人们使用代理做什么?

代理现在最适合执行哪些任务?

代理现在最适合执行哪些任务?

代理的主要用例包括执行研究和总结(58%),其次是简化个人生产力或帮助的任务 (53.5%)。

这些说明了人们希望让其他人(或某物)为他们处理耗时的任务。用户无需筛选无休止的数据进行文献综述或研究分析,而是可以依靠 AI 代理从大量信息中提取关键见解。同样,AI 代理通过协助安排和组织等日常任务来提高个人生产力,让用户可以专注于重要的事情。

效率提升不仅限于个人。客户服务 (45.8%) 是用例的另一个主要领域,可帮助公司处理查询、排除故障并加快跨团队的客户响应时间。

几乎每个人都有希望使用 AI 代理

代理正在在过去的一年里,许多代理框架获得了巨大的普及。无论是使用 ReAct 结合 LLM 推理和操作、多代理编排器,还是像 LangGraph 这样更可控的框架。

并非所有关于代理的宣传和讨论都是炒作。目前,大约 51% 的受访者在生产中使用代理 , 中型公司(100 - 2000 名员工)最积极地将代理商投入生产(占 63%)。

贵公司目前有生产中的代理商?

贵公司目前有生产中的代理商?

同时 78% 的受访者积极计划尽快将代理投入生产。虽然很明显,人们对 AI 代理的需求很强烈,但实际的生产部署对许多人来说仍然是一个障碍

您目前正在开发一个代理并计划将其投入生产吗?

您目前正在开发一个代理并计划将其投入生产吗?

我们还看到公司从简单的基于聊天的实施转向更高级的框架, 这些框架强调多代理协作和更多的自主功能。

虽然众所周知,科技行业是早期采用者,但所有行业对代理商的兴趣都越来越大。在非科技公司工作的受访者中,90% 已经或计划将代理投入生产(几乎相当于科技公司的 89%)。

代理控制措施

跟踪和可观测性工具是代理控制措施的首选部分,可帮助开发人员了解代理行为和性能。

大多数公司还采用护栏来防止代理商偏离轨道。

您为代理采取了哪些控制措施?

您为代理采取了哪些控制措施?

在测试 LLM 应用程序时,离线评估(39.8%)在线评估(32.5%) 更常被提及为一种策略。这可能说明了监控实时性能的难度。在填写回复中,许多公司还让人工专家手动检查或评估回复,以增加一层预防措施。

您的代理拥有什么样的工具权限?

您的代理拥有什么样的工具权限?

尽管人们已经对AI代理感到兴奋,但大多数人在谈到我们将让代理在多大程度上摆脱束缚时采取了更保守的方法。很少有受访者允许他们的代理自由读取、写入和删除。相反,大多数团队要么允许只读工具权限,要么需要人工批准才能执行更重要的操作,例如写入或删除。

按公司规模划分的工具权限

按公司规模划分的工具权限

在代理控制方面,不同规模的公司对其优先级的权重也不同。不出所料,大型企业(2000+ 名员工)更加谨慎,严重依赖“只读”权限以避免不必要的风险。他们还倾向于将护栏与离线评估配对,以便在客户看到任何响应之前捕获预生产中的回归。

与此同时,小公司和初创公司(<100 名员工)更专注于跟踪以了解他们的代理应用程序中发生的情况(而不是其他控件)。从我们的对话来看,小公司往往只关注运输和通过查看数据来理解结果;而企业则全面实施了更多的控制措施。

按公司规模划分的代理控制

按公司规模划分的代理控制

虽然非科技和科技公司受访者的代理采用率相似,但在那些在生产中使用代理控制的受访者中,科技公司更有可能使用多种控制方法。51% 的科技受访者目前正在使用 2 种或多种控制方法,而其他行业的受访者只有 39%。这表明科技公司可能在构建可靠的代理方面走得更远,因为需要控制才能获得高质量的体验。

用于控制或护栏的方法数

用于控制或护栏的方法数

技术公司更倾向于使用更多的控制方法,这是毋庸置疑的。

让代理投入生产的障碍和挑战

保持 LLM 应用程序的高性能质量控制并不容易(从响应是否准确是否遵循正确的样式)。

性能质量是受访者最关心的问题,其重要性是成本和安全等其他因素的两倍多。

在生产环境中投入更多代理的最大限制是什么?

在生产环境中投入更多代理的最大限制是什么?

特别是对于小公司来说,性能质量远远超过其他考虑因素,45.8% 的人将其列为主要考虑因素, 而成本(第二大问题)仅为 22.4%。这一差距凸显了可靠、高质量的性能对于组织将代理从开发转移到生产有多么重要。

虽然质量仍然是企业的首要考虑因素,但对于这些必须遵守法规并更敏感地处理客户数据的大型公司来说,安全问题也普遍存在。

按公司规模划分部署代理的障碍

按公司规模划分部署代理的障碍

挑战并不止于质量。从书面回复中,许多人对构建和测试代理的最佳实践感到不确定。特别是,有两个主要障碍突出:知识时间

知识:团队经常难以掌握与代理合作所需的技术知识,包括针对特定用例实施这些技术知识。许多员工仍在学习技巧,需要提高技能以有效利用 AI 代理。• 时间:构建和部署所需的时间投入非常大,尤其是在尝试确保代理可靠运行时 - 这可能需要调试、评估、微调等。

代理成功案例

最热门的 AI 代理应用程序

最热门的 AI 代理应用程序

在我们的调查中,Cursor 成为最受关注的代理应用程序,紧随其后的是 Perplexity 和 Replit 等重量级应用程序。

  • Cursor 是一个 AI 驱动的代码编辑器,通过智能自动完成和上下文帮助帮助开发人员编写、调试和解析代码。

  • Replit 还通过设置环境、配置并让您在几分钟内构建和部署功能齐全的应用程序来加速软件开发生命周期。

  • Perplexity 是一个 AI 驱动的答案引擎,可以通过 Web 搜索和响应中的链接源来回答复杂的查询。

这些应用程序正在突破代理可以做的界限,表明 AI 代理不再是理论上的,它们正在解决当今生产环境中的实际问题。

AI 代理采用的新兴主题

调研还探讨了 AI 代理采用的新兴主题,这些主题包括:

  • 管理多步骤任务 代理更有能力进行更深入的推理和上下文管理,从而使他们能够处理更复杂的任务。

  • 自动执行重复性任务 AI 代理仍然被视为自动化管理任务的必要条件,这些任务可以让用户腾出时间来参与更具创造性的问题解决。

  • 任务路由和协作 更好的任务路由可确保正确的代理在正确的时间处理正确的问题,尤其是在多代理系统中。许多人想知道如何有效地编排任务并跨代理网络进行协作。

  • 类人推理 与传统的 LLM 不同,AI 代理可以追溯他们的决策,包括根据新信息进行时间旅行、审查和修改过去的决策。

尽管实现存在挑战,但围绕以下领域仍存在显着的声音:

  • 对开源 AI 代理的兴奋 人们对开源 AI 代理的兴趣显而易见,许多人提到了集体智能如何加速代理的创新。

  • 期待更强大的模型 许多人正在等待 AI 代理的下一次飞跃,由更大、更强大的模型提供支持,以便代理能够以更高的效率和自主性处理更复杂的任务

总结

一年了,AI Agents 越来越流行,但是似乎有没有太多变化。但最重要的是我们对 AI Agents 的研究和理解越来越深, 这也是 AI Agents 发展的基础。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

### 关于AI Agents项目的实例与教程 #### 使用AutoGen创建对话代理 对于希望构建能够处理自然语言交互的AI代理人,`agentchat.contrib.retrieve_user_proxy_agent | AutoGen` 提供了一个强大的起点[^1]。此模块允许开发者快速搭建起具备基本功能的聊天机器人原型,这些机器人可以根据预设逻辑响应用户的输入。 ```python from autogen import UserProxyAgent, AssistantAgent user_proxy = UserProxyAgent(name="User", human_input_mode="ALWAYS") assistant = AssistantAgent( name="Assistant", system_message="You are a helpful assistant.", ) conversation_history = [ {"role": "system", "content": "You will be having a conversation with an AI."}, ] while True: user_message = input("Enter your message: ") response = assistant.respond(user_message=user_message) print(f"Response from {response['author']}: {response['message']}") ``` 这段代码展示了如何利用Python中的Autogen库初始化两个代理——一个是代表最终用户的代理,另一个则是执行任务或提供帮助的服务端代理。通过这种方式,可以轻松模拟出真实的对话场景并测试不同的交流策略。 #### 利用NVIDIA TAO Toolkit加速开发流程 当涉及到更复杂的计算机视觉应用时,如图像分类、目标检测等领域内的AI代理人设计,则可借助[NVIDIA TAO Toolkit][^2]的力量。该工具包不仅提供了大量已经过良好训练的基础模型作为起点,还极大地降低了调整超参数以及优化性能所需的时间成本和技术门槛。这意味着即使是没有深厚机器学习背景的人也能高效地完成特定应用场景下的定制化工作。 例如,在医疗影像分析方面,可以选择一个适用于胸部X光片诊断肺炎状况的预训练ResNet架构,并针对本地收集的数据集做进一步精细化调优;整个过程中几乎不需要额外编写任何底层算法实现细节方面的代码。 #### 探索大型语言模型资源集合 为了深入理解当前最先进的文本理解和生成技术背后原理及其实际运用方式,访问由Wang Rongsheng整理维护的大规模语言模型(LLMs)资料库不失为明智之举[^3]。这里汇集了众多高质量的学习材料,包括但不限于: - **理论讲解**:从零开始介绍神经网络基础知识直到前沿研究进展; - **实战演练**:分享具体案例解析及配套源码片段以便读者模仿练习; - **社区互动**:鼓励参与者贡献自己的见解形成良性循环的知识共享平台。 综上所述,无论是初学者还是有一定经验的研究人员都能在此找到适合自身的切入点去探索有关智能体项目的一切可能性。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值