AI agent是什么？

新加坡内哥谈技术

已于 2024-07-14 12:24:25 修改

阅读量207

点赞数 15

文章标签：人工智能健康医疗语言模型计算机视觉自然语言处理

于 2024-07-14 00:01:10 首次发布

本文链接：https://blog.csdn.net/2301_79342058/article/details/140408958

版权

每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/

当ChatGPT首次推出时，AI领域的人们都在谈论新一代的AI助手。然而，过去一年里，这种兴奋已经转向了一个新目标：AI代理。

Google在五月的年度I/O大会上，重磅推出了名为Astra的新AI代理，用户可以通过音频和视频与其互动。OpenAI的新GPT-4o模型也被称为AI代理。

这不仅仅是炒作，尽管确实有一些夸大其词。科技公司正在投入巨资开发AI代理，他们的研究努力可能会带来我们梦寐以求的实用AI。包括Sam Altman在内的许多专家都认为它们是下一个大事件。

那么，AI代理究竟是什么？我们如何使用它们？

目前，对AI代理的研究还处于初期阶段，尚无明确的定义。但简单来说，它们是能够在动态环境中自主做出决策的AI模型和算法。Nvidia公司的高级研究科学家Jim Fan领导着该公司的AI代理项目，他表示，AI代理的宏大愿景是一个能够执行大量任务的系统，就像一个人类助手一样。未来，它可以帮助你预订假期，还会记得你喜欢豪华酒店，只推荐四星级或以上的酒店，并在你选择后直接预订。它还会根据你的日程推荐最合适的航班，并根据你的偏好规划行程，甚至会根据天气预报列出要带的物品清单。它可能还会把你的行程发送给住在目的地的朋友，并邀请他们一同前往。在工作场所，它可以分析你的待办事项并执行任务，比如发送日历邀请、备忘录或电子邮件。

一个理想的代理应该是多模态的，能够处理语言、音频和视频。例如，在Google的Astra演示中，用户可以用智能手机摄像头对准物体并提问，代理可以对文本、音频和视频输入做出回应。

这些代理还可以简化企业和公共组织的流程。伦敦大学学院人工智能中心主任David Barber表示，AI代理可能成为更复杂的客户服务机器人。当前一代基于语言模型的助手只能生成句子中的下一个可能单词，而AI代理则可以自主执行自然语言命令，处理客户服务任务。例如，代理可以分析客户投诉邮件，然后检查客户的参考号码，访问客户关系管理和交付系统等数据库，确定投诉是否合理，并按照公司的政策处理。

总体来说，AI代理大致分为两类：软件代理和具身代理。软件代理运行在计算机或手机上，使用应用程序，比如前面提到的旅行代理。具身代理则位于3D世界中，如视频游戏或机器人。这类代理可以通过让人们与AI控制的非玩家角色互动，使视频游戏更具吸引力。这些代理还可以帮助构建更有用的机器人，协助我们完成日常家务，如折叠衣物和烹饪。

Fan曾参与开发了一个名为MineDojo的具身AI代理，该代理在热门游戏《我的世界》中，通过从互联网上收集的大量数据，学习了新技能和任务，能够自由探索虚拟3D世界，完成复杂任务。视频游戏是现实世界的良好代理，因为它们要求代理理解物理、推理和常识。

普林斯顿大学的研究人员在一篇尚未经过同行评审的新论文中指出，AI代理通常具有三个特征。如果AI系统能够在复杂环境中不经指示地追求困难目标，它们被认为是“有代理性”的。如果它们能够用自然语言接受指令并自主行动，则也符合标准。最后，如果系统能够使用工具（如网络搜索或编程）或能够规划，则也可以称为代理。

AI代理是新事物吗？

华盛顿大学计算机科学教授Chirag Shah表示，术语“AI代理”已经存在多年，不同时间有不同的含义。Fan说，有两波代理浪潮。目前的浪潮得益于语言模型的兴起和ChatGPT等系统的发展。前一波浪潮是在2016年，当时Google DeepMind推出了AlphaGo，一个能够玩并赢得围棋比赛的AI系统。AlphaGo能够做出决策并制定策略，这依赖于强化学习，一种奖励AI算法理想行为的技术。

但这些代理并不通用，Google DeepMind的研究副总裁Oriol Vinyals表示。它们是为非常具体的任务创建的，例如下围棋。新一代基于基础模型的AI使代理更为普遍，因为它们可以从人类互动的世界中学习。

这些限制是什么？

还有许多未解的问题需要回答。AI初创公司Imbue的CEO兼创始人Kanjun Qiu认为，代理的现状类似于十多年前的自动驾驶汽车。它们能做一些事情，但还不可靠，仍然不是真正的自主。例如，编程代理能生成代码，但有时会出错，而且不知道如何测试其生成的代码。因此，人类仍需要积极参与。AI系统还无法完全推理，而这在复杂且模糊的人类世界中是至关重要的。

“我们还远未拥有能够自动化所有这些杂务的代理，”Fan说。当前系统“会产生幻觉，有时也不遵循指示，这让人烦恼。”

另一个限制是，AI代理在一段时间后会失去对所做事情的跟踪。AI系统受限于其上下文窗口，即它们在任何给定时间能够考虑的数据量。

为了应对这一问题，Google增加了其模型处理数据的能力，使用户能够与它们进行更长时间的互动，记住更多关于过去互动的内容。该公司表示，正在努力使其上下文窗口在未来变得无限。

对于机器人等具身代理，还有更多限制。没有足够的训练数据来教它们，研究人员才刚刚开始利用基础模型在机器人领域的潜力。

在所有的炒作和兴奋中，需要记住的是，对AI代理的研究仍处于非常早期的阶段，可能需要多年时间才能体验到它们的全部潜力。

那听起来很酷，现在可以尝试AI代理吗？

可以试试。你很可能已经尝试过它们的早期原型，比如OpenAI的ChatGPT和GPT-4。Qiu说，“如果你在使用感觉智能的软件，那就算是一种代理。”

目前，我们拥有的最佳代理是具有非常狭窄和特定用例的系统，如编程助手、客户服务机器人或类似于Zapier的工作流程自动化软件。但这些与能够执行复杂任务的通用AI代理相去甚远。

“如今，我们有了这些功能强大的计算机，但我们仍需微观管理它们，”Qiu说。

OpenAI的ChatGPT插件，允许人们为网络浏览器创建AI助手，这是对代理的一种尝试。但这些系统仍然笨拙、不可靠，且缺乏推理能力。

尽管如此，这些系统有一天将改变我们与技术的互动方式。Qiu认为，这是一种需要关注的趋势。

“这不是‘天哪，我们突然有了通用人工智能’……而是‘天哪，我的计算机能做的事情比五年前多得多’，”她说。

新加坡内哥谈技术

关注

15
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
AI agent是什么？

每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/当ChatGPT首次推出时，AI领域的人们都在谈论新一代的AI助手。然而，过去一年里，这种兴奋已经转向了一个新目标：AI代理。
复制链接

扫一扫