将每一个应用成为AI智能体_应用和智能体之间的关系-CSDN博客

本文链接：https://blog.csdn.net/m0_59614665/article/details/143492455

简要说明

这项研究强调了AI智能体组件的延迟和瓶颈，再加上语言模型的推理延迟。此外，还考虑了在解释屏幕和管理顺序UI交互时引入的错误。

论文认为，AI智能体与计算机交互的最佳方式不一定是以GUI（图形用户界面）的形式，而是通过API（应用程序编程接口）。在这种方式下，AI智能体基于API创建单独的工具。

通过减少不必要的多步骤UI交互，并通过API调用简化任务完成，认知负荷和学习努力的挑战得到了缓解。

引言

当用户导航图形界面（GUI）时，他们通常会开发出独特的路径来实现他们的目标。

这种自我导向的发现导致了熟悉且反复使用的路径，尽管这些路径并不总是最优化的，可能会导致低效或错误。

虽然AI智能体通过逐步自动化提供了解决方案，但它们仍然需要多次交互才能完成任务。

低延迟和高可靠性的API优先的LLM（大规模语言模型）AI智能体

AXIS通过简化过程解决了这一问题，使得在单一API调用中即可完成任务，从而最大化效率并减少错误的可能性。

在这里插入图片描述

多模态模型

多模态大型语言模型（MLLM）通过使智能体能够直接与应用程序用户界面（UI）交互，彻底改变了基于大型语言模型（LLM）的智能体。

这种能力将模型的作用范围从基于文本的响应扩展到在UI中直观理解并响应，从而在复杂任务中显著提升了性能。

现在，LLM能够解释并回应应用程序中的图像、按钮和文本输入，使其在实时工作流中的导航和用户辅助方面更加得心应手。

这种交互优化了智能体处理动态和多步骤流程的能力，这些流程需要同时具备视觉和上下文感知，提供了在客服支持、数据管理和任务自动化等行业的更强大解决方案。

AI智能体通常由于广泛的顺序UI交互而面临高延迟和低可靠性的问题。

AXIS：智能体探索API技能集成

传统方法

传统的AI智能体通常以人类的方式与图形用户界面（GUI）进行交互，解释屏幕布局、元素和序列，就像人一样。

这些基于LLM的智能体，通常通过视觉语言模型进行微调，旨在实现移动和桌面任务中的高效导航。

然而，AXIS 提出了新的视角：虽然基于UI的人类交互使这些智能体变得多才多艺，但对于涉及UI中众多重复步骤的任务而言，这种交互可能会非常耗时。

这种复杂性源于传统UI本质上是为人机交互（HCI）设计的，而不是针对代理自动化。

AXIS 建议利用应用程序API而不是直接与GUI交互，可以提供更高效的解决方案。

例如，传统的UI智能体可能通过单独导航每个标题的UI步骤来更改多个文档标题，而API则可以通过一次调用同时处理所有标题，大大简化了过程。

AXIS 不仅旨在减少冗余交互并简化复杂任务，还旨在为LLM时代的新UI设计建立新的原则。这种途径倡导重新思考应用程序设计，以优先考虑AI智能体与应用程序功能之间的无缝集成，从而实现更加直接、由API驱动的方法，这有利于用户和智能体的工作流程。

探索工作流

在此模式下，AI智能体自主地与应用程序界面进行交互，以探索不同的功能和可以执行的操作。

智能体记录这些交互，收集有关用户界面的不同部分如何对不同操作做出反应的数据。

这种探索有助于智能体勾勒出应用程序的功能，基本上是“学习”应用程序内的可能性。

在这里插入图片描述

跟随工作流模式

与此相反，这种模式涉及AI智能体按照预定义的任务或指令进行跟随。

在此模式下，智能体观察并记录为达成特定结果而采取的具体行动，从而能够“通过示例学习”。

在此过程中收集的数据有助于智能体理解逐步的工作流程，使其能够在类似未来的场景中准确地复制任务。

异常情况

在某些情况下，将图形用户界面（GUI）直接转换为应用程序编程接口（API）具有挑战性或不切实际。

以下是这种情况可能发生的一些主要原因：

复杂的UI逻辑：一些GUI具有复杂的条件逻辑，这取决于特定的用户交互或操作序列。例如，填写具有依赖字段的多步表单可能很难直接转换为单一的API调用，因为每次交互都会影响下一步。

动态数据或个性化内容：在许多应用程序中，UI中显示的内容会根据用户的活动动态生成或个性化，例如推荐引擎或基于最近活动更新的仪表板。API可能需要一个复杂参数集才能轻松捕获这些变化，这使得直接映射变得不切实际。

有限或专有的数据访问：GUI中的某些功能可能无法通过API访问，这可能是因为应用程序提供商出于安全原因没有公开这些功能，或者这些功能依赖于专有的交互。在这种情况下，智能体需要直接与GUI进行交互。

实时反馈和更新：交互元素，如滑块、拖放功能或实时可视化，通常需要高程度的用户交互。将这些交互转换为API调用可能具有挑战性，因为API通常在静态、请求-响应模型下运行。

UI中的高级抽象：有时，UI表示一个结合了多个后端操作的高级任务。虽然与GUI交互的智能体可以“看到”并响应这个任务作为一个单元，但将其复制为API将需要创建一个新的、集中的API端点来处理所有底层过程——这可能并不总是可行的。

研究表明，在这些情况下，AI智能体需要灵活地处理GUI和API交互，以有效地完成任务。这种双重能力使智能体能够在可能的情况下在API之间无缝切换，在必要时处理GUI，从而提高不同类型应用程序的任务效率和覆盖率。

最后分享

AI大模型作为人工智能领域的重要技术突破，正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口，掌握AI大模型的知识和技能将变得越来越重要。

学习AI大模型是一个系统的过程，需要从基础开始，逐步深入到更高级的技术。

这里给大家精心整理了一份全面的AI大模型学习资源，包括：AI大模型全套学习路线图（从入门到实战）、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等，资料免费分享！

1. 成长路线图&学习规划

要学习一门新的技术，作为新手一定要先学习成长路线图，方向不对，努力白费。

这里，我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。
在这里插入图片描述

2. 大模型经典PDF书籍

书籍和学习文档资料是学习大模型过程中必不可少的，我们精选了一系列深入探讨大模型技术的书籍和学习文档，它们由领域内的顶尖专家撰写，内容全面、深入、详尽，为你学习大模型提供坚实的理论基础。（书籍含电子版PDF）

在这里插入图片描述

3. 大模型视频教程

对于很多自学或者没有基础的同学来说，书籍这些纯文字类的学习教材会觉得比较晦涩难以理解，因此，我们提供了丰富的大模型视频教程，以动态、形象的方式展示技术概念，帮助你更快、更轻松地掌握核心知识。

在这里插入图片描述

4. 2024行业报告

行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估，以了解哪些行业更适合引入大模型的技术和应用，以及在哪些方面可以发挥大模型的优势。

在这里插入图片描述

5. 大模型项目实战

学以致用 ，当你的理论知识积累到一定程度，就需要通过项目实战，在实际操作中检验和巩固你所学到的知识，同时为你找工作和职业发展打下坚实的基础。

在这里插入图片描述

6. 大模型面试题

面试不仅是技术的较量，更需要充分的准备。

在你已经掌握了大模型技术之后，就需要开始准备面试，我们将提供精心整理的大模型面试题库，涵盖当前面试中可能遇到的各种技术问题，让你在面试中游刃有余。

在这里插入图片描述

全套的AI大模型学习资源已经整理打包，有需要的小伙伴可以微信扫描下方CSDN官方认证二维码，免费领取【保证100%免费】