揭秘AI智能体:常见问题解答(FAQ)

人工智能智能体(Agents)是否是技术进化中的重大飞跃,还是仅仅是生成式人工智能炒作周期中的最新流行词?在一个被人工智能承诺所吸引的世界里,诸如“智能体”、“助手”和“副驾”这样的术语变得无处不在,引发了人们的兴奋与怀疑。我们是否正站在一个新时代的门槛上,在这个时代里,智能体会从根本上重塑行业和工作流程,还是我们只是见证着另一个注定会随新的热点而消退的短暂迷恋?

这篇博客深入探讨了人工智能智能体现象的核心,我们将面对塑造围绕这项技术对话的几个关键问题,包括:

  • 什么是人工智能智能体?

  • 有哪些不同类型的人工智能智能体?

  • 大型语言模型(LLM)的应用领域(聊天机器人、助手、副驾和智能体)是什么?

  • 如何构建人工智能智能体(生命周期)?

  • 人工智能智能体堆栈的组件有哪些(架构)?

  • 什么是人工智能智能体框架?

  • 我们已经学到了哪些经验(以及应该避免哪些陷阱)?

未来的文章还将探讨许多其他问题。其中包括最常见的几个问题:

  • 现在是否是投资于智能型人工智能的最佳时机?

  • 我们现有的投资(包括技能)有多少可以利用?

  • 谁已成功实施了人工智能智能体?

  • LLM推理能力的提升将如何影响2025年的智能型应用场景?

  • 应如何开始?

尽管人工智能智能体的概念仍处于初步阶段,但组织必须现在就开始奠定基础,以保持领先地位。这篇博客旨在揭开这一新兴领域背后的基本概念,提供清晰的方向。

1. 什么是人工智能智能体?

在最根本的层面上,智能体是一种旨在为人类和组织自动化任务和操作的程序。可以将其视为一种专门的数字孪生体——只不过更智能。其关键的创新在于利用基础模型使自动化既具备上下文感知能力又具备自主性。

虽然自动化本身并不新鲜,但机器人流程自动化(RPA)在过去几十年中已经提升了生产力,但人工智能智能体超越了僵化的基于规则的系统。它们处理需要高水平思考、推理和问题解决的认知任务,受到生成式人工智能的驱动。这使它们能够处理诸如文档、视频、图像和音频等非结构化数据。

例如,客服人工智能智能体可以分析传入的通话录音以了解其内容和背景。基于这种理解,智能体可以采取适当的行动,如解决用户问题、将问题转给合适的团队,或提供即时反馈。这不仅减少了手动工作量,还通过提供及时且准确的响应提高了客户满意度。

人工智能智能体的工作原理

智能体通过一个多步骤过程来工作,如图1所示。

  • 感知

    :智能体感知并解释其环境以确定期望的结果。例如,智能体可能会检测到来自潜在客户的请求信息或安排演示的新邮件。在此场景中,“环境”是邮件客户端,比如Microsoft Outlook,智能体可以充当销售开发代表(SDR)的数字孪生体。这使智能体能够智能地处理和响应,复制SDR在自动化关键任务和简化工作流程中的角色。

  • 推理

    :在这一阶段,智能体解释期望的目标。然后将其分解为实现该目标所需的细化任务。这一过程由大型语言模型(LLM)驱动,如OpenAI的O1,具有先进的推理能力。LLM使用链式思维推理、原因和行动(ReAct)以及少量学习等技术,系统地将目标分解为可执行的子任务。这一结构化方法使智能体能够有效地应对复杂的任务。

  • 计划

    :智能体制定执行任务和启动必要行动的战略。例如,被指派重新安排潜在客户会议的销售开发代表(SDR)智能体可能会创建一个“多步骤”计划:更新会议时间,发送确认重新安排的会议的电子邮件,并通知团队有关更改。对于每个子任务,智能体确定实现目标最有效的方法,确保精确性和与整体目标的一致性。

  • 行动

    :最后,智能体通过无缝连接到适当的记录系统来编排工作流程。通过检索增强生成(RAG)和函数调用集成等范式,确保在执行子任务时的安全性和合规性。它们利用短期记忆进行活跃会话,并利用外部应用进行长期记忆,如从数据库管理系统中检索客户偏好或购买历史。这种集成使智能体能够提供上下文感知、个性化和高效的成果。

  • 智能体模拟现实生活中的工作流程,并适用于多个行业,从预订航班到处理银行交易。它们可以无缝地与现有系统交互,并在必要时将问题升级到人类干预。未来,每个人可能都会拥有一个根据其独特需求定制的个人人工智能助手或智能体。这些助手可以帮助学生完成作业或备考,并充当代办旅行规划者。这样的智能体旨在通过在各种角色和活动中提供智能、个性化的支持来增强日常生活。未来的ERP可能涉及人工智能智能体,它们可能扰乱传统的单一系统。

尽管存在一些怀疑,但人工智能智能体正迅速获得牵引力。LangChain对1300名受访者的《人工智能智能体状态》调查显示,超过50%的公司已经在生产中使用了智能体,而接近80%的公司正在开发它们。

关键在于细节,因此一个显而易见的问题是:如何构建或部署这些智能体?在回答这个问题之前,我们需要进一步理解,智能体有多种形式。

2. 人工智能智能体的类型

在2024年11月的微软Ignite大会上,微软展示了其产品组合中的人工智能智能体集成,包括SharePoint、Teams和Microsoft 365。这些智能体抽象了底层模型的复杂性,使它们像创建PowerPoint演示文稿一样直观。微软将智能体分为四种类型:个人、组织、业务流程和跨组织。

图2提供了一个2x2矩阵,根据功能和范围边界的不同类型智能体提供了另一种视角。这种方法有助于澄清智能体在角色和处理任务范围上的不同,从具有狭窄范围的专门智能体到能够管理更广泛活动的多功能智能体。

  • 任务:专注于单一、明确界定的任务。适当的范围确保了确定性的输出和可重复性。它们的目标是通过处理耗时的任务来提高个人生产力。也称为“狭窄智能体”,因为它们在指定领域内表现出色,但缺乏将其知识或技能推广到其他无关任务的能力。

    实例:旅行预订助手、研究和总结副驾。

  • 过程:设计用于管理特定领域的端到端工作流程,如供应链、客户服务、医疗诊断、金融或零售。这类智能体也称为领域特定智能体。

    图2中的示例展示了一个欺诈检测智能体,它执行一系列任务,包括检测异常、进行根本原因分析、解决该问题、触发警报和发送通知。该智能体无缝地串联多个功能,展示了它在欺诈检测过程中自主处理复杂工作流程的能力,确保及时的响应和彻底的行动。

    实例:药物发现智能体、推荐引擎、客户细分工具。

  • 角色:针对特定角色的功能支持,如数据工程师、DevOps专业人员或项目经理。它们可以协助代码生成或帮助解决数据转换和质量问题。

    角色智能体也可以是广泛的或狭窄的,取决于其范围。

    实例:SDR智能体、客户成功副驾、供应链助手、财务顾问智能体。

根据各种因素,可以有多种方式来分类不同类型的智能体:

  • 学习方法:基于当前输入的反射型代理、目标导向型代理朝着特定目标工作,基于效用的代理以最大价值为目标优化,基于模型的代理使用内部模型来做出决策,而学习型代理通过经验提高性能。

  • 环境互动:反射型代理仅响应当前输入,时间型考虑行为随时间展开的方式,事件型独立处理每个事件,顺序型考虑过去的经验和未来的行动。

  • 架构:基于神经网络、基于规则、基于逻辑、基于概率。

  • 自主级别:受控于人类的监督型代理,部分自主型代理需要某种程度的人类监督,而完全自主型代理独立操作。

理解不同类型的智能体至关重要,因为它使组织和开发人员能够将智能体的目的与最合适的底层模型、工具和基础设施对齐。这种对齐可以显著影响智能体的成功和成本效率。此外,识别必要的特征——如推理能力、适应性或实时响应性——确保每种类型的智能体都能优化以满足其特定的功能和性能需求。

  1. LLM应用生态系统
    本节旨在澄清当今常用的术语,如聊天机器人、助手和副驾等,这些术语经常被互换使用。

LLM应用的分类反映了任务的性质、复杂程度以及任务自动化的水平。

检索增强生成(RAG)
RAG系统结合了LLM的生成能力与外部知识源,以产生更准确和上下文相关的输出。这些系统对于构建AI驱动的搜索引擎、知识库查询系统和文档摘要工具至关重要。

聊天机器人
聊天机器人本质上是围绕LLM的完成API的封装。它们帮助完成诸如编写代码、总结文档和预测下一个单词等任务,这些任务都是基于大量数据训练的。

这些LLM应用程序通过提供建议、回答问题或指导流程来实时协助用户。

副驾和助手
这些系统提供了更高级的集成能力,包括“操作”和工具。例如,它们通常与平台(如IDE、客户服务界面和个人生产力工具)集成。除了满足AI聊天机器人的基本要求外,这些助手还提供了更无缝的工具集成,在这种集成中,LLM推理可以触发特定的操作。它们通常与用户合作,帮助更高效地完成任务。

示例包括代码助手、客户服务机器人和个人助理,如AI驱动的日历管理器。

人机协作的半自主智能体
这些应用包括LLM在一定程度上自主操作但仍需要人类监督或干预的情况。人机协作方面对于确保准确性、安全性和伦理考虑至关重要,尤其是在敏感或高风险环境中。

示例包括内容审核系统、医疗决策支持系统和AI驱动的项目管理工具,其中对于关键决策需要人类批准。

自主智能体
这一类别包括能够独立运作且最少或无需人类干预的LLM应用程序。这些智能体可以基于其编程和处理的数据执行任务、做出决策并执行操作。自主智能体能够适应动态环境并从交互中学习。

示例包括自动驾驶汽车AI、自动化事件响应代理、AI电话机器人和AI数据分析代理。

现在我们已经探讨了智能体和其他LLM应用生态系统的应用,是时候改变方向,开始深入研究构建和部署智能体了。

  1. 智能体开发生命周期(ADLC)
    当SaaS首次出现时,它被幽默地称为“只在MySQL周围加上用户体验和工作流程的封装”。从那时起,SaaS行业爆炸性增长,拥有超过17,000家公司,其中超过300家达到独角兽地位。类似地,利用基础模型的初创企业最初只是最基本的LLM封装,但迅速发展成更复杂的解决方案。这种增长催化了繁荣的AI智能体生态系统,预示着技术景观可能的转变。

随着价值从LLM转移到其之上的层,像微软和Salesforce这样的主要参与者报告了利用其平台构建和部署AI智能体的组织数量显著增加。图3展示了利用这些智能体的力量的结构化方法。

让我们更仔细地看看每个步骤。

用例规划
划定智能体的范围、优先级和分类是开发与业务目标一致、运行成本效益高、可提供可衡量价值的生成式AI解决方案的关键初步步骤。示例包括增强客户服务、通过自动化重复任务提高开发者生产力或改进决策过程。

除了业务需求之外,还必须识别非功能性需求,如可扩展性、性能、伦理和偏见考虑、安全性和访问控制、可靠性、可调试性和可观测性。

一种实用策略是缩小AI智能体的范围以减少复杂性的同时保持自主性。从小处着手,将复杂的过程分解为明确界定、精细的子任务,确保对每个子任务的高度信心。

智能体系统的架构设计
LLM兼具语言处理器和智能层的功能。例如,LLM可以解释指令以有效地编写代码。但在代理架构中,其能力更进一步:同一个LLM可以生成单元测试用例、批判性地反思结果并根据反馈迭代地优化原始代码。

这些随机模型在如理解、提取和总结等多种语言任务中表现出色。然而,它们可能在需要推理、数学、规划或一致性等更复杂任务中挣扎,使它们在这些领域变得不可靠和非确定性。

尽管代理系统在利用自然语言方面比传统软件系统更灵活、更具创意,但它们仍然借鉴了软件工程和机器学习的关键设计原则。例如,代理系统通常结合数据库配对REST/API接口,以支持Web、移动或原生平台上的终端用户应用。它们还利用ML原则,如模型微调、超参数调整和参数优化,确保代理针对特定用例和场景进行定制。

图4提供了对代理系统设计过程的更深入的视图。

如图所示,代理结合了软件工程中的关键原则,如错误处理和可靠性,以及机器学习中的优化技术。除了这些基础元素之外,代理系统引入了额外的层,使代理能够实现自主性、规划、记忆以及感知和与外部环境交互的能力。这些附加功能使代理能够更动态、更高效地行动,使它们适应各种现实世界场景。

代理评估与测试
评估模型一直是AI开发中的关键任务,导致创建了若干开源基准,如MMLU、GPQA和MATH。然而,当涉及到代理评估时,过程变得更加复杂。必须测试代理以确保可靠和安全地实现预期结果。但与典型基准不同,代理评估中的任务或问题边界通常高度特定于代理域,使得开发通用评估方法变得困难。标准评估可能无法捕捉到代理可能遇到的真实世界任务或未预见的场景。

此外,代理操作的环境是动态且难以精确重现的。这进一步复杂化了代理评估的任务。评估代理推理和规划能力至关重要,尤其是对于管理复杂、多步骤过程的代理。传统的测试方法需要适应代理输出的随机性和概率性。

尽管传统软件测试倾向于关注定量指标,但代理评估需要定量和定性方法的结合,以全面评估其性能。图5概述了集成这些原则的代理评估框架。

让我们详细看看每个功能。

测试用例开发
首先为代理评估建立标准化环境。例如,评估数据分析师代理时,确保能够访问相关数据库、SQL查询引擎以及报告或仪表板。明确定义您特定代理用例的能力并确定对用户和业务都重要的关键绩效指标(KPI)。

接下来,识别代理将执行的相关任务和子任务,允许您创建覆盖这些各个组件的评估分布。定义一组测试以评估代理的多步骤推理能力。这些测试应包括引入不确定性的场景,让您可以评估代理在这些条件下的表现。

对于每个这些测试,将代理的表现与人类基线进行比较,评估其处理复杂推理任务的能力。最后,根据这些测试定义KPI,以量化的评估代理的推理和决策能力。

评估标准
在成功将代理部署到生产环境中,正确地在功能性和非功能性需求之间分配测试案例是至关重要的。必须评估代理在广泛的领域内。例如,评估工具使用效率、模型特定的结果和多轮输出。此外,应包含评估代理处理偏见、安全措施和保护措施的测试。您还应测试代理处理多个并行请求和异步响应的能力。建立详细的性能指标,包括响应时间、任务完成率和决策准确性。

评估代理(例如数据分析师代理)的定量评估可能涉及比较手动运行的类似SQL查询与代理运行的结果。这些评估相对简单。然而,对于更复杂的任务——例如,当研究代理总结学术论文时——定性评估变得必要。在这种情况下,必须评估生成文本的准确性、完整性和深度。

LLM/代理输出的定性评估导致了各种评分策略的开发。这些可以大致分为通过/失败评估(准确性)、文本属性评分(情感、相似度、礼貌)、可读性评估(例如ARI评分)、摘要(例如ROUGE)和相关性评分(例如答案相关性、忠实度)。

由于人类定性评估可能成本高昂且耗时,通常会采用替代方法。一种常见的方法是利用另一个LLM或模型进行评估,有效地使用“LLM作为裁判”来评估输出,使评估过程更具可扩展性。

测试结果报告
创建标准化的报告和分析框架,以跨多个代理评估运行跟踪KPI。虽然测试结果可能总结为通过或失败,但还应为每个单独任务提供详细见解。这包括分配特定任务的分数,并为特定分数提供清晰的解释。这确保了透明度,并有助于理解代理的优势和改进领域,促进更明智的决策。

测试执行
定性指标和其他LLM的使用并不总是万无一失的。虽然测试结果可能报告为通过或失败,但必须经历关键的人类评估阶段。一个LLM对测试结果评分高低是一个有用的输入,但不应成为最终结果的决定因素。人类评估对于认证测试结果和确保代理性能的可靠性仍然至关重要。

评估框架应根据生产中的见解持续改进。重要的是确保测试案例代表实际部署场景。随着新挑战或机会的出现,更新并增加在规划阶段未最初考虑的测试案例。这种持续的适应将有助于保持测试过程的相关性和稳健性。

代理部署
代理部署结合了经典LLM模型部署的最佳实践,以及软件应用程序和数据工程管道。与这些领域一样,代理部署没有一刀切的方法。常见的做法包括使用容器和CI/CD(持续集成/持续部署)设置来简化更新和管理。

代理可能使用对象存储作为持久层来存储各种形式的知识、长期记忆和向量数据库。或者,代理可以直接部署在数据库中,例如作为使用Snowflake的Snowpark容器服务的原生应用程序。这种方法允许代理在运行时从数据库的内置访问控制、动态伸缩和负载均衡功能中获益,确保高效和安全的操作。

代理监控和可观测性
没有适当的监督,AI代理可能会变得不可预测、低效,甚至对组织流程有害。需要实施稳健的检查点来减轻风险,保持内部政策合规,并确保道德AI部署。这不仅包括跟踪代理做什么,还包括理解它们如何做出决策以及与各种系统的交互。必须建立明确的升级程序,以允许在代理遇到超出其能力的场景或表现出潜在风险行为时立即进行人类干预。

传统的可观测性工具专注于基本指标,提供预测性维护和行为模式识别。AI代理监控则增添了上下文感知的可观测性,允许团队监控代理性能的更复杂方面。领先的可观测性提供商和云服务正在集成AI代理监控功能,同时出现了一波专门供应商。

监控AI代理的常见指标包括跟踪输入(提示)和输出(完成)标记,以及识别标记消费随时间变化的趋势,以评估代理的效率和性能。

  1. 人工智能智能体系统架构
    面向任务的智能体系统架构将复杂任务分解成较小的、可管理的子任务,提高功能隔离性,减少复杂性,并增强系统的可维护性和异常响应时间。子任务可以并行执行,允许独立扩展和更高效的资源分配。它们还可以被重复使用,通过组合它们可以方便地创建新功能,并且可以共享组件,如提示和逻辑。

图6展示了智能体系统的架构,展示了其模块化和可扩展的设计。

智能体架构的关键组件包括:

用户界面
用户界面使智能体能够通过自然语言界面(NLI)的语音命令或文本输入感知和与环境互动。智能体应该能够理解并响应自然语言查询,包括复杂请求和后续问题。该界面应根据用户的偏好和技能水平动态适应,同时确保用户数据的安全性和隐私。除了文本和语音输入外,用户界面还可以集成摄像头或麦克风等传感器。

在多智能体环境中,用户界面还应能够捕获其他智能体的输入。重要的是,智能体应提供对其推理和决策过程的透明度。这包括在需要时提供清晰的错误消息和改进建议。

用户界面与任务编排器/控制器交互,任务编排器/控制器由两个关键组件组成:任务计划器和计划执行器。

任务计划器
任务计划器将复杂目标分解为细粒度的操作步骤,根据依赖关系、资源可用性和截止日期对任务进行排序。任务计划器调用位于共享资源层(如图6所示)中的适当LLM,应用逻辑推理以优化任务排序。

计划者识别潜在的挑战并提出替代方法,根据实时反馈、环境变化或资源限制调整计划。任务计划器作为工作流协调器,确保各个智能体组件之间的无缝协调,并在过程的各个阶段触发适当的行动。

计划执行器
在紧密编排的工作流程中执行子任务涉及高级技术,如提示工程、链式思维推理、少量示例学习、RAG(检索增强生成)和函数调用接口。计划执行器可以通过调用API或调用Python函数触发外部动作。

虽然典型的AI工作负载(如RAG)是无状态且原子的,但智能体架构需要维护状态。在这种情况下,内存已成为关键组件,因为智能体需要保留环境状态、用户偏好和历史执行数据。这种记忆可能是片段式的或无限的,取决于智能体的需求。

工作流中的每一项操作都被视为一个有状态的事务,包括回滚和错误传播机制。智能体必须确保事务完整性,同时遵守安全性和合规性指导方针,确保所有过程的安全可靠执行。

验证
通过判断和反思,智能体能够自主适应不断变化的情况,使它们能够做出与不断变化的情况相适应的决策。当智能体遇到超出其能力范围的问题时,应设计为提升问题进行人工干预。这确保了系统能够应对现实世界的复杂性,保持可靠性和响应能力。

反馈回路对于持续改进至关重要,因为智能体可以从它们的交互结果中学习,并随着时间的推移改进其性能。这些回路还使系统能够优化未来的决策过程,使其更有效地实现期望的结果。此外,验证回路还充当一个重要的保障,确保响应符合伦理标准,不偏离既定指南。此回路有助于减轻风险,确保智能体行为在动态环境中的完整性。

共享资源层(内存)
这一层包括诸如LLM提供商和内存管理等基本工具。短期记忆有助于跟踪特定线程或会话中的任务执行或对话流程,确保在交互过程中保持上下文。长期记忆则允许智能体在多个会话中保留信息,使它们能够回忆过去交互、用户偏好和随时间积累的知识。

语义记忆存储与特定任务或交互相关的学习事实或知识,使智能体能够参考先前获得的信息来改进响应。这种能力对于提高任务准确性和个人化至关重要。

类似人类记忆的片段式记忆使智能体能够记住特定事件或交互。这种类型的记忆在用户希望回顾过去的对话或事件时非常有用,允许智能体回忆特定主题过去交流的细节,增强未来交互的连续性和相关性。

根据AI智能体的类型(如问题2所述),这里共享的概念可以以多种形式体现。在推理和行动之间迭代,或反思过去的表现,可以帮助优化响应并改进未来输出。常见的迭代推理技术包括:

ReAct(推理-行动)
ReAct将推理和行动结合在一个连续循环中,将思维生成和决策整合为一个过程。这种方法允许智能体迭代地生成推理步骤并采取相应的行动。虽然它对探索开放性问题很有用,但它不能保证得出确定性的输出或可重复的经验。

反思
这种技术引入了自我反思,模型可以根据反馈调整其响应。通常涉及回顾之前的步骤,纠正错误或细化推理,以增强解决方案。反馈循环有助于模型从过去决策中学习,随着时间的推移改进其响应。

LLM Modulo框架
LLM Modulo框架使用大型语言模型(LLM)作为计划生成器,但依赖于外部评判循环进行验证和反馈。框架的有效性和可重复性取决于外部评判循环的范围和质量,这根据特定用例进行定制。

这些技术增强了AI智能体的迭代和适应性,使它们能够优化其流程,提供更准确、更上下文相关的结果。

  1. 人工智能智能体框架
    在智能体系统架构中,如图6所示,任务被分解成多个子任务,利用共享资源层中的工具、LLM和内存。这种模块化的方法使高效执行、实时反思和动态适应不断变化的环境条件成为可能。智能体框架的主要目标是抽象复杂的底层流程,使开发人员能够专注于解决核心业务问题,而不会被技术复杂性所困扰。

为了提供最佳的开发人员体验,智能体框架应提供:

低代码开发工具以及专业代码SDK,使构建、测试和实验变得容易。
模板和自定义选项,以高效处理特定领域的业务逻辑和任务编排。
与各种服务的连接器和集成,无缝执行特定功能和工作流。
企业级功能,如治理、安全性和可观测性,以确保合规性并跟踪智能体性能。
这个话题值得深入探讨,所以我们在这里保持简短。此外,智能体框架的领域正在迅速演变,各种供应商提供了从专有系统到开源平台的各种解决方案。鉴于这一领域的动态性质,未来可能会出现重大整合。

在本常见问题解答中,我们强调了一些具有代表性的智能体框架,按字母顺序列出以确保中立性和包容性。

亚马逊Bedrock智能体与其模型以及知识库数据源紧密结合。
Crew.ai 是一个开源项目,被广泛使用。它提供了实时的多智能体AI编排。开发人员可以在Crew.ai中开发智能体,并在IBM Watsonx等合作伙伴平台上部署。
谷歌云的Vertex AI智能体构建器利用谷歌的基础模型,并将智能体锚定在企业数据上。AI Agent Space是谷歌内部及其客户和合作伙伴构建的智能体市场。这些智能体可以进行定制或作为SaaS销售。
IBM Bee Stack拥有一个框架所需的所有功能,并且还允许通过网络浏览器创建智能体。其bee-code-interpreter在受控环境中运行用户或生成的Python代码。
LangChain的LangGraph允许创建循环工作流,用于迭代和递归任务。它正在被广泛采用。
Microsoft AutoGen和Magnetic-One都是基于Python的框架。前者是一个更灵活、更可定制的框架,而后者是用于构建通用AI智能体的更专业的框架。在Ignite 24上,Copilot Studio展示了在Azure中访问的1800个模型。
Salesforce的Agentforce在2024年9月的Dreamforce会议上推出,已有10,000个智能体构建完成,其中许多在销售和营销领域。它利用其Data Cloud基础。它还拥有Atlas推理引擎,以提高结果的准确性和可靠性。
许多软件供应商,如H2O、SAP和DataRobot,已经推出了自己的智能体框架。这一快速发展的领域突显了AI智能体在各个行业中的日益重要性。这份列表远非全面,将不断更新,许多其他供应商正在积极开发和发布他们的框架。

  1. 经验教训
    在过去几个月中,AI智能体研究取得了重大进展。然而,许多最近的博客和讨论表明,可能会出现另一场“AI寒冬”或需要加倍关注生成式AI,特别是AI智能体。如果你对生成式AI快速发展的速度和矛盾的叙述感到不知所措,你并不孤单。生成式AI产品的幻觉报告正在对其可靠性产生怀疑,而高管期望与生成式AI用例实际结果之间的差距正在成为一个重大挑战。

从初步经验中吸取教训对于理解这些挑战的真实规模至关重要。整个AI智能体工作流程,包括计划、推理、自我学习和智能体评估等领域,仍然需要显著的进步。这些领域必须发展,以缩小期望与现实之间的差距,为更可靠和有效的AI智能体部署铺平道路。

图7展示了构建和部署AI智能体时面临的一些主要挑战。

计划
部署AI智能体时面临的最大挑战之一可能是选择正确的用例和目标客户。当期望过高时,可能会导致失望和未实现的潜力。从技术角度来看,没有明确任务或流程边界的用例不适合智能体架构,因为该架构在结构化且明确界定的环境中表现更好。此外,缺乏直观的用户体验和初始低可靠性等问题进一步复杂化了问题。

鉴于AI智能体初始阶段的较低可靠性,组织应专注于错误容忍度更高的用例,例如研究或探索性任务。围绕代理的准确性与可靠性设定正确的期望对于确保利益相关者了解当前限制和潜在好处至关重要。

范围
AI智能体在某些领域,如客户服务和编码方面表现出色,但它们仍处于早期发展阶段,使得有效确定和规划项目范围变得具有挑战性。一个关键问题是在自主智能体尚未完全成熟的情况下,准确评估其部署所需资源、时间线和范围变得困难。

测试、评估LLM输出和迭代所需的时间通常比传统软件开发过程要长。虽然智能体开发遵循软件工程的一般开发范式,但测试和迭代更接近于机器学习开发的方法。这一区别使AI智能体的开发周期比典型软件项目更复杂和耗时。

技术
智能体领域的技术挑战涵盖几个关键领域:LLM推理不足、缺乏标准化的智能体评估基准以及智能体框架的初级状态。

虽然大型语言模型(LLM)已经取得了重大进展,但仍有许多工作需要做以提高其推理能力。传统上,LLM主要通过增加数据和计算能力而发展。然而,随着我们接近规模定律的极限,重点必须转向提高其可靠性和推理能力。

最近,有许多强大的推理模型正在开发中,其中一些是开源的或足够小以至于可以在边缘设备上运行,这为克服这些限制提供了希望。这些模型可能为AI智能体提供更好的推理路径。

另一个挑战在于选择智能体框架。许多框架在没有明确理解特定用例需求的情况下被选择,这可能导致使用不适合生产环境的框架。此外,缺乏这些框架的标准化评估标准,使得难以评估它们在实验或概念验证(PoC)阶段与生产部署之间的适用性。

技能
AI工程仍然是一个正在发展的领域,招聘具备实际构建复杂解决方案(如智能体或检索增强生成模型(RAG))经验的AI工程师可能具有挑战性。缺乏经验丰富的专业人才可能会从一开始就给项目成果带来不确定性。

对于内部缺乏专业知识的组织,围绕构建、购买或共同构建解决方案的决策变得至关重要,以推动成功的项目实施。平衡这些选项需要仔细考虑资源可用性、长期需求以及与带来专业技能的外部合作伙伴或供应商合作的潜力。

价值
展示明确价值的挑战仍然是AI智能体以及更广泛的生成式AI成功的重大障碍。尽管在过去两年中,大型语言模型(LLM)的成本大幅下降(主要是由于输入和输出标记定价的降低),但整体定价模式仍然模糊且在不同平台供应商之间存在巨大差异。

例如,微软Copilot Studio选择了基于交换消息数量而非标记使用的定价模式。这种定价策略的转变反映了AI服务成本结构的持续演变,其中价值主张仍然难以量化,无论是对企业还是最终用户。供应商之间定价模式的一致性不足,使组织更难有效规划和预算AI的采用。

考虑到这些挑战,组织是否应该放弃其智能体冒险?虽然最终决策权在于业务团队,但值得注意的是,许多当前的难题很可能在未来12个月内得到解决。在这一阶段进行实验的领跑者将处于最佳位置,以利用新兴的进展。

如何学习AI大模型 ?

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。【保证100%免费】🆓

CSDN粉丝独家福利

这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】

读者福利: 👉👉CSDN大礼包:《最新AI大模型学习资源包》免费分享 👈👈

(👆👆👆安全链接,放心点击)

对于0基础小白入门:

如果你是零基础小白,想快速入门大模型是可以考虑的。

一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。

👉1.大模型入门学习思维导图👈

要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。

对于从来没有接触过AI大模型的同学,我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线,大家跟着这个大的方向学习准没问题。(全套教程文末领取哈)
在这里插入图片描述

👉2.AGI大模型配套视频👈

很多朋友都不喜欢晦涩的文字,我也为大家准备了视频教程,每个章节都是当前板块的精华浓缩。

在这里插入图片描述
在这里插入图片描述

👉3.大模型实际应用报告合集👈

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。(全套教程文末领取哈)

在这里插入图片描述

👉4.大模型落地应用案例PPT👈

光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。(全套教程文末领取哈)

在这里插入图片描述

👉5.大模型经典学习电子书👈

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。(全套教程文末领取哈)
img

在这里插入图片描述

👉6.大模型面试题&答案👈

截至目前大模型已经超过200个,在大模型纵横的时代,不仅大模型技术越来越卷,就连大模型相关的岗位和面试也开始越来越卷了。为了让大家更容易上车大模型算法赛道,我总结了大模型常考的面试题。(全套教程文末领取哈)

在这里插入图片描述
👉学会后的收获:👈
基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习

CSDN粉丝独家福利

这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】

读者福利: 👉👉CSDN大礼包:《最新AI大模型学习资源包》免费分享 👈👈

(👆👆👆安全链接,放心点击)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值