AI Agent成长之路：直面挑战与机遇，探讨端侧大模型如何增强其实用性

最新推荐文章于 2024-08-19 18:33:44 发布

AI启航者

最新推荐文章于 2024-08-19 18:33:44 发布

阅读量697

点赞数 13

文章标签：人工智能语言模型深度学习机器学习自然语言处理 agi ai

本文链接：https://blog.csdn.net/2401_86584842/article/details/141221806

版权

导读

随着生成式人工智能的发展，AI Agent应用不断涌现，而端侧大模型的落地为AI Agent应用注入新的活力。特别是近期，苹果发布的基于端侧大模型的智能系统Apple Intelligence，向业界展示了AI Agent应用的更广阔前景。那么，目前AI Agent发展还面临哪些挑战？端侧大模型将如何提升AI Agent的可用性？我们将在本文探讨。

一、什么是AI Agent？

AI Agent（人工智能代理/人工智能体）是融合感知、分析、决策和执行能力的智能体，其能够与环境交互，收集信息、数据，并利用信息、数据自主执行任务，以实现人类设定的目标。AI Agent具备相当显著的主动性，堪称人类的理想智能助手。例如，AI Agent可以根据用户的在线互动和事务处置数据，了解用户的兴趣、偏好、日常习惯，识别用户的意图，主动提出建议，做出决策，并自主帮助用户协调多个应用程序去完成决策。

目前，基于大语言模型的AI Agent应用，在代码生成、数据分析、通用问题解答、科学研究等多个领域内，展现出显著的潜力。比如，在代码生成领域，硅心科技发布的aiXcoder已经能自主完成开发编程、代码自动补全以及代码智能搜索等任务，极大地提升了编程效率。再比如，在线下零售领域，空间运营智能体OmVision Bot，在对店铺进行实时动态检测的同时，能够自主发出异常行为警告，并自主提供专业的店铺运营数据和总结报告，为商家提供全面且高效的管理支持。在个人助理领域，人工智能初创公司HyperWrite推出的Personal Assistant个人智能代理，能够自主完成浏览器中的指定任务，协助用户快速浏览并总结浏览器页面内容，为用户提供智能化的个人助理服务。

基于大语言模型的AI Agent项目
来源：金融机器智能官方

二、AI Agent发展面临的挑战

尽管AI Agent应用层出不穷，但目前，AI Agent尚处于发展的初级阶段，其功能与应用范围相对有限，在实际部署与运行过程中仍面临着诸多挑战。

1、提示工程仍需优化

提示工程（Prompt Engineering）是AI Agent发展的关键环节，它有效地连接了人类意图与机器理解，使AI Agent能够更好地理解任务要求，从而更加合理地分解任务，做出更符合情境的决策。有效的提示工程可以提高AI Agent的准确性、可控性和适应性，使其在复杂任务中表现更佳。

过拟合是当下提示工程面临的首要挑战。在提示工程的设计中，平衡很重要，如果提示工程设计过于狭窄，AI Agent会过于依赖特定的输入模式或情境。一旦遇到与训练数据差异较大的新情境，AI Agent将无法适应，导致性能明显下降或产生错误的输出。这种局限性不仅限制了AI Agent的应用范围，还影响其在复杂、多变环境中的稳定性和可靠性。

2、算力基础不足

算力基础设施的优劣直接决定AI Agent的工作表现。首先，计算资源不足是主要问题。随着大模型变得越来越复杂和庞大，大模型训练和推理过程中对计算资源的需求显著增加，而现有的算力基础设施难以满足这些需求。

其次，计算过程中存储系统的性能瓶颈也是一大制约因素。AI Agent训练需要处理大量的多模态数据，如图像、视频和文本数据等，这要求存储系统必须具备高容量和高性能，以确保数据的快速读写和高效管理。然而，现有的存储系统解决方案难以满足这些需求，导致数据同步和数据处理效率低下，影响AI Agent的整体表现。

此外，网络性能和通信问题也一定程度上限制了AI Agent的发展。对于AI Agent的应用来说，通信效率非常重要，网络延迟和带宽瓶颈会严重影响AI Agent的处理能力和应用效果。

3、高质量数据难获取、多模态数据难转换

在数据方面，AI Agent主要面临高质量数据难获取以及多模态转换过程中的数据流失问题。

首先，高质量数据对于AI Agent的模型训练至关重要，但由于数据安全与隐私等问题，AI Agent在获取此类数据时面临更大的挑战。

在进行复杂推理和任务规划时，AI Agent需要处理大量的企业或个人数据，而这些数据往往包含敏感信息，如商业秘密和个人隐私，这对数据安全提出了更高的要求。任何数据泄露或非法访问都可能对用户的隐私造成不可逆转的损害，很多用户因此不希望面向开发者开放这些数据。此外，由于本地计算资源的限制，目前大多数AI Agent都是基于云端大模型运行，这进一步加剧了用户对数据安全性的担忧。

其次，为了更全面地理解、描述现实世界并做出决策，AI Agent需要处理包括文本、图像、视频和音频在内的多模态数据，并将这些多模态数据转换、融合。然而，各种模态的数据都有其独特的结构和语义特征。例如，文本数据通常以线性序列的形式存在，而图像则是二维的像素阵列，视频则是图像序列，音频则是时间序列的声波信号。AI Agent在将这些多模态数据进行转换和融合的过程中，可能会丢失原始数据的细微特征和上下文信息，导致数据不完整，例如，将音频数据转换为文本数据时，关于语音情感色彩或其他非语言交流元素的数据可能丢失，进而影响AI Agent的准确理解和决策。

4、协同多应用工作的能力不足

协同多应用工作的能力代表着AI Agent对工具的使用能力，直接决定了AI Agent的能力边界。目前大部分AI Agent协同多应用工作的能力不足，大多只能调用特定的某个或某几个应用，完成特定场景的任务，而无法实现更为广泛、灵活的多应用协作。

比如，使用当下热门的Agent-GPT来部署一个与个人出行服务相关的AI Agent，该AI Agent其只能调用用户预设的特定应用，执行航班查询和酒店搜索等操作，并为用户生成一份完善的出行计划或攻略。该AI Agent无法搜素大众点评、小红书等非预设应用的内容，也无法在携程、飞猪等非预设应用中完成预定航班、酒店等操作。因此，提升AI Agent协同多应用工作的能力，成为当前AI Agent应用发展面临的一大重要挑战。

5、可解释性和用户信任问题

可解释性是AI Agent发展另一大的挑战。可解释性指的是理解和解释大模型内部工作机制和决策过程的能力。当前，大模型通常被视为黑箱模型，内部机制和决策过程不透明、难以解释。用户无法直接观察或解释模型是如何从输入得到输出，进而造成用户的信任问题，从而影响Agent的应用。

6、责任归属问题

AI Agent依据人类预设的目标进行操作，但在任务的规划、决策以及执行环节上，AI Agent拥有高度的自主性。这种自主性意味着AI Agent在执行任务时可能采取的方式和行为，并不完全等同于或直接反映人类的原始意图。因此，若AI Agent在执行任务过程中出现不当行为或造成他人利益受损，关于责任归属的判定也是一个重要挑战。

三、端侧大模型将如何提升AI Agent的可用性？

随着轻量化大模型的发展，各终端设备制造商纷纷发布搭载端侧大模型的终端产品，这一定程度上将解决AI Agent在算力、数据、跨应用工作等方面的问题，进一步提升AI Agent的可用性。

1、更快的响应效率

过去，基于云端大模型的AI Agent在处理用户任务的过程中，首先需要将数据传输到远程服务器进行处理，然后再将处理结果返回，这一过程不可避免会产生延迟。而具备较强计算能力的端侧大模型则可将这一处理过程迁移至本地设备，以此消除传输造成的时间消耗，从而实现AI Agent实时响应。同时，本地处理也一定程度上减少了数据传输的频率和数量，从而降低了带宽消耗，降低了数据传输成本。

小米最新旗舰手机小米14内置的端侧大模型，显著减少了用户使用的等待时间和操作延迟，实现在拍摄过程中，实时对景象进行判断和优化，有效提高了用户体验，使得用户与设备的交互更加顺畅和自然。

2、更强的运行稳定性

端侧大模型减少了AI Agent对网络连接的依赖。即使在网络连接不稳定或无网络连接的情况下，基于端侧大模型的AI Agent依然能够正常工作，确保工作的连续性和可靠性。比如，在飞行模式下，用户依然可以使用实时翻译、文档分析和智能总结等功能；在Apple Intelligence的最新演示中，Siri可以在无网络连接的情况下工作，并且能够基于端侧大模型回答用户的通识性知识问题。

3、更有效的协同多应用工作能力

相较于目前的AI Agent应用，终端设备厂商基于端侧大模型开发的AI Agent应用能够更灵活、充分地调用更多的终端设备厂商预设应用，自主完成更多的多场景任务。这将大大拓宽AI Agent的应用场景和能力边界。

比如，在苹果Apple Intelligence系统中，Siri能够自主调用苹果手机内设的照片、邮件、备忘录、信息、日程、地图、天气、钱包等应用，实现根据用户的邮件、信息内容，自主分析用户行程安排，将之添加进日程，并作出相应的路线规划。华为最新的智能体小艺则能够实现自主分析设备中所有类型的文件，并根据用户需求实现扩应用的图片编辑、文件分享、文档分析等操作。

值得一提的是，尽管终端大模型使得AI Agent在跨应用调用方面有了很大发展，但目前基于终端大模型的AI Agent协同多应用工作能力还主要局限在终端设备的预设应用中，要实现在更多应用的协同工作能力，还需要打通更多第三方应用，未来随着强势终端设备厂商推动打通更多第三方APP，，AI Agent的可用性和通用性将会进一步增强。

4、更好地解决数据隐私和安全问题

在端侧部署大模型使得AI Agent能够在本地设备上处理数据，无需上传到云端，从而减少了数据在传输过程中的泄露风险，这将显著增强数据隐私和安全。比如苹果最新发布的基于端侧模型运行的个人智能系统—Apple Intelligence的一条底层逻辑就是在设备端处理任务，所有个人敏感数据都会由端侧模型来处理，在需要更高计算能力的情况下，该系统也会先将用户数据在本地进行脱敏处理，然后通过Private Cloud Compute进行加密，再上传到云端服务器进一步处理、计算。这极大程度地保证了用户的隐私安全。

此外，在保证数据隐私和安全的基础上，AI Agent能够在本地获得更加深度、全面的个人数据，AI Agent在对这些个人数据进行深度学习后，将更加了解用户行为、喜好和习惯，从而提高意图感知的准确性以及任务规划和决策的可靠性。

小结

随着人们对生成式人工智能技术的认识逐步加深，AI Agent在大众生活中的应用也会变得更加的普遍，我们完全有理由相信在不远的未来它们能够真正成为大众生活和工作中的得力助手。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

在这里插入图片描述

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。

如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模型 AI 的正确特征了。

零基础如何学习大模型 AI

领取方式在文末

为什么要学习大模型？

学习大模型课程的重要性在于它能够极大地促进个人在人工智能领域的专业发展。大模型技术，如自然语言处理和图像识别，正在推动着人工智能的新发展阶段。通过学习大模型课程，可以掌握设计和实现基于大模型的应用系统所需的基本原理和技术，从而提升自己在数据处理、分析和决策制定方面的能力。此外，大模型技术在多个行业中的应用日益增加，掌握这一技术将有助于提高就业竞争力，并为未来的创新创业提供坚实的基础。

大模型实际应用案例分享

①智能客服：某科技公司员工在学习了大模型课程后，成功开发了一套基于自然语言处理的大模型智能客服系统。该系统不仅提高了客户服务效率，还显著降低了人工成本。
②医疗影像分析：一位医学研究人员通过学习大模型课程，掌握了深度学习技术在医疗影像分析中的应用。他开发的算法能够准确识别肿瘤等病变，为医生提供了有力的诊断辅助。
③金融风险管理：一位金融分析师利用大模型课程中学到的知识，开发了一套信用评分模型。该模型帮助银行更准确地评估贷款申请者的信用风险，降低了不良贷款率。
④智能推荐系统：一位电商平台的工程师在学习大模型课程后，优化了平台的商品推荐算法。新算法提高了用户满意度和购买转化率，为公司带来了显著的增长。
…
这些案例表明，学习大模型课程不仅能够提升个人技能，还能为企业带来实际效益，推动行业创新发展。