【2025版】分享6篇最新LLM Agent研究成果,从零基础到精通,精通收藏这篇就够了!_2025agent最新论文

更多干货,第一时间送达

引言

随着对大模型的深入研究,人们逐步开始回溯大语言模型的能力。最近,Google的一篇文章重新审视了大模型的能力,指出大模型规划并不能模拟人类思维,因为人类在做规划时需要提前在头脑中进行细致的想象、策划和回溯,而大模型生成只是执行了对下一个Token的预测任务。

同样,亚利桑那州立大学(ASU)的研究也指出:大语言模型(LLMs)自身无法进行规划推理,它只是将问题从一种语法格式转换成另外一种符号表示,如要真正解决问题还需靠外部符号求解器。

然而就在最近,微软研究人员也深入探讨了Agent AI的基础,强调了智能Agent在物理、虚拟现实、混合现实、感官交互等方面的能力,并指出Agent AI或是下一代人工智能的关键。所以说,随着大模型应用场景越来越复杂化,单纯依赖大模型的能力将面临巨大的挑战,为此用好大模型能力,构建大模型Agent将是大势所趋,这或许是今年大模型的重要发力点。

为此,今天作者给大家整理了6篇最新的大模型Agent研究成果,供大家学习参考!论文获取方式:大模型Agent

DS-Agent

传统的数据处理和分析大多依赖专业的数据科学家,费时费力。如果能够让大语言模型智能体扮演数据科学家的角色,那么除了能够为我们提供更高效的洞察和分析,还可以开启前所未有的工业模式和研究范式。这样一来只要给定数据任务需求,专注于数据科学的Agent就可以自主地处理海量数据,发现隐藏在数据背后的模式和趋势。更广阔地,可以提供清晰模型构建的策略和代码,调用机器进行模型部署推理,最后利用数据可视化,使复杂的数据关系一目了然。近期,吉大、上交等提出了 DS-Agent,这一Agent的角色定位是一名数据科学家,其目标是处理复杂的机器学习建模任务。技术层面上,团队采用了一种经典的人工智能策略 —— 基于案例的推理(Case-Based Reasoning,CBR),赋予了Agent “参考” 他山之石的能力,使其能够利用以往解决类似问题的经验来解决新问题。

LLM-Modulo

对于大语言模型的规划和推理能力,不同的人有不同的看法。一种是过于乐观,认为只要采用合适的提示策略,LLMs就能完成这些任务;另一种是过于悲观,LMs 在规划/推理任务中的唯一好处就是将问题从一种句法格式翻译成另一种,真正解决问题还得靠外部符号求解器。「本文作者核心观点是:大语言模型(LLMs)自身无法进行规划推理」,但是却能在解决规划问题上发挥积极的作用。为此,作者还提出了一个新的LLM-Modulo框架,这个框架把大型语言模型和一些外部的验证工具结合起来,使LLMs在规划任务中发挥了重要作用。

SceneCraft

SceneCraft是一个创新的大语言模型Agent,能够将文本描述转换成可在Blender中执行的Python脚本,用于创建复杂的3D场景。它通过高级抽象、战略规划和库学习来解决空间规划和布局的复杂性。具体来说:SceneCraft首先创建场景图,然后编写脚本,将空间关系转换为具体的数值约束。此外,它使用视觉-语言模型的感知能力来分析和迭代改进场景。SceneCraft还具备库学习机制,使得无需调整LLM参数即可实现自我改进。评估结果显示,SceneCraft在渲染复杂场景方面的表现优于现有技术,并展示了其在3D场景重建和视频生成模型控制方面的应用潜力。

GitAgent

本文研究是关于怎么让那些大型的语言模型,比如ChatGPT和GPT-4,变得更厉害,特别是在处理那些复杂和需要多种技能的任务上。现在的问题是,这些模型虽然在语言处理上很厉害,但是它们能用的工具有限,有时候就应付不了用户提出的各种问题,尤其是那些需要专业知识的问题。为此,本文作者想了个办法,就是让这些模型自己从GitHub上找到合适的代码库,然后加到自己的工具箱里。开发了一个叫做GITAGENT的agent,这个agent能自动做这件事。GITAGENT工作的时候,会分四个步骤,如果遇到问题,它还会去GitHub上看看别人是怎么解决的,学习经验。作者对此进行实验,用GITAGENT处理了30个用户的问题,结果发现平均有69.4%的成功率,验证了该种方案的可行性。

LearnAct

虽然大型语言模型(LLM)Agent备受关注,但它们在试错学习方面存在局限性。本研究认为,从经验中学习新action对于LLM Agent的学习能力提升至关重要。与人类通过体验式学习自然扩展动作空间和技能不同,LLM Agent通常在固定的动作空间内操作,这限制了它们的成长潜力。简单来说:作者思考的问题在于,很多场景的 action space 是固定的, 模型不能从过去的 trace 里学习、组合新的 action。为了解决这一问题,研究提出了一个名为LearnAct的框架,采用迭代学习策略,通过创建和改进Python函数形式的动作来进行开放式动作学习。在迭代过程中,LLM根据训练任务中的失败经验来修订和更新动作,以提高其有效性。在机器人规划和Alfworld环境中的实验评估表明,经过少量训练任务实例的学习后,这种开放式动作学习方法显著提高了Agent在特定任务上的性能。

RepoAgent

生成模型在软件工程中的应用已经取得了显著成果,尤其是在代码生成和调试任务中。尽管如此,这些模型在自动生成代码文档方面的潜力还未被充分挖掘。为了填补这一空白,本文作者开发了REPOAGENT,这是一个基于大型语言模型的开源框架,专门用于自动生成、维护和更新代码文档。通过一系列的评估,包括定性和定量分析,我们证明了REPOAGENT在创建高质量的代码仓库文档方面的能力。

## AI大模型学习福利

作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

那么针对所有自学遇到困难的同学们,我帮大家系统梳理大模型学习脉络,将这份 LLM大模型资料 分享出来:包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴,可以 扫描下方二维码领取🆓↓↓↓

在这里插入图片描述

AI大模型学习福利

作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

大模型&AI产品经理如何学习

求大家的点赞和收藏,我花2万买的大模型学习资料免费共享给你们,来看看有哪些东西。

1.学习路线图

在这里插入图片描述

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

2.视频教程

网上虽然也有很多的学习资源,但基本上都残缺不全的,这是我自己整理的大模型视频教程,上面路线图的每一个知识点,我都有配套的视频讲解。

在这里插入图片描述

在这里插入图片描述

(都打包成一块的了,不能一一展开,总共300多集)

因篇幅有限,仅展示部分资料,需要点击下方图片前往获取

3.技术文档和电子书

这里主要整理了大模型相关PDF书籍、行业报告、文档,有几百本,都是目前行业最新的。
在这里插入图片描述

4.LLM面试题和面经合集

这里主要整理了行业目前最新的大模型面试题和各种大厂offer面经合集。
在这里插入图片描述

👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。
在这里插入图片描述

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值