LLM Agent
文章平均质量分 68
LLM中关于Agent的文章整理,主要是follow Agent的一些进展。
UnknownBody
AI博士,最近一直follow大模型相关论文,每日会更新学术界论文的进展。
展开
-
AutoWebGLM: Bootstrap And Reinforce A Large Language Model-based Web Navigating Agent
大型语言模型(LLM)推动了许多智能代理任务,如网络导航,但由于三个因素,大多数现有的代理在现实世界的网页中的表现远不能令人满意:(1)网页上动作的多功能性,(2)HTML文本超过了模型处理能力,以及(3)由于网络的开放域性质导致的决策复杂性。鉴于这一挑战,我们开发了AUTOWEBGLM,这是一款基于ChatGLM3-6B构建的GPT-4性能优于自动网络导航代理。受人类浏览模式的启发,我们设计了一种HTML简化算法来表示网页,简洁地保留了重要信息。我们采用混合人工智能方法为课程训练构建网络浏览数据。原创 2024-09-05 09:11:18 · 27 阅读 · 0 评论 -
KNOWLEDGEABLE AGENTS BY OFFLINE REINFORCEMENT LEARNING FROM LARGE LANGUAGE MODEL ROLLOUTS
强化学习(RL)训练智能体通过环境交互数据完成复杂任务,但其能力也受到可用数据范围的限制。为了获得知识渊博的代理,一种有前景的方法是利用大型语言模型(LLM)的知识。尽管之前的研究将LLM与RL相结合,但由于语义差距,这两个组件的无缝集成仍然具有挑战性。本文介绍了一种新方法,即语言模型展开中的知识代理(KALM),该方法以虚拟展开的形式从LLM中提取知识,代理可以通过离线强化学习方法轻松学习。KALM的主要挑战在于LLM的基础,因为LLM本质上仅限于文本数据,而环境数据通常包含LLM看不到的数值向量。原创 2024-08-07 20:15:13 · 114 阅读 · 0 评论 -
DiffAgent: Fast and Accurate Text-to-Image API Selection with Large Language Model
文本到图像(T2I)生成模型引起了广泛关注,并在学术研究内外得到了广泛应用。例如,Civitai社区是T2I创新的平台,目前拥有74492种不同的模型。然而,这种多样性在选择最合适的模型和参数方面带来了巨大的挑战,这一过程通常需要大量的试验。从大型语言模型(LLM)的工具使用研究中获得灵感,我们介绍了DiffAgent,这是一种LLM代理,旨在通过API调用在几秒钟内筛选准确的选择。DiffAgent利用了一种新颖的两阶段训练框架SFTA,使其能够根据人类偏好将T2I API响应与用户输入准确对齐。原创 2024-07-22 15:03:47 · 397 阅读 · 0 评论 -
AriGraph: Learning Knowledge Graph World Models with Episodic Memory for LLM Agents
生成式人工智能的进步拓宽了大型语言模型(LLM)在自主代理开发中的潜在应用。实现真正的自主性需要积累和更新从与环境的交互中获得的知识,并有效地利用它。目前基于LLM的方法利用过去的经验,使用完整的观察历史、总结或检索增强。然而,这些非结构化的记忆表示并不能促进复杂决策所必需的推理和规划。在我们的研究中,我们介绍了AriGraph,这是一种新方法,其中代理在探索环境的同时构建了一个整合语义和情景记忆的记忆图。原创 2024-07-18 14:44:37 · 285 阅读 · 0 评论 -
Content Knowledge Identification with Multi-Agent Large Language Models (LLMs)
教师的数学内容知识(CK)在教师专业发展(PD)项目中具有至关重要的意义和需求。计算机辅助异步PD系统是最近提出的PD技术,旨在帮助教师平等地提高他们的PD,同时减少对成本和时间或地点限制的担忧。然而,目前作为异步PD系统核心技术之一的自动CK识别方法面临着用户响应多样性、高质量注释数据稀缺和预测可解释性低等挑战。为了应对这些挑战,我们提出了一个基于多代理LLM的框架LLMAgentCK,用于评估用户对已识别CK学习目标的响应覆盖率,而无需人工注释。原创 2024-07-17 16:21:23 · 142 阅读 · 0 评论 -
Exploring Autonomous Agents through the Lens of Large Language Models: A Review
大型语言模型(LLM)正在改变人工智能,使自主代理能够在各个领域执行各种任务。这些代理精通类人文本理解和生成,有可能彻底改变从客户服务到医疗保健的各个领域。然而,他们面临着多模态、人类价值对齐、幻觉和评估等挑战。提示、推理、工具利用和情境学习等技术正在被探索,以提高他们的能力。AgentBench、WebArena和ToolLLM等评估平台为在复杂场景中评估这些代理提供了强大的方法。原创 2024-07-15 15:17:50 · 121 阅读 · 0 评论 -
Challenges Faced by Large Language Models in Solving Multi-Agent Flocking
群集是一种行为,系统中的多个代理试图保持彼此靠近,同时避免碰撞并保持所需的编队。这在自然界中得到了观察,并在机器人技术中得到了应用,包括自然灾害搜救、野生动物跟踪以及周边监视和巡逻。最近,大型语言模型(LLM)作为个体决策者,在解决各种协作任务方面表现出了令人印象深刻的能力。使用LLM解决多代理群集问题将证明它们在需要空间和分散决策的情况下的有用性。然而,当LLM驱动的代理负责实现多代理群集时,它们没有达到预期的行为。原创 2024-07-15 10:32:24 · 34 阅读 · 0 评论 -
A Survey on the Memory Mechanism of Large Language Model based Agents
基于大型语言模型(LLM)的代理最近引起了研究和行业界的广泛关注。与原始的LLM相比,基于LLM的代理具有自我进化的能力,这是解决需要长期和复杂的代理环境交互的现实世界问题的基础。支持代理与环境交互的关键组件是代理的内存。虽然之前的研究提出了许多有前景的记忆机制,但它们分散在不同的论文中,缺乏系统的综述来从整体的角度总结和比较这些作品,未能抽象出共同有效的设计模式来启发未来的研究。为了弥合这一差距,本文对基于LLM的代理的记忆机制进行了全面的调查。原创 2024-07-14 22:51:41 · 106 阅读 · 0 评论 -
A Survey on Large Language Model-Based Game Agents
游戏代理的开发在推进通用人工智能(AGI)方面发挥着关键作用。LLM及其多模态对应物(MLLM)的进步为在复杂的计算机游戏环境中进化和赋予具有类似人类决策能力的游戏代理提供了前所未有的机会。本文从整体的角度对基于LLM的游戏代理进行了全面的概述。首先,我们介绍了基于LLM的游戏代理的概念架构,围绕六个基本功能组件:感知、记忆、思维、角色扮演、动作和学习。其次,我们调查了文献中记录的现有具有代表性的基于LLM的游戏代理,涉及六种游戏类型的方法和适应敏捷性,包括冒险、交流、竞争、合作、模拟以及制作和探索游戏。原创 2024-07-12 10:11:54 · 34 阅读 · 0 评论 -
AGENTLESS : Demystifying LLM-based Software Engineering Agents
大型语言模型(LLM)的最新进展显著提高了软件开发任务的自动化,包括代码合成、程序修复和测试生成。最近,研究人员和行业从业者开发了各种自主LLM代理来执行端到端软件开发任务。这些代理具有使用工具、运行命令、观察环境反馈以及规划未来行动的能力。然而,这些基于代理的方法的复杂性,加上当前LLM的有限能力,提出了以下问题:我们真的必须使用复杂的自主软件代理吗?为了回答这个问题,我们构建了无代理——一种自动解决软件开发问题的无代理方法。原创 2024-07-09 14:52:40 · 44 阅读 · 0 评论 -
Becoming an Expert in a Complex Human System Through Behavior Simulation
大型语言模型(LLM)与各种推理强化方法相结合,在数学、法律、编码、常识和世界知识等领域表现出了与人类相当的非凡能力。在本文中,我们深入研究了LLM在复杂人类系统中的推理能力。我们利用基于生成代理的仿真技术,提出了一种新的推理框架,称为“马赛克专家观察墙”(MEOW)。在MEOW框架中,模拟数据用于训练专家模型,在每个独立的模拟时间内集中关于特定任务的“经验”。正是通过模拟积累的“经验”使专家能够在复杂的人类系统中完成任务。我们在一个反映真实世界安全场景的通信游戏中进行实验。原创 2024-06-30 12:03:09 · 24 阅读 · 0 评论 -
Explainable Clinical Decision Reasoning with LLM Disscusion via Argumentation Schemes
在临床推理中使用大型语言模型有两个主要障碍。首先,尽管LLM在自然语言处理(NLP)任务中表现出显著的前景,但它们在复杂推理和规划中的性能达不到预期。其次,LLM使用难以理解的方法来做出与临床医生的认知过程根本不同的临床决策。这导致了用户的不信任。在本文中,我们提出了一个名为ArgMedAgents的多智能体框架,旨在使基于LLM的智能体能够通过交互进行可解释的临床决策推理。原创 2024-06-28 16:51:02 · 26 阅读 · 0 评论 -
Bootstrapping Cognitive Agents with a Large Language Model
大型语言模型包含嘈杂的世界常识,但很难训练或微调。另一方面,认知架构具有出色的可解释性,并且可以灵活更新,但需要大量的手动工作来实例化。在这项工作中,我们将两全其美结合起来:将基于认知的模型与大型语言模型中编码的嘈杂知识进行引导。通过一个执行厨房任务的具体代理,我们表明,与完全基于大型语言模型的代理相比,我们提出的框架产生了更好的效率。我们的实验表明,大型语言模型是认知架构的良好信息来源,而认知架构反过来可以验证和更新大型语言模型在特定领域的知识。原创 2024-06-28 15:58:58 · 30 阅读 · 0 评论 -
An Architecture for Accountability and Explainability through Blockchain and Large Language Models
在涉及人类交互的环境中部署自主代理越来越引起安全问题。因此,了解事件背后的情况变得至关重要,需要开发能力,向非专家用户证明其行为的合理性。这种解释对于提高可信度和安全性至关重要。此外,它们有助于改善沟通,弥合代理和用户之间的差距,从而提高互动的有效性。这项工作提出了一个基于移动机器人操作系统(ROS)的机器人的可解释性和可解释性架构。所提出的解决方案由两个主要组成部分组成。首先,提供问责制的类似黑匣子的元素,通过区块链技术实现防篡改特性。原创 2024-06-28 14:15:33 · 49 阅读 · 0 评论 -
TWOSTEP: Multi-agent Task Planning using Classical Planners and Large Language Models
像规划领域定义语言(PDDL)这样的经典规划公式允许在给定初始状态(如果可能的话)的情况下保证实现目标状态的动作序列。然而,PDDL中定义的推理问题并没有捕捉到动作采取的时间方面,例如,如果域中的两个代理的后条件不干扰另一个的前条件,则它们可以同时执行一个动作。人类专家可以将目标分解为很大程度上独立的组成部分,并将每个代理分配给这些子目标中的一个子目标,以利用同步操作更快地执行计划步骤,每个步骤只使用单个代理规划。原创 2024-06-26 11:38:34 · 135 阅读 · 0 评论 -
VideoAgent: Long-form Video Understanding with Large Language Model as Agent
长格式视频理解是计算机视觉中的一个重大挑战,需要一个能够对长多模态序列进行推理的模型。受人类对长视频理解的认知过程的启发,我们强调交互式推理和规划,而不是处理长视频输入的能力。我们介绍了一种新的基于代理的系统VideoAgent,该系统使用大型语言模型作为中心代理来迭代识别和编译关键信息以回答问题,视觉语言基础模型作为翻译和检索视觉信息的工具。根据具有挑战性的EgoSchema和NExT-QA基准进行评估,VideoAgent在平均仅使用8.4和8.2帧的情况下,实现了54.1%和71.3%的零样本准确率。原创 2024-06-25 19:47:10 · 61 阅读 · 0 评论 -
Characteristic AI Agents via Large Language Models
大型语言模型(LLM)的发展显著提高了聊天机器人系统的性能。许多研究人员致力于开发聊天机器人的特性。虽然已经有使用LLM开发角色驱动聊天机器人的商业产品,但值得注意的是,这一领域的学术研究仍然相对较少。我们的研究重点是通过模拟不同环境中的真实个体,研究LLM在构建特征人工智能代理方面的性能。目前的调查主要集中在扮演简单角色上。为了应对这一研究空白,我们为特征人工智能代理任务创建了一个基准,包括数据集、技术和评估指标。原创 2024-06-02 00:15:48 · 140 阅读 · 0 评论 -
Diffusion for World Modeling: Visual Details Matter in Atari
世界模型构成了一种以安全和样本有效的方式训练强化学习主体的有前景的方法。最近的世界模型主要基于离散潜在变量序列来对环境动力学进行建模。然而,这种压缩为紧凑的离散表示可能会忽略对强化学习很重要的视觉细节。同时,扩散模型已经成为图像生成的主要方法,这对建模离散潜伏期的成熟方法提出了挑战。受这种范式转变的启发,我们引入了DIAMOND(作为环境梦想模型的扩散),这是一种在扩散世界模型中训练的强化学习代理。我们分析了使扩散适合世界建模所需的关键设计选择,并展示了改进的视觉细节如何提高代理性能。原创 2024-05-28 10:11:25 · 36 阅读 · 0 评论 -
Proxy-RLHF: Decoupling Generation and Alignment in Large Language Model with Proxy
从人类反馈中强化学习(RLHF)是确保大型语言模型(LLM)与人类价值观一致的主流方法。然而,现有的RLHF方法需要高计算成本,一个主要原因是RLHF同时将生成和对齐任务分配给LLM。在本文中,我们介绍了Proxy RLHF,它将LLM的生成和对齐过程解耦,以低得多的计算成本实现与人类价值观的对齐。我们从为对齐过程设计的一种新的马尔可夫决策过程(MDP)开始,并使用强化学习(RL)来训练一个简化的代理模型,该模型在不改变LLM本身的情况下监督LLM的token生成。原创 2024-05-24 10:21:38 · 51 阅读 · 0 评论 -
Automated Generation and Selection of State-Aware Guidelines for Large Language Model Agents
大型语言模型(LLM)的主要局限性是它们对世界的理解受到限制。这给基于LLM的代理带来了重大困难,尤其是在预训练的LLM缺乏足够知识的领域。在本文中,我们介绍了一种称为AutoGuide的新框架,该框架通过利用离线体验中的隐性知识来弥合预训练的LLM中的知识差距。具体而言,AutoGuide通过提取一组状态感知指南,有效地提取嵌入离线数据中的知识。重要的是,每一条状态感知指南都用简洁的自然语言表达,并遵循条件结构,清楚地描述了适用的状态。原创 2024-05-22 10:38:17 · 29 阅读 · 0 评论 -
Octopus v2: On-device language model for super agent
语言模型在各种软件应用程序中显示出了有效性,特别是在与自动工作流相关的任务中。这些模型具有调用函数的关键能力,这对创建人工智能代理至关重要。尽管大规模语言模型在云环境中具有很高的性能,但它们往往与隐私和成本问题有关。当前用于函数调用的设备上模型面临延迟和准确性问题。我们的研究提出了一种新方法,使具有20亿个参数的设备上模型在准确性和延迟方面都超过GPT-4,并将上下文长度减少95%。与具有基于RAG的函数调用机制的Llama-7B相比,我们的方法将延迟提高了35倍。原创 2024-05-20 09:50:58 · 61 阅读 · 0 评论 -
LONG-FORM FACTUALITY IN LARGE LANGUAGE MODELS
大型语言模型(LLM)在响应开放式主题的事实查询提示时,通常会生成包含事实错误的内容。为了在开放域中对模型的长期事实性进行基准测试,我们首先使用GPT-4生成LongFact,这是一个由跨越38个主题的数千个问题组成的提示集。然后,我们提出LLM代理可以通过一种我们称之为搜索增强事实评估器(SAFE)的方法用作长期事实性的自动评估器。SAFE利用LLM将长形式的响应分解为一组单独的事实,并使用多步骤推理过程评估每个事实的准确性,该推理过程包括向谷歌搜索发送搜索查询并确定搜索结果是否支持某个事实。原创 2024-05-16 10:54:15 · 39 阅读 · 0 评论 -
Understanding How People Customize, Interact, and Experience Personas in Large Language Models
摘要1 引言2 相关工作3 研究问题4 CLOCHAT5 用户研究6 定量结果7 定性结果8 讨论9 结论大型语言模型(LLM)在生成会话代理方面取得了重大进展,实现了跨不同主题的无缝、上下文相关的对话。然而,现有的LLM驱动的会话代理具有固定的个性和功能,限制了它们对个人用户需求的适应性。创建具有独特专业知识或特征的个性化代理角色可以解决这个问题。尽管如此,我们对人们如何定制和与代理角色交互缺乏了解。在这项研究中,我们调查了用户如何定制代理角色,以及它们对交互质量、多样性和动态性的影响。原创 2024-05-15 10:11:55 · 118 阅读 · 0 评论 -
LLMARENA: Assessing Capabilities of Large Language Models in Dynamic Multi-Agent Environments
大型语言模型(LLM)的最新进展揭示了它们在实现具有人类水平智能的自主主体方面的潜力。然而,评估LLM代理的现有基准要么使用静态数据集,可能导致数据泄露,要么只关注单个代理场景,忽略了多代理交互的复杂性。缺乏评估LLM代理在多智能体、动态环境中的不同能力的基准。为此,我们介绍了LLMARENA,这是一个新颖且易于扩展的框架,用于评估LLM在多智能体动态环境中的各种能力。原创 2024-05-01 19:50:59 · 64 阅读 · 0 评论 -
Beyond Lines and Circles: Unveiling the Geometric Reasoning Gap in Large Language Models
大型语言模型(LLM)在数学和算法任务方面表现出越来越强的能力,但其几何推理技能却没有得到充分的探索。我们研究LLM在构造性几何问题解决方面的能力,这是人类数学推理发展的最基本步骤之一。我们的工作揭示了最先进的LLM在这一领域面临的显著挑战,尽管在类似领域取得了许多成功。LLM在目标变量选择方面表现出偏见,并难以处理二维空间关系,经常歪曲和幻觉物体及其位置。为此,我们引入了一个框架,该框架制定了一个基于LLM的多代理系统,通过进行内部对话来增强其现有的推理潜力。原创 2024-04-03 13:06:17 · 50 阅读 · 0 评论 -
Assistive Large Language Model Agents for Socially-Aware Negotiation Dialogues
在这项工作中,我们的目标是开发LLM代理,以减轻多代理环境中谈判中违反社会规范的行为。我们通过让两个大型语言模型(LLM)在每次对话中扮演两个谈判者的角色来模拟真实世界的谈判。第三个LLM充当补救代理,重写违反规范的话语,以改善谈判结果。由于这是一项新颖的任务,因此无法获得手动构建的数据。为了解决这一限制,我们引入了一种基于价值影响的上下文学习(ICL)方法,为基于LLM的补救代理识别高质量的ICL示例,其中价值影响函数衡量谈判结果的质量。原创 2024-04-02 10:51:37 · 64 阅读 · 0 评论 -
Large Language Model Agent for Hyper-Parameter Optimization
超参数优化在现代机器学习中至关重要,需要专家知识、大量试验以及高计算和人力资源。尽管自动机器学习(AutoML)取得了进步,但在试验效率、设置复杂性和互操作性方面的挑战仍然存在。为了解决这些问题,我们引入了一种新的范式,利用大型语言模型(LLM)在不同的机器学习任务中自动进行超参数优化,称为AgentHPO(LLM-Agent based hyperparameter optimization的缩写)。原创 2024-04-01 15:00:39 · 138 阅读 · 0 评论 -
Large Language Model for Participatory Urban Planning
参与式城市规划是现代城市规划的主流,涉及居民的积极参与。然而,传统的参与式模式需要经验丰富的规划专家,而且往往耗时且成本高昂。幸运的是,新兴的大型语言模型(LLM)已经显示出相当大的模拟类人代理的能力,可以很容易地用于模拟参与过程。在这项工作中,我们引入了一个基于LLM的参与式城市规划多智能体协作框架,该框架可以生成考虑居民不同需求的城市区域土地利用规划。具体来说,我们构建LLM代理来模拟规划师和数千名具有不同档案和背景的居民。我们首先要求规划者进行初步的土地使用计划。原创 2024-03-28 19:57:35 · 195 阅读 · 0 评论 -
Mora: Enabling Generalist Video Generation via A Multi-Agent Framework
Sora是第一个引起社会广泛关注的大规模通用视频生成模型。自2024年2月由OpenAI推出以来,没有其他视频生成模型能与Sora的性能或支持广泛视频生成任务的能力相媲美。此外,只有少数完全发布的视频生成模型,大多数是闭源的。为了解决这一差距,本文提出了一个新的多智能体框架Mora,该框架结合了几个先进的视觉AI代理来复制Sora演示的通用视频生成。原创 2024-03-26 17:17:12 · 46 阅读 · 0 评论 -
Computational Experiments Meet Large Language Model BasedAgents:ASurvey and Perspective
计算实验已经成为研究复杂系统的一种有价值的方法,包括反事实的算法。然而,由于人类的多样性和复杂性,包括有限理性和异质性,在基于代理的建模(ABM)中准确地表示真实的社会系统是具有挑战性的。为了解决这一限制,已经提出了大型语言模型(LLM)的集成,使代理能够拥有拟人化的能力,如复杂推理和自主学习。这些代理被称为基于LLM的代理,有可能增强ABM中缺乏的拟人化。尽管如此,LLM中缺乏明确的可解释性严重阻碍了它们在社会科学中的应用。相反,计算实验擅长于对个体行为和复杂现象进行因果分析。原创 2024-03-25 15:55:21 · 304 阅读 · 0 评论 -
Limits of Large Language Models in Debating Humans
大型语言模型(LLM)在与人类熟练互动的能力方面表现出了非凡的前景。随后,在涉及对话的社会学实验中,它们作为人工联盟和代理的潜在用途是一个令人兴奋的前景。但这个想法有多可行?本文试图通过一项预先注册的研究来测试当前LLM的局限性,该研究将真实的人与充当人的LLM代理相结合。这项研究的重点是在三种环境中形成基于辩论的意见共识:仅人类、代理和人类以及仅代理。我们的目标是了解LLM代理如何影响人类,以及它们像人类一样进行辩论的能力。原创 2024-03-22 13:29:43 · 37 阅读 · 0 评论 -
Can Large Language Model Agents Simulate Human Trust Behaviors?
在社会科学等应用中,大型语言模型(LLM)代理越来越多地被用作模拟工具来对人类进行建模。然而,一个基本问题仍然存在:LLM代理真的能模拟人类行为吗?在本文中,我们关注人类互动中最关键的行为之一,信任,并旨在研究LLM代理是否可以模拟人类的信任行为。我们首先发现,在行为经济学中广泛认可的信任博弈框架下,LLM代理通常表现出信任行为,称为代理信任。然后,我们发现LLM代理在信任行为方面可以与人类具有高度的行为一致性,特别是对于GPT-4,这表明用LLM代理模拟人类信任行为的可行性。原创 2024-03-20 10:18:39 · 49 阅读 · 0 评论 -
DyVal 2: Dynamic Evaluation of Large Language Models by Meta Probing Agents
由于数据污染的问题,大型语言模型(LLM)的评估在社区中引起了极大的关注。现有的工作为特定任务使用定义良好的算法设计了评估协议,无法轻松扩展到不同的场景。此外,目前的评估基准只能提供总体基准结果,无法支持对LLM能力进行细粒度和多方面的分析。在本文中,我们提出了元探测代理(MPA),这是一种受心理测量学启发的通用动态评估协议,用于评估LLM。MPA是DyVal 2的关键组成部分,它自然地扩展了之前的DyVal。原创 2024-03-15 11:23:09 · 68 阅读 · 0 评论 -
Measuring Personality Consistency and Linguistic Alignment in Interacting Populations of LLM
虽然在大型语言模型(LLM)的研究中,代理交互和个性化都是充满活力的主题,但对语言交互对受角色制约的LLM代理行为的影响的关注有限。这样的努力对于确保代理人与他们指定的特征保持一致,同时能够进行公开的、自然主义的对话非常重要。在我们的实验中,我们通过提示对GPT-3.5进行人格特征调节,并使用简单的变异性诱导采样算法创建两组LLM代理。然后,我们进行性格测试,并将代理提交给合作写作任务,发现不同的个人资料表现出不同程度的性格一致性和与对话伙伴的语言一致性。原创 2024-03-12 09:52:57 · 43 阅读 · 0 评论 -
Large Language Model based Multi-Agents: A Survey of Progress and Challenges
大型语言模型(LLM)在一系列任务中取得了显著的成功。由于LLM令人印象深刻的规划和推理能力,它们已被用作自动执行许多任务的自动代理。近年来,基于一个LLM作为单个规划或决策代理的发展,基于LLM的多智能体系统在复杂问题解决和世界模拟方面取得了长足的进展。为了向社区提供这一动态领域的概述,我们提出这项调查,以深入讨论基于LLM的多智能体系统的基本方面以及挑战。我们的目标是让读者对以下问题有深入的了解:基于LLM的多代理模拟什么领域和环境?这些代理人是如何被介绍的,他们是如何沟通的?原创 2024-03-11 13:58:46 · 324 阅读 · 0 评论 -
PACE: A Pragmatic Agent for Enhancing Communication Efficiency Using Large Language Models
当前的通信技术在理论容量、频谱可用性和功率资源方面面临限制。务实的沟通,利用终端智能进行选择性数据传输,提供资源节约。现有研究缺乏通用的意图解决工具,限制了对特定任务的适用性。本文利用大型语言模型(LLM),提出了一种基于语用代理的图像语用交际框架。在这个框架中,PACE依次执行语义感知、意图解析和面向意图的编码。为了确保LLM在通信中的有效利用,设计了一个知识库来补充必要的知识,引入了专门的提示来促进对实用通信场景和任务要求的理解,并设计了一条思想链来帮助在传输效率和成本之间进行合理的权衡。原创 2024-03-11 10:23:06 · 436 阅读 · 0 评论 -
Evolving Large Language Models into Autonomous Experts with Human-Level Competencies
大型语言模型(LLM)的出现,如ChatGPT、PaLM和GPT-4,催化了自然语言处理的显著进步,展示了类人语言的流利性和推理能力。本文介绍了专业代理(PAgents)的概念,这是一个利用LLM能力创建具有可控、专业、交互式和专业水平能力的自主代理的应用程序框架。我们认为,PAgents可以通过不断发展的专业知识重塑专业服务。我们提出的PAgents框架需要一个用于起源、进化和协同的三层架构:基础工具层、中间代理层和顶部协同层。本文旨在激发人们对LLM在现实世界中有前景的应用的讨论。原创 2024-03-08 14:31:24 · 38 阅读 · 0 评论 -
Large language model empowered participatory urban planning
参与式城市规划是现代城市规划的主流,涉及不同利益相关者的积极参与。然而,传统的参与式模式在时间和人力方面遇到了挑战,而生成性规划工具未能提供可调整和包容性的解决方案。本研究引入了一种创新的城市规划方法,将大型语言模型(LLM)整合到参与过程中。该框架基于精心制作的LLM代理,包括角色扮演、协作生成和反馈迭代,解决了满足1000个不同兴趣的社区级土地使用任务。在不同城市社区进行的实证实验显示了LLM在不同规划场景下的适应性和有效性。原创 2024-03-08 13:51:40 · 67 阅读 · 0 评论 -
Efficient Non-Parametric Uncertainty Quantification for Black-Box Large Language Models and Decision
使用大型语言模型(LLM)的逐步决策规划在人工智能代理开发中越来越受到关注。本文主要研究具有不确定性估计的决策规划,以解决语言模型中的幻觉问题。现有的方法要么是白盒方法,要么是计算要求很高的方法,限制了在预算内使用黑盒专有LLM。该论文的第一个贡献是LLM的非参数不确定性量化方法,该方法在不使用标记logits的情况下,通过单一推理有效地估计动态输入决策之间的逐点依赖性。该估计器为决策可信度的统计解释提供信息。第二个贡献概述了决策代理的系统设计,根据“洗澡”等用户提示生成“打开浴室灯”等动作。原创 2024-03-08 11:43:29 · 41 阅读 · 0 评论 -
RETROFORMER: RETROSPECTIVE LARGE LANGUAGE AGENTS WITH POLICY GRADIENT OPTIMIZATION
近几个月来,出现了一种强大的新趋势,即大型语言模型(LLM)被增强,成为能够独立执行面向目标的多步骤任务的自主语言代理,而不仅仅是响应人类用户的查询。然而,大多数现有的语言代理并没有使用特定于环境的奖励进行优化。尽管一些代理可以通过口头反馈进行迭代细化,但它们不会以与基于梯度的奖励学习兼容的方式进行推理和规划。本文介绍了一个通过学习回顾模型来增强大型语言代理的原则框架,该模型通过策略梯度从环境反馈中自动调整语言代理提示。原创 2023-08-15 15:39:28 · 198 阅读 · 0 评论