科研智能体实验室:使用大模型智能体作为研究助理 - 约翰霍普金斯大学&AMD等

摘要

历史上,科学发现是一个漫长且成本高昂的过程,从最初的概念到最终结果需要大量的时间和资源。为了加速科学发现,降低研究成本,并提高研究质量,我们引入了智能体实验室Agent Laboratory,这是一个基于大型语言模型(LLM)的自主框架,能够完成整个研究过程。该框架接受人类提供的研究想法,并通过三个阶段——文献综述、实验和报告撰写——来推进,以产出全面的研究成果,包括代码库和研究报告,同时让用户在每个阶段提供反馈和指导。

我们部署了各种先进的大型语言模型智能体实验室,并邀请多位研究人员通过参与调查、提供人类反馈以指导研究过程,然后评估最终论文来评价其质量。

我们发现:(1)由o1-preview驱动的智能体实验室产生了最佳的研究成果;(2)生成的机器学习代码与现有方法相比能够达到最先进的性能;(3)人类在每个阶段提供反馈,显著提高了研究的整体质量;(4)智能体实验室显著降低了研究费用,与以往自主研究方法相比减少了84%。我们希望智能体实验室能够让研究人员将更多精力投入到创造性思维上,而不是低级编码和写作,从而加速科学发现。

项目主页-https://agentlaboratory.github.io/

代码链接-https://github.com/SamuelSchmidgall/AgentLaboratory

论文链接-https://arxiv.org/pdf/2501.04227

核心速览

研究背景

  1. 研究问题:这篇文章旨在解决科学研究过程中时间长、成本高的问题,提出了一个基于大型语言模型(LLM)的自主框架Agent Laboratory,以加速科学发现。

  2. 研究难点:该问题的研究难点包括:如何有效地利用LLM进行文献综述、实验设计和报告撰写;如何在自动化过程中保持高质量的研究输出;如何减少研究成本。

  3. 相关工作:相关工作包括ResearchAgent、AI Scientist等,这些工作展示了LLM在生成研究想法和自动化论文生成方面的潜力,但也指出了LLM在可行性和实施细节上的不足。

研究方法

这篇论文提出了Agent Laboratory,用于解决科学研究过程中时间长、成本高的问题。具体来说,

  1. 文献综述:首先,Agent Laboratory通过博士(PhD)代理使用arXiv API收集和整理相关研究论文。PhD代理执行摘要、全文和添加论文的操作,构建一个全面的文献综述。

  2. 实验计划制定:其次,博士(PhD)和博士后(Postdoc)代理通过对话合作,制定详细的实验计划,包括使用哪些机器学习模型、数据集和实验步骤。

  3. 数据准备:然后,机器学习工程师(ML Engineer)代理根据实验计划编写代码,准备数据。代码经过Python编译器检查后提交。

  4. 实验执行:实验执行阶段由mle-solver模块负责,生成、测试和优化机器学习代码。mle-solver通过替换和编辑操作迭代改进代码,并通过评分函数评估代码的有效性。

  5. 结果解释:博士(PhD)和博士后(Postdoc)代理讨论实验结果,形成有意义的解释,并提交给报告生成模块。

  6. 报告撰写:报告生成模块(paper-solver)通过迭代生成和精炼报告。初始报告骨架由LaTeX代码生成,研究人员可以通过编辑命令进行详细调整。

实验设计

  1. 数据收集:使用arXiv API收集与给定研究主题相关的论文摘要和全文。

  2. 实验设计:实验分为三个阶段:文献综述、实验计划和报告撰写。每个阶段都有专门的代理和任务。

  3. 样本选择:选择了五个研究主题,分别是图像变换器对噪声的敏感性、性别对语言模型准确性的影响、MedQA的差分诊断、语言模型的认知偏差和多选题的顺序敏感性。

  4. 参数配置:在文献综述阶段,设置最多检索5篇论文摘要;在数据准备阶段,实验超时设置为120秒;在实验执行阶段,mle-solver步骤设置为3次,代码修复尝试次数为2次。

结果与分析

  1. 质量评估:人类评估者对不同LLM后端生成的论文进行了实验质量、报告质量和有用性的评分。结果表明,o1-preview模型在有用性方面得分最高,而o1-mini在实验质量方面表现最佳。

  2. 自动化评估:使用自动化评审系统对生成的论文进行评估,结果显示自动化评审系统在所有指标上均高估了论文质量。

  3. 协作模式评估:在协作模式下,研究人员对Agent Laboratory的实用性和可用性进行了评分。结果表明,协作模式下的论文在质量和清晰度方面得分较高。

  4. 运行时间和成本分析:

    Agent Laboratory 的运行时间和成本分析表明,gpt-4o 是计算效率最高、成本效益最高的模型后端,在 1165.4 秒内完成整个工作流,成本为 2.33 美元,性能明显优于 o1-mini 和 o1-preview。o1-mini 和 o1-preview 分别需要 3616.8 秒和 6201.3 秒,每个工作流的成本分别为 7.51 USD 和 13.10 USD。GPT-4O 在关键子任务(包括运行实验和报告撰写)的速度和成本方面表现出色,比同类任务快 3-5 倍,成本也低得多。尽管存在这些差异,但所有型号都实现了高可靠性,gpt-4o 的成功率为 98.5%,o1-mini 和 o1-preview 的成功率为 95.7%。Report Writing 成为最昂贵的阶段,尤其是对于 o1-preview,仅此任务就产生了 9.58 USD 的成本。

总体结论

这篇论文介绍了Agent Laboratory,一个基于LLM的自主框架,能够完成从文献综述到报告撰写的整个研究过程。研究表明,Agent Laboratory能够显著降低研究成本,提高研究质量,并在协作模式下生成更高质量的论文。尽管存在一些局限性,如自动化评估与人类评估的差异和代码生成的真实性问题,但Agent Laboratory展示了在科学研究中应用AI的潜力,有望加速科学发现。

论文评价

优点与创新

  1. 全面的科研流程自动化:Agent Laboratory能够完成从文献综述、实验到报告撰写的整个研究流程,显著减少了研究时间和成本。

  2. 多种LLM模型的支持:支持多种最先进的LLM模型(如gpt-4o、o1-mini、o1-preview),并允许用户根据计算资源选择模型。

  3. 高质量的研究输出:生成的机器学习代码能够达到现有方法的最高性能,研究报告和代码库也具有较高的质量。

  4. 人类参与反馈:在每个阶段提供人类反馈,显著提高了整体研究质量。

  5. 显著降低研究费用:相比之前的自主研究方法,Agent Laboratory的研究费用减少了84%。

  6. 灵活的框架设计:Agent Laboratory是一个开源的LLM代理框架,计算灵活,能够根据用户的计算资源和模型推理预算进行分配。

  7. 高效的运行时间和成本分析:提供了详细的运行时间和成本统计,展示了不同模型后端的高效性。

  8. MLE-Bench挑战赛的高性能:在MLE-Bench挑战赛中,使用mle-solver取得了更高的一致性和评分,获得了更多的奖牌。

不足与反思

  1. 工作流程的局限性:论文指出,Agent Laboratory在自我评估方面存在挑战,生成的科研报告在质量和深度上不如《AI Scientist》生成的报告。

  2. 自动化结构的挑战:Agent Laboratory的工作流程结构限制了论文的组织和图表数量,未来工作可以允许生成更多的图表。

  3. 幻觉问题:在某些低性能模型(如gpt-4o)中,发现了一些关于实验结果的幻觉,未来工作需要适当解决这些问题以防止错误信息的传播。

  4. 常见的失败模式:例如,许多能力较强的模型在文献综述阶段难以遵循指令,可能会导致任务提前终止。

  5. 伦理考虑:自动生成研究代码、报告和实验计划可能会无意中降低低质量或误导性科学输出的门槛,未来需要实施健全的治理机制以确保AI生成的内容符合伦理原则和社会价值观。

关键问题及回答

问题1:Agent Laboratory在实验执行阶段是如何利用mle-solver模块生成和优化机器学习代码的?

mle-solver模块通过替换和编辑操作迭代改进代码。具体步骤如下:

  1. 命令执行:从一组表现最佳的代码中随机选择一个初始程序,然后通过替换和编辑操作进行改进。

  2. 代码执行:将新生成的代码提交给编译器进行检查,如果编译成功,则进行评分;如果失败,则尝试修复代码。

  3. 程序评分:使用LLM奖励模型评估代码的有效性,评分范围为0到1,分数越高表示代码越符合研究计划。

  4. 自我反思:无论代码成功与否,都会生成自我反思,总结成功或失败的原因,以便在后续迭代中改进。

  5. 性能稳定化:通过维护一组表现最佳的程序和使用高熵采样技术,确保代码修改在探索和优化之间保持平衡。

问题2:在协作模式下,研究人员对Agent Laboratory的实用性和可用性评分如何?

在协作模式下,研究人员对Agent Laboratory的实用性和可用性评分分别为3.5/5和4.0/5。具体来说,自定义主题的论文在报告质量和有用性方面得分较高,分别为3.5/5和4.0/5。相比之下,预定义主题的论文在各项评分上略低,但在可用性方面得分较高,为4.25/5。总体来看,大多数参与者在体验后决定继续使用Agent Laboratory,表明其在实际研究中的高实用性和可用性。

问题3:Agent Laboratory在运行时间和成本方面有__哪些具体表现

  1. 运行时间:gpt-4o在执行时间和成本方面表现最佳。整个流程仅需1165.4秒,比o1-mini快约3.2倍,比o1-preview快约5.3倍。在大多数子任务中,gpt-4o的时间显著短于o1-mini和o1-preview。例如,在实验执行阶段,gpt-4o平均耗时417.8秒,而o1-mini和o1-preview分别耗时2082.5秒和4036.2秒。

  2. 成本:gpt-4o的整个流程成本仅为2.33美元,显著低于之前的自动化研究方法。其他模型的成本效率较低,o1-mini为7.51美元,o1-preview为13.10美元。在子任务级别,gpt-4o在各个阶段的成本均最低。例如,在数据准备阶段,gpt-4o的成本为0.09美元,而o1-mini和o1-preview分别为3.03美元和0.30美元。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值