大模型日报|7 篇必读的大模型论文

在这里插入图片描述

大家好,今日必读的大模型论文来啦!

1.阿里通义千问团队发布 Qwen2 技术报告

在这份技术报告中,阿里通义千问团队介绍了他们的大语言模型和大型多模态模型的最新成员—— Qwen2 系列。他们发布了一套全面的基础和指令微调语言模型,参数范围从 0.5 到 720 亿,其中包括稠密模型和专家混合模型。

据介绍,Qwen2 超越了包括其前身 Qwen1.5 在内的大多数早期开放重量级模型,并在语言理解、生成、多语言能力、编码、数学和推理等各种基准测试中表现出了相对于专有模型的竞争力。

旗舰模型 Qwen2-72B 表现出了卓越的性能:作为基础语言模型,它在 MMLU 上的成绩为 84.2,在 GPQA 上的成绩为 37.9,在 HumanEval 上的成绩为 64.6,在 GSM8K 上的成绩为 89.5,在 BBH 上的成绩为 82.4。经过指令微调的变体 Qwen2-72B-Instruct 在 MT-Bench 上的测试结果为 9.1,在 Arena-Hard 上的测试结果为 48.1,在 LiveCodeBench 上的测试结果为 35.7。

此外,Qwen2 还展示了强大的多语言能力,精通英语、汉语、西班牙语、法语、德语、阿拉伯语、俄语、韩语、日语、泰语、越南语等约 30 种语言。

论文链接:
https://arxiv.org/abs/2407.10671
GitHub 地址:
https://github.com/QwenLM/Qwen2

2.Make-An-Agent:轻松为一个智能体生成控制策略

我们能否像根据文字描述创建图像一样,只用一个预期行为的演示作为提示,就毫不费力地为一个智能体(agent)生成控制策略?

在这项工作中,来自马里兰大学、清华大学和加州大学圣地亚哥分校的研究团队,提出了一种新颖的策略参数生成器——Make-An-Agent,它利用条件扩散模型,实现从行为到策略的生成。

该策略生成器以编码轨迹信息的行为嵌入为指导,合成潜在参数表示,然后将其解码为策略网络。通过对策略网络检查点及其相应轨迹的训练,生成模型在多个任务上都表现出了卓越的通用性和可扩展性,并在未见过的任务上具有很强的泛化能力,只需少量的演示作为输入就能输出表现良好的策略。

他们展示了其在不同领域和任务上的功效和效率,包括不同的目标、行为,甚至不同的机器人操纵器。除了模拟,他们还将 Make-An-Agent 生成的策略直接部署到真实世界的机器人上来执行运动任务。

论文链接:
https://arxiv.org/abs/2407.10973

3.LLM 评估,不应忽视非确定性

目前对大语言模型(LLM)的评估往往忽略了非确定性(non-determinism),通常只关注每个示例的单一输出。这限制了人们对实际应用中 LLM 性能差异的理解。

这项研究通过探索贪婪解码和采样之间性能差异的关键问题、确定基准在非确定性方面的一致性以及检查独特的模型行为来解决这一问题。

通过大量实验,研究团队发现在大多数评估任务中,贪婪解码的性能普遍优于采样方法。他们还观察到不同 LLM 大小和对齐方法的性能一致,并注意到对齐可以减少采样方差。此外,他们的“best-of-N”采样方法表明,较小的 LLM 可以与 GPT-4-Turbo 等较大的模型相媲美,甚至更胜一筹,这凸显了较小的 LLM 尚未开发的潜力。

论文链接:
https://arxiv.org/abs/2407.10457

4.GRUtopia:规模化城市中的梦幻通用机器人

近期的研究一直在探索具身人工智能领域的缩放定律(scaling laws)。鉴于收集真实世界数据的成本过高,仿真到真实(Sim2Real)范式或是扩展具身模型学习的关键一步。

在这项工作中,来自上海 AI Lab 的研究团队及其合作者提出了首个专为各种机器人设计的模拟互动 3D 社会——GRUtopia 项目。该项目有以下几个特点:(1)场景数据集 GRScenes 包含 10 万个交互式、精细注释的场景,可自由组合成城市规模的环境。与以往主要关注家庭的工作不同,GRScenes 涵盖了 89 个不同的场景类别,弥补了服务型环境的空白,通用机器人最初会部署在服务型环境中。(2)GRResidents 是一个大语言模型(LLM)驱动的非玩家角色(NPC)系统,负责社交互动、任务生成和任务分配,从而模拟具身人工智能应用的社交场景。(3)基准“GRBench”支持各种机器人,但侧重于作为主要智能体的足式机器人,并提出了涉及物体定位导航、社交定位导航和定位操纵的中等难度任务。

他们希望,这项工作能缓解该领域高质量数据稀缺的问题,并为具身人工智能研究提供更全面的评估。

论文链接:
https://arxiv.org/abs/2407.10943
GitHub 地址:
https://github.com/OpenRobotLab/GRUtopia

5.Spider2-V:首个专注于专业数据科学和工程工作流程的多模态智能体基准测试

数据科学和工程工作流程通常跨越多个阶段,从仓储到协调,使用的工具包括 BigQuery、dbt 和 Airbyte。随着视觉语言模型(VLM)在多模态理解和代码生成方面的进步,基于 VLM 的智能体(agent)有可能通过生成 SQL 查询、Python 代码和图形用户界面操作来实现这些工作流程的自动化。这种自动化可以提高专家的工作效率,同时实现大规模数据分析的平民化。

在这项工作中,来自香港大学的研究团队及其合作者,提出了首个专注于专业数据科学和工程工作流程的多模态智能体基准测试——Spider2-V,其包含真实计算机环境中的 494 个真实任务,并结合了 20 个企业级专业应用。这些任务来自真实世界的使用案例,评估多模态智能体通过编写代码和管理企业数据软件系统中的图形用户界面来执行数据相关任务的能力。

为了在真实模拟与评估简易性之间取得平衡,他们投入了大量精力来开发任务设置的自动配置,并为每个任务精心设计评估指标。 此外,他们还通过这些企业数据软件系统的综合文档对多模式智能体进行了补充。实证评估显示,现有的基于 LLM/VLM 的智能体无法可靠地自动执行完整的数据工作流(成功率为 14.0%)。 即使有逐步指导,这些智能体在需要细粒度、知识密集型图形用户界面操作(16.2%)和涉及远程云托管工作区(10.6%)的任务中表现仍然不佳。

论文链接:
https://arxiv.org/abs/2407.10956
项目地址:
https://spider2-v.github.io/

6.LAB-Bench:评估语言模型在生物学研究中的能力

人们普遍乐观地认为,前沿大语言模型(LLM)和 LLM 增强系统有可能迅速加速各学科的科学发现。如今,有很多基准可以衡量 LLM 在教科书式科学问题上的知识和推理能力,但很少有基准被用来评估语言模型在科学研究所需的实际任务(如文献检索、协议规划和数据分析)上的性能。

作为建立此类基准的第一步,来自 FutureHouse 的研究团队推出了 Language Agent Biology Benchmark(LAB-Bench),这是一个包含 2400 多道选择题的广泛数据集,用于评估人工智能系统在一系列实用生物学研究能力方面的表现,包括文献回忆和推理、数字解释、数据库访问和导航以及 DNA 和蛋白质序列的理解和操作。

作为对前沿语言模型的新兴科学任务能力的初步评估,他们根据这一基准衡量了几个模型的性能,并报告了与人类生物学专家研究人员的比较结果。

论文链接:
https://arxiv.org/abs/2407.10362

7.CellAgent:用于单细胞数据自动分析的 LLM 驱动型多智能体框架

单细胞 RNA 测序(scRNA-seq)数据分析对生物学研究至关重要,因为它能精确描述细胞的异质性。然而,对于研究人员来说,手动操作各种工具以获得理想结果可能会耗费大量人力物力。

为了解决这个问题,来自西北工业大学和天津大学的研究团队及其合作者,提出了一个 LLM 驱动的多智能体框架——CellAgent,其专门用于自动处理和执行 scRNA-seq 数据分析任务,无需人工干预即可提供高质量的结果。

首先,为使通用 LLM 适应生物领域,CellAgent 构建了 LLM 驱动的生物专家角色——规划者、执行者和评估者,每个角色都有特定职责。然后,CellAgent 引入了分层决策机制来协调这些生物专家,从而有效推动复杂数据分析任务的规划和逐步执行。 此外,他们还提出了一种自迭代优化机制,使 CellAgent 能够自主评估和优化解决方案,从而保证输出质量。

他们在一个涵盖数十种组织和数百种不同细胞类型的综合基准数据集上对 CellAgent 进行了评估。评估结果表明,CellAgent 能有效识别最适合单细胞分析任务的工具和超参数,实现最佳性能。

论文链接:
https://arxiv.org/abs/2407.09811

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值