大模型日报|今日必读的 10 篇大模型论文

在这里插入图片描述

大家好,今日必读的大模型论文来啦!

1.谷歌推出个人健康大语言模型 PH-LLM

在健康领域,大多数大语言模型(LLM)研究都集中在临床任务上。然而,移动和可穿戴设备却很少被整合到此类任务中,它们为个人健康监测提供了丰富的纵向数据。

来自谷歌的研究团队提出了个人健康大语言模型(PH-LLM),该模型由 Gemini 微调而来,用于理解和推理数值时间序列个人健康数据。他们创建并策划了三个数据集,分别测试:1)从睡眠模式、身体活动和生理反应中生成个性化见解和建议;2)专家领域知识;3)预测自我报告的睡眠结果。对于第一项任务,他们与领域专家合作设计了 857 个案例研究,以评估睡眠和健身方面的真实场景。通过对特定领域的评分标准进行综合评估,他们发现 Gemini Ultra 1.0 和 PH-LLM 在健身方面与专家的表现没有统计学差异,虽然专家在睡眠方面仍然更胜一筹,但对 PH-LLM 进行微调后,在使用相关领域知识和个性化信息进行睡眠洞察方面有了显著改善。他们通过睡眠医学和健身考试的多项选择来评估 PH-LLM 的领域知识。PH-LLM 在睡眠方面的得分率为 79%,在健身方面的得分率为 88%,超过了人类专家样本的平均得分。最后,他们训练 PH-LLM 从可穿戴数据的文本和多模态编码表征中预测自我报告的睡眠质量结果,并证明多模态编码是匹配专业判别模型性能的必要条件。

虽然在对安全至关重要的个人健康领域还需要进一步的开发和评估,但这些结果证明了 Gemini 模型的广泛知识和能力,以及将生理数据情景化用于个人健康应用的好处,就像 PH-LLM 所做的那样。

论文链接:
https://arxiv.org/abs/2406.06474

2.混合智能体 MoA:利用多个 LLM 的集体优势

大语言模型(LLM)的最新进展展示了其在自然语言理解和生成任务中的强大能力。随着 LLM 数量的不断增加,如何利用多个 LLM 的集体专长是一个令人兴奋的开放性方向。

为了实现这一目标,Together AI 研究团队提出了一种新方法,通过混合智能体(MoA)方法利用多个 LLM 的集体优势。他们构建了一个分层的 MoA 架构,其中每一层都包含多个 LLM 智能体。每个智能体在生成响应时,都会将上一层智能体的所有输出作为辅助信息。

MoA 模型在 AlpacaEval 2.0、MT-Bench 和 FLASK 上达到了 SOTA,超过了 GPT-4 Omni。例如,他们仅使用开源 LLM 的 MoA 在 AlpacaEval 2.0 中遥遥领先,得分率达到 65.1%,而 GPT-4 Omni 为 57.5%。

论文链接:
https://arxiv.org/abs/2406.04692
GitHub链接:
https://github.com/togethercomputer/moa

3.WildBench:通过真实用户的复杂任务基准测试大语言模型

艾伦人工智能研究所推出了WildBench,一种用于基准测试大语言模型(LLMs)的自动化评估框架,专门针对现实世界中的复杂用户查询。WildBench从超过一百万条人机对话日志中精心挑选了1024个任务,用于全面测试模型性能。

为了实现自动评估,WildBench 引入了两个新指标:WB-Reward和WB-Score,这些指标可通过先进的LLMs(如GPT-4-turbo)计算得出。WildBench采用特定任务的检查清单系统地评估模型输出,并提供结构化解释来支持评分和比较的合理性,从而实现更可靠和可解释的自动评判。

WB-Reward通过对模型响应的细粒度成对比较,生成五种可能的结果:好很多、稍好、稍差、差很多或平局。与以往只使用单一基准模型的评估方法不同,他们选择了三个不同性能水平的基准模型,确保评估的全面性。此外,他们提出了一种简单的方法来减轻长度偏差:如果获胜响应比失败响应多出超过K个字符,则将“稍好/稍差”的结果转换为“平局”。

WB-Score则独立评估模型输出的质量,使其成为一种快速且成本效益高的评估指标。WildBench的结果显示,它与Chatbot Arena的人类投票Elo评分具有很高的相关性。在复杂任务中,WB-Reward与顶级模型的皮尔逊相关系数达到了0.98。此外,WB-Score达到了0.95,超越了ArenaHard的0.91和AlpacaEval2.0的0.89(长度控制下的胜率),以及常规胜率的0.87。

论文链接:
https://arxiv.org/abs/2406.04770

4.Meta 和香港科技大学推出CRAG,弥补现有RAG数据差距

基于检索增强生成(RAG)的解决方案最近被视为缓解大语言模型(LLM)知识不足问题的有力方案。然而,现有的RAG数据集未能充分代表真实世界问答(QA)任务的多样性和动态性。为弥补这一差距,Meta 和香港科技大学提出了Comprehensive RAG Benchmark(CRAG),这是一个包含4409个问答对的事实问答基准测试,并提供模拟网络和知识图谱(KG)搜索的模拟API。

CRAG旨在涵盖五个领域和八个问题类别的多样化问题,反映从热门到长尾的不同实体流行度,以及从几年到几秒的时间动态性。他们对该基准的评估显示出完全可信的问答存在的差距。目前最先进的LLM在CRAG上的准确率不超过34%,而简单地加入RAG只将准确率提高到44%。最先进的行业RAG解决方案仅能无误地回答63%的问题。

CRAG还揭示了在回答动态性更高、流行度更低或复杂性更高的事实问题时,准确率显著降低,这表明未来的研究方向。CRAG基准为KDD Cup 2024挑战赛奠定了基础,在比赛的前50天内吸引了数千名参与者和提交。他们承诺将持续维护CRAG,以支持研究社区在RAG解决方案和通用QA解决方案方面的进步。

论文链接:
https://arxiv.org/abs/2406.04744

5.GenAI Arena:一种生成模型的开放评估平台

在创新算法、架构和数据驱动下,生成式人工智能在图像和视频生成领域取得了显著进展。然而,生成模型缺乏可信的评估指标。目前的自动评估方法,如FID、CLIP、FVD等,往往无法捕捉生成输出的细微质量和用户满意度。为了解决这一问题,滑铁卢大学团队提出了一个开放平台GenAI-Arena,用于评估不同的图像和视频生成模型,让用户积极参与评估这些模型。通过利用集体用户反馈和投票,GenAI-Arena旨在提供一种更民主和准确的模型性能衡量方法。平台涵盖三个领域:文本到图像生成、文本到视频生成和图像编辑。目前,涵盖了共27个开源生成模型。

他们描述了平台的运行情况,分析了数据,并解释了用于模型排名的统计方法。为了进一步促进基于模型的评估指标的研究,他们发布了三个任务的清理版偏好数据,即GenAI-Bench。ta提示现有的多模态模型如Gemini和GPT-4o模仿人类投票。

他们的结果显示,现有的多模态模型在评估生成的视觉内容方面仍然滞后。即使是表现最好的模型GPT-4o在质量评分中的皮尔逊相关系数也仅为0.22,而在其他方面的表现则类似于随机猜测。这表明,现有模型在判断生成内容质量方面还有很大的改进空间。

论文链接:
https://arxiv.org/abs/2406.04485

6.通过黑箱访问对大语言模型进行信心估计

在评估模型响应的可靠性以及整体信任度方面,估计模型的不确定性或信心具有重要意义。IBM Research探讨了仅通过黑箱或查询访问来估计大语言模型(LLM)响应信心的问题。他们提出了一个简单且可扩展的框架,通过设计新颖的特征,并在这些特征上训练一个可解释的模型(如逻辑回归),来估计信心。

实验证明,他们的简单框架在估计flan-ul2、llama-13b和mistral-7b的信心方面非常有效,并且在基准数据集(如TriviaQA、SQuAD、CoQA和Natural Questions)上的表现稳定优于现有的黑箱信心估计方法,部分情况下在AUROC上提升了超过10%。此外,他们的可解释方法提供了对预测信心特征的深入洞察,揭示了一个有趣且有用的发现:为一个LLM构建的信心模型能够在给定数据集上零样本泛化到其他LLM。

论文链接:
https://arxiv.org/abs/2406.04370

7.Google DeepMind推出现实规划基准 NATURAL PLAN

Google DeepMind 推出了一个用自然语言编写的现实规划基准——NATURAL PLAN,其包含 3 个关键任务:行程规划、会议规划和日程安排。

他们通过提供 Google Flights、Google Maps 和 Google Calendar 等工具的输出作为模型的上下文,将评估重点放在具有完整任务信息的 LLM 的规划能力上。这样,在评估 LLM 的规划能力时就不需要工具使用环境了。

他们发现,NATURAL PLAN对于最先进的模型来说是一个具有挑战性的基准。例如,在行程规划中,GPT-4 和 Gemini 1.5 Pro 分别只能达到 31.1% 和 34.8% 的求解率。随着问题复杂度的增加,模型的性能也急剧下降:当有 10 个城市时,所有模型的性能都低于 5%,这凸显了 SoTA LLM 在自然语言规划方面的巨大差距。

他们还对 NATURAL PLAN 进行了广泛的消融研究,以进一步揭示自我修正、少量泛化和长上下文规划等方法在改进 LLM 规划方面的(无效)效果。

论文链接:
https://arxiv.org/abs/2406.04520

8.谷歌推出Proofread: 一键修复所有错误

大语言模型(LLM)所展现的卓越功能,提供了一种创新的方式来重塑用户的打字体验。谷歌在Gboard中推出了的一项全新功能——Proofread。该功能由服务器端LLM提供强大支持,用户仅需轻点一下,即可实现句子和段落级别的流畅校正。他们从数据生成、度量设计,到模型优化和部署,对整个系统流程进行了详尽阐述。

为了确保模型质量,他们打造了一条专为在线应用设计的数据合成流程,构建了多元化的评价指标,并采用两阶段的优化方法来训练专用LLM。首先,他们运用监督微调(SFT)来提升模型的基础质量,随后利用强化学习(RL)调优方法来精确调整模型目标。值得一提的是,他们发现,在SFT阶段,按顺序对重写和校对任务进行优化能产生最佳效果。而在RL调优阶段,他们提出了全局和直接奖励机制,以追求模型的进一步完善。

经过在人工标注的黄金数据集上进行广泛实验,他们调优后的PaLM2-XS模型达到了85.56%的优秀率。目前,他们已在Google Cloud的TPU v5上部署了该模型,并在Pixel 8设备上推出了Proofread功能,吸引了数千名日活跃用户。此外,通过量化、桶推理、文本分割和推测解码等技术手段,他们显著降低了服务延迟,从而为用户提供了更加流畅的使用体验。

论文链接:
https://arxiv.org/abs/2406.04523

9.阿里巴巴团队提出C4:一种通信驱动的优化策略

随着大语言模型(LLM)的崛起,采用并行训练技术变得至关重要,这通常涉及部署数千个GPU来训练单个模型。然而,阿里巴巴团队观察到当前并行训练的效率并不理想,主要受制于两大挑战。首先,硬件故障难以避免,一旦发生,训练任务便会中断。由于故障组件难以迅速识别,这导致GPU资源被大量浪费。其次,由于GPU需要等待参数同步的完成才能进行下一轮计算,网络拥塞会显著增加GPU的等待时间。

为了克服这些挑战,阿里巴巴团队提出了一种通信驱动的优化方案——C4。C4的核心思想体现在两个方面。首先,它认识到在并行训练中,集体通信展现出周期性和同质性的特性,这意味着任何异常通常都源于某种形式的硬件故障。利用这一特性,C4能够迅速识别并隔离故障组件,迅速重启任务,从而避免因异常检测延迟导致的资源浪费。其次,集体通信的可预测通信模型,其涉及的大流量传输较少,使得C4能够有效地进行流量规划,显著减少网络拥塞。

C4已经在生产系统中得到了广泛应用。对于某些通信成本适中的应用程序,C4成功地将错误引起的开销减少了约30%,并将运行时性能提升了约15%,从而显著提升了大规模并行训练的效率。

论文链接:
https://arxiv.org/abs/2406.04594

10.斯坦福新研究:为何预测特定下游能力在规模化时的表现仍如此难以捉摸

对于高级AI系统而言,预测其行为的可预测性无疑是一个极其理想的特性。尽管关于预训练性能如何评估的文献已经相当完善,但在衡量特定下游能力方面,现有的文献却显得较为混乱。在这项工作中,斯坦福CS团队深入探讨了这一问题:为何预测特定下游能力在规模化时的表现仍如此难以捉摸?

他们识别到,虽然众多因素均对此有所影响,但其中一个新的因素尤为关键,它使得在广泛使用的多项选择题回答基准上建模缩放行为变得颇具挑战性。通过运用五个不同的模型族和十二个精心设计的多项选择基准,他们揭示了下游性能是如何通过一系列逐渐降低的性能与规模之间统计关系的转换,从负对数似然中计算得出的。

进一步地,他们揭示了导致这种性能退化的机制:下游指标需要将正确的选择与少数特定的错误选择进行比较。这意味着,准确预测下游能力不仅要求预测概率质量如何随规模的增加集中在正确的选择上,还需要预测概率质量如何随规模在特定的错误选择上波动。

他们通过实证研究,探讨了正确选择与错误选择之间概率质量随计算量增加的协变规律,并证明了错误选择的标度规律是可以实现的。此外,他们的工作还解释了为何预训练缩放定律通常被认为比下游能力更易于预测,并为建立前沿人工智能模型的缩放可预测评估提供了有价值的见解。

论文链接:
https://arxiv.org/abs/2406.04391

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值