大模型日报|今日必读的 9 篇大模型论文

在这里插入图片描述

大家好,今日必读的大模型论文来啦!

1.MC-GPT:利用记忆图和推理链增强视觉和语言导航能力

在视觉语言导航(VLN)任务中,智能体(agent)需要根据自然语言指令导航到目的地。虽然基于学习的方法一直是该任务的主要解决方案,但它们存在训练成本高和缺乏可解释性的问题。最近,大型语言模型(LLM)因其强大的泛化能力而成为 VLN 的一种有前途的工具。然而,现有的基于 LLM 的方法在记忆构建和导航策略多样性方面存在局限性。

为了应对这些挑战,来自中山大学的研究团队提出了一系列新技术。首先,他们提出了一种维护拓扑图的方法,拓扑图存储导航历史,保留视点、对象及其空间关系的信息。该地图还可用作全局行动空间。此外,他们还提出了导航思维链模块,利用人类导航实例来丰富导航策略的多样性。最后,他们建立了一个管道,将导航记忆和策略与感知和行动预测模块整合在一起。在 REVERIE 和 R2R 数据集上的实验结果表明,这一方法有效增强了 LLM 的导航能力,提高了导航推理的可解释性。

论文链接:
https://arxiv.org/abs/2405.10620

2.综述:基于基础模型的智能体的架构设计

由基础模型支持的生成式人工智能促进了代理的开发和实施,代理可以利用杰出的推理和语言处理能力,发挥主动、自主的作用,追求用户的目标。然而,目前还缺乏系统的知识来指导从业人员在设计代理时考虑目标追求(包括生成工具性目标和计划)所面临的挑战,如基础模型固有的幻觉、推理过程的可解释性、复杂的责任等。

为了解决这个问题,来自澳大利亚联邦科学与工业研究组织(CSIRO)的研究团队进行了系统的文献综述,从而了解最先进的基于基础模型的智能体和更广泛的生态系统。在该论文中,他们提出了一个由 16 个架构模式组成的模式目录。建议的目录可为有效使用模式提供整体指导,并通过促进目标搜索和计划生成来支持基于基础模型的智能体的架构设计。

论文链接:
https://arxiv.org/abs/2405.10467

3.斯坦福大学、多伦多大学提出可观测 Scaling law

了解语言模型的性能如何随规模变化对基准和算法开发至关重要。Scaling law 是建立这种理解的一种方法,但由于需要在许多不同尺度上对模型进行训练,因此限制了其使用。

来自斯坦福大学、多伦多大学的研究团队提出了另外一种观察方法,即绕过模型训练,从约 80 个公开可用的模型中建立 Scaling law。由于多个模型系列在训练计算效率和能力方面存在巨大差异,因此从这些模型系列中建立单一的 Scaling law 具有挑战性。然而,他们的研究表明,这些差异与简单的广义 Scaling law 是一致的,即语言模型的性能是低维能力空间的函数,而模型族仅在将训练计算转换为能力的效率上存在差异。

利用这种方法,他们展示了复杂的 Scaling 现象令人惊讶的可预测性:展示了几种新出现的现象遵循平滑的 S 型增长模式,并且可以从小型模型中预测;展示了 GPT-4 等模型的智能体性能可以从更简单的非智能体基准中精确预测;还展示了随着语言模型能力的不断提高,如何预测思维链和自我一致性(Self-Consistency)等训练后干预措施的影响。

论文链接:
https://arxiv.org/abs/2405.10938

4.综述:多语言大模型的最新进展与前沿展望

大型语言模型(LLMs)的快速发展展示了自然语言处理领域卓越的多语言能力,吸引了全球学术界和产业界的关注。为了减少潜在的歧视,提高不同语言用户群体的整体可用性和可访问性,开发语言公平技术非常重要。尽管 LLM 取得了突破性进展,但对多语言应用场景的研究仍显不足,因此需要进行全面调查,总结最新方法、发展、局限性和潜在解决方案。

为此,来自北京交通大学、蒙特利尔大学和清华大学的研究团队,从多个角度对多语种场景中的 LLMs 使用情况进行了调查。首先,他们重新思考了以往和当前关于预训练语言模型的研究之间的过渡。然后,他们从多个角度介绍了 LLM 的多语言性,包括训练和推理方法、模型安全性、多领域语言文化以及数据集的使用。他们还讨论了在这些方面出现的主要挑战以及可能的解决方案。此外,他们还强调了未来的研究方向,从而进一步加强多语言 LLM。该综述旨在帮助研究界解决多语言问题,全面了解基于 LLM 的多语言自然语言处理的核心概念、关键技术和最新进展。

论文链接:
https://arxiv.org/abs/2405.10936

5.综述:高效多模态大型语言模型

在过去的一年里,多模态大语言模型(MLLMs)在视觉问题解答、视觉理解和推理等任务中表现出了卓越的性能。然而,庞大的模型规模以及高昂的训练和推理成本阻碍了 MLLM 在学术界和工业界的广泛应用。因此,研究高效、轻量级的 MLLM 具有巨大的潜力,尤其是在边缘计算场景中。

在这项工作中,来自腾讯、上海交通大学、北京智源人工智能研究院和华东师范大学的研究团队,对高效 MLLM 的现状进行了全面系统的回顾。具体来说,他们总结了具有代表性的高效 MLLM 的时间轴、高效结构和策略的研究现状以及应用。最后,他们讨论了当前高效 MLLM 研究的局限性以及未来的发展方向。

论文链接:
https://arxiv.org/abs/2405.10739
GitHub 地址:
https://github.com/lijiannuist/Efficient-Multimodal-LLMs-Survey

6.剑桥大学新研究:大模型预训练要靠“联邦学习”

生成式预训练大型语言模型(LLMs)在各种任务中表现出了令人印象深刻的性能,这要归功于它们所训练的前所未有的数据量。正如既定的 Scaling law 所表明的那样,LLMs 未来的性能提升取决于我们可以用于预训练的计算量和数据源。联邦学习(FL)有可能释放地球上的大部分数据和计算资源,而目前的 LLM 实践中,以数据中心为中心的训练方法并没有充分利用这些资源。

来自剑桥大学的研究团队提出了一种鲁棒、灵活、可复制的 FL 方法,该方法可在训练 LLM 时实现跨机构的大规模合作。这将调动更多的计算和数据资源,同时达到或可能超过集中式的性能。他们进一步证明了联合训练的有效性随着模型规模的扩大而扩大,并介绍了他们利用有限资源训练十亿规模联合 LLM 的方法。

论文链接:
https://arxiv.org/abs/2405.10853

7.我们从 Sora 那里看到了什么?文本到视频生成调查

人工智能取得了令人瞩目的成就,正朝着通用人工智能(AGI)的方向发展。由 OpenAI 开发的 Sora 能够模拟微小世界,可以说是这条发展道路上的一个里程碑。然而,尽管取得了显著成就,Sora 仍然遇到了各种亟待解决的障碍。

在这项工作中,来自纽卡斯尔大学和 FLock.io 的研究团队从文本到视频生成中拆解 Sora 的角度出发,对文献进行全面回顾,试图回答“From Sora What We Can See”这一问题。

具体来说,在介绍了一般算法的基本前提后,从三个相互垂直的维度对文献进行了分类:进化生成器(evolutionary generators)、卓越追求(excellent pursuit)和现实全景(realistic panorama)。随后,对广泛使用的数据集和指标进行了详细整理。最后,他们指出了这一领域的若干挑战和未决问题,并提出了未来潜在的研发方向。

论文链接:
https://arxiv.org/abs/2405.10674
GitHub 地址:
https://github.com/soraw-ai/Awesome-Text-to-Video-Generation

8.超越静态 AI 评测:针对 LLM 危害和风险的人机交互评估

模型评测对于了解人工智能系统的安全性、风险和社会影响至关重要。虽然现实世界中的大多数人工智能应用都涉及人与人工智能的互动,但目前对人工智能模型的大多数评测(如通用基准)都不涉及人与人工智能的互动。相反,它们以有限的方式将人的因素纳入其中,孤立地评估模型的安全性,从而无法捕捉人与模型互动的复杂性。

在这项工作中,来自牛津大学、Centre for the Governance of AI、Collective Intelligence Project 和 OpenAI 的研究团队,讨论了一种新兴的评估类别——“人机交互评估”(HIEs)——并对其进行了操作化定义,该类别侧重于评估人机交互或人类使用模型的过程和结果。首先,他们认为人机交互评估可用于提高安全评估的有效性,评估对人类的直接影响和特定互动的危害,并指导未来对模型社会影响的评估。其次,他们提出了一个以安全为重点的 HIE 设计框架——包含人类与 LLM 交互分类法——分为三个阶段:(1)确定风险或危害领域;(2)描述使用环境;(3)选择评测参数。然后,他们将这一框架应用于对过度依赖和劝说风险的两种潜在评估。最后,他们针对成本、可复制性和 HIE 的缺乏代表性等问题提出了切实可行的建议。

论文链接:
https://arxiv.org/abs/2405.10632

9.SmoothVLM:保护视觉-语言模型免受补丁视觉提示注入攻击

大型语言模型已变得越来越重要,也预示着人工智能的下一个前沿领域将转向多模态,即利用其嵌入作为生成文本内容的提示。视觉语言模型(VLM)站在了这一进步的最前沿,提供了将视觉和文本数据结合起来以增强理解和交互的创新方法。然而,这种整合也扩大了攻击面。基于补丁的对抗性攻击被认为是物理视觉应用中最常见的威胁模型。

在这项工作中,来自密歇根大学、威斯康星大学麦迪逊分校和中国科学技术大学的研究团队,提议解决补丁视觉提示注入问题,即对抗者利用对抗补丁在 VLM 中生成目标内容。研究发现,补丁对抗性提示对像素随机化很敏感,即使面对旨在抵消此类防御的自适应攻击,这种特性也能保持稳定。

利用这一洞察力,他们提出了 SmoothVLM,这是一种植根于平滑技术的防御机制,专门用于保护 VLM 免受补丁视觉提示注入器的攻击。这一框架大大降低了攻击成功率,在两个领先的 VLM 上,攻击成功率介于 0% 和 5.0% 之间,同时良性图像的上下文恢复率约为 67.3% 至 95.0%,在安全性和可用性之间实现了平衡。

论文链接:
https://arxiv.org/abs/2405.10529

  • 21
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值