大模型日报|12 篇必读的大模型论文

在这里插入图片描述
大家好,今日必读的大模型论文来啦!

1.SpreadsheetBench:挑战真实世界的电子表格操作

来自中国人民大学、清华大学和智谱AI 的研究团队提出了一个具有挑战性的电子表格操作基准 SpreadsheetBench,其完全来自真实世界的场景,旨在让当前的大语言模型(LLM)沉浸在电子表格用户的实际工作流程中。

与依赖合成查询和简化电子表格文件的现有基准不同,SpreadsheetBench 是根据从在线 Excel 论坛收集的 912 个真实问题构建的,这些问题反映了用户各种各样的需求。论坛中的相关电子表格包含各种表格数据,如多表、非标准关系表和大量非文本元素。

此外,他们还提出了一种类似于在线法官平台的更可靠的评价指标,即为每个指令创建多个电子表格文件作为测试用例,确保评价出能够处理不同数值的电子表格的鲁棒性解决方案。他们在单轮和多轮推理设置下对各种 LLM 进行了全面评估,结果表明 SOTA 模型与人类表现之间存在巨大差距,这凸显了该基准的难度。

论文链接:
https://arxiv.org/abs/2406.14991
GitHub 链接:
https://spreadsheetbench.github.io/

2.FL-GLM:隐私、高效的 LLM 联邦学习框架

与公共数据相比,私人数据规模更大、质量更高,可以极大地改进大语言模型(LLM)。然而,出于对隐私的考虑,这些数据通常分散在多个孤岛中,这使得安全利用这些数据进行 LLM 训练成为一项挑战。

联邦学习(FL)是利用分布式隐私数据训练模型的理想解决方案,但 FedAvg 等传统框架对客户端的计算要求很高,因此不适合用于 LLM。另一种替代方案——分割学习(split learning)将大部分训练参数卸载(offload)到服务器上,同时在本地训练嵌入层和输出层,因此更适合 LLM。然而,它在安全性和效率方面面临着巨大挑战。首先,嵌入的梯度容易受到攻击,可能导致私人数据可能被逆向工程。此外,服务器每次只能处理一个客户端的训练请求,这也阻碍了并行训练,严重影响了训练效率。

来自北京航空航天大学和北京微芯区块链与边缘计算研究院的研究团队为 LLM 提出了一种联邦学习框架——FL-GLM,它可以防止服务器端和对等客户端攻击造成的数据泄露,同时提高训练效率。具体来说,他们首先将输入块和输出块放在本地客户端,从而防止来自服务器的嵌入梯度攻击。其次,他们在客户端与服务器通信时采用密钥加密,从而防止来自对等客户端的逆向工程攻击。

最后,他们采用了客户端分批或服务器分层等优化方法,根据服务器的实际计算能力采用不同的加速方法。在 NLU 和生成任务上的实验结果表明,FL-GLM 实现了与 ChatGLM 模型相当的指标,验证了他们的联邦学习框架的有效性。

论文链接:
https://arxiv.org/abs/2406.14898

3.清华、微软新研究:梯度掩码微调可提升 LLM 性能上限

大语言模型(LLM)给许多研究领域带来了革命性的变化。众所周知,微调对提高 LLM 的能力至关重要,但现有研究表明,微调过程中可能存在冗余,因此建议只更新参数的子集。

然而,这些方法未能在训练过程中利用特定任务信息来识别重要参数。基于梯度本身包含任务特定数据信息这一见解,来自清华大学和微软的研究团队提出了一种在训练过程中根据梯度信息有选择地更新参数的方法 ——梯度掩码微调 Gradient-Mask Tuning(GMT)。具体来说,他们先计算梯度的绝对值,然后对梯度相对较小的参数进行屏蔽。

在各种任务中的实证结果表明,GMT 不仅优于传统的微调方法,而且还提高了 LLM 性能的上限。进一步的分析表明,GMT 对掩码比率不敏感,其计算效率可与 vanilla SFT 相媲美。

论文链接:
https://arxiv.org/abs/2406.15330

4.清华、北邮团队提出 iAgents:信息不对称条件下的协作任务自主智能体

大语言模型多智能体系统(LLM-MAS)在解决复杂任务方面取得了长足的进步。它在共享信息的前提下,执行系统内智能体之间的通信,协同解决任务。

然而,当利用智能体的通信来加强人类合作时,由于每个智能体只能获取其人类用户的信息,信息不对称带来了新的挑战。在这种情况下,以往的 MAS 难以完成任务。为此,来自清华大学和北京邮电大学的研究团队提出了一种新的 MAS 范式 —— 即信息型多智能体系统 Informative Multi-Agent Systems(iAgents)。

在 iAgents 中,人类的社会网络反映在智能体网络中,智能体主动交流解决任务所需的人类信息,从而克服信息不对称问题。与 InfoNav 一起,iAgents 将人类信息组织到混合存储器中,为智能体提供准确而全面的交流信息。此外,他们还提出了 InformativeBench,它是首个为评估 LLM 智能体在信息不对称情况下的任务解决能力而量身定制的基准。实验结果表明,iAgents 可以在由 140 个个体和 588 个关系组成的社交网络中进行协作,自主交流超过 30 个回合,并从近 70000 条信息中检索信息,在 3 分钟内完成任务。

论文链接:
https://arxiv.org/abs/2406.14928

5.Image Conductor:交互式视频合成的精确控制

电影制作和动画制作通常需要复杂的技术来协调摄像机的转换和物体的移动,通常涉及劳动密集型的真实世界捕捉。

尽管用于视频创作的生成式人工智能取得了进步,但要在生成交互式视频资产时实现对运动的精确控制仍具有挑战性。为此,来自北京大学和腾讯的研究团队提出了一种精确控制摄像机转换和物体运动的方法 —— 图像指挥器(Image Conductor),可通过单张图像生成视频资产。他们提出了一种训练有素的策略,通过摄像机 LoRA 权重和物体 LoRA 权重来区分不同的摄像机和物体运动。

为了进一步解决由不确定轨迹引起的电影变异问题,他们在推理过程中提出了一种无摄像机引导技术,在消除摄像机转换的同时增强了物体运动。此外,他们还开发了面向轨迹的视频运动数据整理管道用于训练。定量和定性实验证明了该方法在从图像生成运动可控视频方面的精确性和细粒度控制,推动了交互式视频合成的实际应用。

论文链接:
https://arxiv.org/abs/2406.15339
GitHub 地址:
https://liyaowei-stu.github.io/project/ImageConductor/

6.UC伯克利新研究:多模态任务向量可使 LLM 执行多模态、多样本上下文学习

目前,交错大型多模态模型(LMM)在少样本学习方面取得了成功,这表明使用大量示例的情境学习(ICL)在学习新任务方面大有可为。

然而,这种多样本多模态 ICL 设置有一个关键问题 —— 它从根本上受到预训练时设定的模型上下文长度的限制。这一问题在多模态领域尤为突出,因为该领域同时处理文本和图像,需要额外的 token。这就导致需要一种多模态方法,在不进行微调的情况下将许多样本压缩成更少的 token。为此,来自加州大学伯克利分校、IBM 研究和麻省理工学院的研究团队利用多模态任务向量(MTV)压缩在模型注意力头中的上下文示例的紧凑隐式表示,使 LMM 能够执行多模态、多样本的上下文学习。具体来说,他们首先证明了 LMM 中存在这种 MTV,然后利用这些提取的 MTV 在各种视觉和语言任务中实现多样本上下文学习。

实验表明,MTV 的性能可以随着压缩样本数量的增加而提高,并且可以泛化到类似的域外任务中,而无需额外推理上下文长度。

论文链接:
https://arxiv.org/abs/2406.15334

7.鄂维南团队推出分子预训练模型 Uni-Mol2

目前,预训练模型在自然语言处理(NLP)、计算机视觉(CV)和生命科学领域取得了重大进展。NLP 和 CV 领域的重大进展主要是由模型参数和数据规模的扩大推动的,这种现象现在被公认为缩放定律。

然而,在分子预训练模型中探索缩放规律的研究仍处于探索阶段。来自北京深势科技、北京 AI 科学研究所和北京大学的研究团队提出了一种创新的分子预训练模型 Uni-Mol2,它利用双轨 transformer 有效地整合了原子层、图层和几何结构层的特征。与此同时,他们系统地研究了分子预训练模型的扩展规律,确定了验证损失与模型大小、数据集大小和计算资源之间的幂律相关性。因此,通过对 8 亿个构象进行预训练,他们成功地将 Uni-Mol2 扩展到 11 亿个参数,使其成为最大的分子预训练模型。

实验表明,随着模型规模的扩大,下游任务也在不断改进。拥有 11 亿个参数的 Uni-Mol2 也优于现有方法,在 QM9 数据集上平均提高了 27%,在 COMPAS-1D 数据集上平均提高了 14%。

论文链接:
https://arxiv.org/abs/2406.14969

8.清华、无问芯穹团队提出混合注意力(MoA)

稀疏注意力可以有效缓解大语言模型(LLM)在长上下文中对内存和吞吐量的巨大需求。现有方法通常采用统一的稀疏注意力掩码,在不同的注意力头和输入长度中应用相同的稀疏模式。

然而,这种统一方法无法捕捉 LLM 固有的多种注意力模式,忽略了它们在准确性和延迟之间的权衡。为此,来自清华大学、无问芯穹和斯坦福大学的研究团队提出了混合注意力(MoA),它能自动根据不同的头和层调整不同的稀疏注意力配置。

MoA 构建并浏览各种注意力模式的搜索空间及其相对于输入序列长度的缩放规则。它对模型进行剖析,评估潜在配置,并确定最佳稀疏注意力压缩方案。MoA 可适应不同的输入大小,揭示出一些注意头会扩大其关注范围以适应更长的序列,而其他注意头则始终专注于固定长度的局部上下文。

实验表明,在平均注意力跨度相同的情况下,MoA 将有效上下文长度增加了 3.9 倍,在 Vicuna-7B、Vicuna-13B 和 Llama3-8B 模型中,与统一注意力基线相比,检索准确率提高了 1.5-7.1 倍。此外,MoA 还缩小了稀疏模型和密集模型之间的能力差距,在两个长上下文理解基准测试中,最大相对性能降幅从 9%-36% 降到了 5% 以内。对于单 GPU 上的 7B 和 13B 密集模型,MoA 实现了 1.2-1.4 倍的 GPU 内存缩减,并将解码吞吐量提高了 5.5-6.7 倍,而对性能的影响却微乎其微。

论文链接:
https://arxiv.org/abs/2406.14909

9.一图胜千言?深入研究视觉语言模型的空间推理

大语言模型(LLM)和视觉语言模型(VLM)在各种任务和领域中都表现出了卓越的性能。尽管如此,空间理解和推理人类认知的基本组成部分仍未得到充分探索。

来自威斯康星大学麦迪逊分校和微软的研究团队开发的新基准涵盖了空间推理的各个方面,如关系理解、导航和计数。他们对竞争性语言和视觉语言模型进行了全面评估。

他们的研究结果揭示了文献中一直被忽视的几个反直觉的见解:(1)空间推理带来了巨大的挑战,竞争性模型可能会落后于随机猜测(2)尽管有额外的视觉输入,但视觉语言模型的表现往往低于其 LLM 对应模型(3)当文本和视觉信息都可用时,如果提供足够的文本线索,多模态语言模型对视觉信息的依赖性会降低。此外,他们还证明了利用视觉和文本之间的冗余可以显著提高模型性能。他们希望能为开发多模态模型提供参考,从而提高空间智能,进一步缩小与人类智能的差距。

论文链接:
https://arxiv.org/abs/2406.14852

10.LLMs 能以教促学吗

通过教学来改进学生模型(如知识提炼)是一种被广泛研究的大语言模型(LLM)方法。

然而,对于人类来说,教学不仅能提高学生的能力,还能提高教师的能力。那么,LLM 也能通过教学(LbT)来学习吗?如果可以,研究者就有可能在不完全依赖人类生成的数据或更强的模型的情况下,解锁不断改进模型的可能性。

来自清华大学、鲁汶大学和无问芯穹的研究团队及其合作者对这一雄心勃勃的计划进行了初步探索。他们的研究表明,LbT 思想可以融入现有的 LLM 训练提示管道,并带来明显的改进。具体来说,他们设计了三种方法,每种方法分别模仿了人类 LbT 三个层次 —— 观察学生的反馈、从反馈中学习以及迭代学习,目标是在不进行训练的情况下提高答案准确率,并通过微调提高模型的内在能力。研究结果发现 :(1)LbT 可以诱导弱到强的泛化:强模型可以通过教其他弱模型来提高自己(2)学生的多样性可能会有所帮助:教多个学生可能比教一个学生或老师本身更好。他们希望这一早期承诺能激励未来对 LbT 的研究,并在教育领域更广泛地采用先进技术来改进 LLM。

论文链接:
https://arxiv.org/abs/2406.14629
GitHub 地址:
https://github.com/imagination-research/lbt

11.Stylebreeder:通过文生图模型探索艺术风格并使之民主化

目前,文生图模型正变得越来越流行,通过实现高度精细和创造性的视觉内容生成,彻底改变了数字艺术创作的面貌。这些模型已被广泛应用于艺术创作等各个领域,促进了广泛的创意表达,并使艺术创作更加民主化。

来自弗吉尼亚理工大学和苏黎世联邦理工学院的研究团队及其合作者提出了一个由 Artbreeder 上的 95K 用户生成的包含 680 万张图片和 180 万条提示的综合数据集 Stylebreeder。Artbreeder 是一个拥有超过 1300 万用户的平台,已成为创意探索的重要枢纽。他们利用该数据集提出了一系列任务,旨在识别不同的艺术风格、生成个性化内容并根据用户兴趣推荐风格。

通过记录超越 “赛博朋克”或 “毕加索”等传统类别的独特的用户生成风格,他们探索了独特的众包风格的潜力,这些风格可以深入洞察全球用户的集体创作心理。他们还评估了不同的个性化方法,从而增强艺术表现力,并提出了一个风格图集,将这些模型以 LoRA 格式提供给公众使用。他们的研究展示了文生图扩散模型在发掘和推广独特艺术表现形式方面的潜力,进一步实现了人工智能在艺术领域的民主化,促进了艺术界的多元化和包容性。

论文链接:
https://arxiv.org/abs/2406.14599
GitHub 地址:
https://stylebreeder.github.io/

12.LongRAG:利用长上下文 LLM 增强检索增强生成功能

在传统的 RAG 框架中,基本检索单元通常很短。常见的检索器如 DPR,通常使用 100 字的维基百科段落。这样的设计迫使检索器在庞大的语料库中寻找“针”单元。相比之下,读者只需要从检索到的简短单元中提取答案。这种不平衡的“重型”检索器和“轻型”阅读器设计会导致性能不达标。

为此,来自滑铁卢大学的研究团队提出了一个由 “长检索器”和“长阅读器”组成的新框架 LongRAG。LongRAG 将整个维基百科处理成 4K token 单元,比以前长了 30 倍。通过增加单元大小,他们将总单元数从 22M 大幅减少到 700K。这大大减轻了检索器的负担,从而获得了显著的检索得分:在 NQ 上,答案召回率@1=71%(以前为 52%);在 HotpotQA(全维基)上,答案召回率@2=72%(以前为 47%)。然后,他们将检索到的前 k 个单元(约为 30K token)输入现有的长上下文 LLM,从而执行零样本答案提取。无需任何训练,LongRAG 在 NQ 上实现了 62.7% 的 EM,这是已知的最佳结果。LongRAG 还在 HotpotQA(全维基)上实现了 64.3%,与 SOTA 模型相当。他们的研究为未来将 RAG 与长上下文 LLM 相结合的路线图提供了启示。

论文链接:
https://arxiv.org/abs/2406.15319

  • 19
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值