Big Model Weekly | 第27期

点击蓝字

d964612a2586e09767a7412f256166ed.jpeg

关注我们

AI TIME欢迎每一位AI爱好者的加入!

01

Self-play with Execution Feedback: Improving Instruction-following Capabilities of Large Language Models

大规模语言模型(LLMs)的一个核心能力是遵循自然语言指令。然而,如何在不依赖人工标注的情况下自动构建高质量的训练数据,以增强LLMs的复杂指令跟随能力,仍然是一个未解决的问题。本文介绍了AUTOIF,这是第一个可扩展且可靠的方法,用于自动生成指令跟随训练数据。AUTOIF将指令跟随数据质量的验证转化为代码验证,要求LLMs生成指令、相应的代码来检查指令响应的正确性,以及用于验证代码正确性的单元测试样例。然后,通过基于执行反馈的拒绝采样,可以生成用于监督微调(SFT)和基于人类反馈的强化学习(RLHF)训练的数据。在应用于顶级开源LLMs(如Qwen2和LLaMA3)进行自对齐和强弱蒸馏设置时,AUTOIF在三种训练算法(SFT、离线DPO、在线DPO)上均取得了显著的改进。

91f9dd98bdf173d77134346abfc39034.png

3103fe7d2079990543970fa977bfb9fd.png

e8f135554c4b69b4877bf8cb04591456.png

d4698ba2e7e90439b0d7fecc0a4d3425.png

0d0def2ae61e861b1d5f07ec0f46db1a.png

c22a62316d1469e8fd8b35a7ea6cc91c.png

文章链接:

https://arxiv.org/pdf/2406.13542

02

Large language model validity via enhanced conformal prediction methods

本文开发了新的保形推断方法,以对大规模语言模型(LLMs)的输出提供有效性保证。先前在保形语言建模中的工作通过识别满足高概率正确性保证的文本子集来实现这些方法。这些方法的工作原理是,如果对主张进行评估的评分函数未能超过通过分割保形预测校准的阈值,就会从LLM的原始响应中筛选出主张。然而,现有方法存在两个缺陷。首先,声明的保证不是条件有效的。筛选步骤的可信度可能会因响应主题的不同而变化。其次,由于评分函数不完善,筛选步骤可能会移除许多有价值且准确的主张。作者通过两种新的保形方法解决了这两个挑战。首先,本文推广了Gibbs等人的条件保形程序,以在需要保留输出效用时自适应地提供较弱的保证。其次,文章展示了如何通过一种新的算法系统地改善评分函数的质量,该算法能够通过条件保形程序进行区分。本文在合成数据集和真实数据集上证明了所提方法的有效性。

ac7073f5376b7ff035d1d6df896fa213.png

8cbae2bf529620acdf7701b49083d941.png

1528dc546b30263dfb13154e56eb2a56.png

b2bfb3d7b7b35dbc91b42e5726285307.png

d168ea3e453d828dfd0bc734af08118e.png

文章链接:

https://arxiv.org/pdf/2406.09714

03

JEN-1 DreamStyler: Customized Musical Concept Learning via Pivotal Parameters Tuning

大型文本到音乐生成模型已经取得了显著进展,能够从提供的文本提示生成高质量且多样化的音乐作品。然而,输入的文本提示可能无法精确捕捉用户需求,特别是当目标是生成体现特定概念的音乐时,而这些概念来源于指定的参考音乐集。本文提出了一种用于自定义文本到音乐生成的新方法,该方法能够从两分钟的参考音乐中捕捉概念并生成符合该概念的新音乐作品。文章通过微调一个预训练的文本到音乐模型来实现这一目标。然而,直接微调所有参数会导致过拟合问题。为了解决这一问题,作者提出了一种关键参数微调方法,使模型在吸收新概念的同时保留其原有的生成能力。此外,文章还识别出在引入多个概念时可能出现的概念冲突问题。文章提出了一种概念增强策略,用于区分多个概念,使微调后的模型能够生成包含单个或多个概念的音乐。文章还为这一新任务引入了一个新的数据集和评估协议。在定性和定量评估中,Jen1-DreamStyler在多个基准测试中表现优于其他方法。

fc464e5d17443079fb2cb9c2328eb909.png

9620f47f7fbc66e1e963526716e14aec.png

549e66242f5d680b9f01fc42e9a9e0cd.png

ddd99cdda245a0dd0035c96dd6d51085.png

14f257b5203da970147b5e9dfd431815.png

ef1001f193d88a40d8c027562f1e7e45.png

文章链接:

https://arxiv.org/pdf/2406.12292

04

Evaluating Numerical Reasoning in Text-to-Image Models

文本到图像生成模型能够生成高质量的图像,通常能够忠实地描绘自然语言描述的概念。在本研究全面评估了一系列文本到图像模型在不同难度数值推理任务中的表现,结果显示,即使是最先进的模型也仅具备初步的数值能力。具体来说,这些模型在图像中正确生成确切数量的物体的能力仅限于较小的数字,并且高度依赖于数字术语出现的上下文环境,而且这种能力会随着数字的增加迅速下降。本文还证明了这些模型对语言量词(如“少量”或“多达”)的理解能力较差,对零的概念不清晰,并且在处理更高级的概念(如部分数量和分数表示)时存在困难。作者将提示词、生成的图像和人工注释整合到GECKONUM中,这是一个用于评估数值推理能力的新基准测试集。

8b83291f75dfdf873a461584933839da.png

34b9771a88f97e4e8c0b187746c9d34b.png

f991670ae70b124d41870d972210ccb2.png

ee93a8d78fc9ef0b57d365aab93a34ef.png

文章链接:

https://arxiv.org/pdf/2406.14774

05

LongRAG: Enhancing Retrieval-Augmented Generation with Long-context LLMs

在传统的RAG框架中,基本的检索单元通常很短。常见的检索器如DPR通常使用包含100个词的维基百科段落。这样的设计迫使检索器在大量语料库中搜索‘针状’单元。相比之下,阅读器只需要从短的检索单元中提取答案。这样一种‘重’检索器和‘轻’阅读器的不平衡设计可能导致次优性能。为了缓解这种不平衡,本文提出了一种新的框架LongRAG,包括‘长检索器’和‘长阅读器’。LongRAG将整个维基百科处理成包含4K-token的单元,这比以前的长度大30倍。通过增加单元的大小,作者将总单元数从2200万显著减少到60万。这显著降低了检索器的负担,从而使得检索分数大幅提升:在NQ上,答案召回率@1达到71%(之前为52%),在HotpotQA(全维基)上,答案召回率@2达到72%(之前为47%)。然后,将top-k检索到的单元(约30K token)输入到现有的长上下文LLM中进行零样本答案提取。无需任何训练,LongRAG在NQ上达到了62.7%的EM,在HotpotQA(全维基)上达到了64.3%的EM,这与当前最先进的模型相当。

53bfee70c64f5f5cb3ac4f26015ae131.png

fddff06c8462a46decfca086d4301da0.png

900c0f2f302ce7aafd55dd1c7229ba79.png

f3bb22a39011df85ffadade2457cc3bb.png

1483dccc83af54807ef73e79512e0d72.png

421ebcf0b0e4f9357775e791e01c12fb.png

文章链接:

https://arxiv.org/pdf/2406.15319

06

Learning to Retrieve Iteratively for In-Context Learning

本文介绍了迭代检索,这是一种新颖的框架,使检索器能够通过策略优化进行迭代决策。找到最优的检索项组合是一个组合优化问题,一般被认为是NP难题。此方法提供了对该问题的学习近似解,在给定的大规模语言模型(LLMs)家族下满足特定任务要求。作者提出了一种基于强化学习的训练程序,结合了来自LLMs的反馈。本文为上下文学习(ICL)的示例组合实现了一个迭代检索器,并将其应用于需要合成程序作为输出的各种语义解析任务中。通过仅增加400万个用于状态编码的参数,文章将一个现成的密集检索器转换为一个有状态的迭代检索器,在选择ICL示例方面优于以前的方法,并在语义解析数据集如SMCALFLOW、TREEDST和MTOP上表现出色。此外,训练后的迭代检索器能够在不同的推理LLMs中泛化,超越了训练期间使用的模型。

1e9e0f337c56925b8fe40979c1f35f06.png

2f535671deb0968b1e41fd9bb9b41aa9.png

3b55bbe66b5e8120df6a40fb45138509.png

67a3388bff73f8e81142125eabb95b84.png

5e9c0f4dcebe5ce00542162ddaf6e195.png

35cbcce2e097b775a4ada0cf6ba51a41.png

99904846090fb77dae6c9794c5b9f0fd.png

文章链接:

https://arxiv.org/pdf/2406.14739

07

Is A Picture Worth A Thousand Words? Delving Into Spatial Reasoning for Vision Language Models

大规模语言模型(LLMs)和视觉-语言模型(VLMs)在广泛的任务和领域中表现出色。尽管前景广阔,空间理解与推理——人类认知的基本组成部分——仍未得到充分探索。本文开发了涵盖空间推理各个方面的新基准,如关系理解、导航和计数。文章对竞争性语言模型和视觉-语言模型进行了全面评估。本文发现揭示了文献中被忽视的一些反直觉的见解:(1) 空间推理构成了重大挑战,竞争性模型在此可能会落后于随机猜测;(2) 尽管有额外的视觉输入,VLMs的表现常常不如其LLM的对应物;(3) 当同时提供文本和视觉信息时,如果提供了足够的文本线索,多模态语言模型对视觉信息的依赖性会减弱。此外,文章证明,利用视觉与文本之间的冗余可以显著提升模型性能。

3d0aad5606797df7f14e45396f92fb3f.png

f5eae246d2d36539f52d16282748e022.png

9f4581f6392b82a5118cc439fe0e934b.png

f66cdad610ed6b86fb2b7c46630528db.png

8fb29ed12a4a2806bf17014705d91a1b.png

5af865ba9b1789de39e2b5cac7c20b54.png

7c95b6b004c2869e1789283d1e53e43e.png

文章链接:

https://arxiv.org/pdf/2406.14852

本期文章由陈研整理

往期精彩文章推荐

e3bbf18b49319b555c4216b608911989.jpeg

记得关注我们呀!每天都有新知识!

 关于AI TIME 

AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。

迄今为止,AI TIME已经邀请了1800多位海内外讲者,举办了逾600场活动,超700万人次观看。

eca708c7fd6a7249e815cbc173a2c043.png

我知道你

在看

欢迎讨论,期待你的

留言

0a699daaeec11dbec0cf6b716a380adb.gif

点击 阅读原文 查看更多!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值