Big Model Weekly 第11期

AITIME论道

于 2024-03-02 10:00:13 发布

阅读量829

点赞数

文章标签：人工智能机器学习深度学习

原文链接：https://mp.weixin.qq.com/s?__biz=MzIzOTAxOTk3Nw==&mid=2247522476&idx=1&sn=55b87526ae2682227195dd1dd0d36d37&chksm=e8f92c3079943bda3850cb608e7f312ac18616b0bd0f4ffe3e881c75c84f913b2018c9980f23&scene=126&sessionid=0

版权

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入！

1. Learning to Route Among Specialized Experts for Zero-Shot Generalization

最近，出现了大量“专家”语言模型，通过参数高效微调专门针对特定任务或领域。我们如何能够回收大量专家语言模型来提高对未见任务的零样本泛化能力？这项工作提出了一种后续自适应逐词门控技术，基于一大群经过参数高效微调的专家模型（PHATGOOSE）。它学会了在通过参数高效微调产生的专门模块之间进行路由。与过去学习在专门模型之间进行路由的方法不同，PHATGOOSE 探索了这样一种可能性：如果可以针对每个标记和模型中的每一层自适应地选择不同的专家，零样本泛化将会得到改善。关键在于，本文方法是后续的-它不需要同时访问用于创建专门模型的数据集，只需要在每个专家模型训练后进行适度的额外计算。在涵盖一系列专门模型集合和零样本泛化基准的实验中，作者发现PHATGOOS 的表现优于过去的后续路由方法，并且在某些情况下，优于需要同时访问数据的显式多任务训练。为了更好地理解PHATGOOSE学习的路由策略，文中进行了定性实验来验证 PHATGOOSE 的性能源于其能够做出适应每个标记和每个模块的专家选择。

文章链接：

https://arxiv.org/abs/2402.05859

2. Direct Language Model Alignment from Online AI Feedback

直接从偏好（DAP）方法，如DPO，最近已经成为强化学习从人类反馈中的有效替代方法，它不需要单独的奖励模型。然而，在DAP方法中使用的偏好数据集通常是在训练之前收集的，且从不更新，因此反馈纯粹是离线的。此外，这些数据集中的响应通常是从一个与正在对齐的语言模型不同的语言模型中抽样的，由于模型在训练过程中会发展演变，对齐阶段不可避免地是离线策略的。这项研究认为在线反馈是关键的，并且可以改进DAP方法。在线AI反馈（OAIF），使用一个LLM作为注释器：在每次训练迭代中，从当前模型中抽样两个响应，并提示LLM注释器选择哪个是首选项，从而提供在线反馈。尽管方法简单，但通过在几个任务中进行人类评估表明，OAIF的表现优于离线DAP和RLHF方法。文中进一步展示了OAIF中利用的反馈是易于控制的，通过指导LLM注释器的提示。

文章链接：

https://arxiv.org/abs/2402.04792

3. Tag-LLM: Repurposing General-Purpose LLMs for Specialized Domains

大型语言模型（LLMs）在理解和生成自然语言方面表现出了非凡的能力。然而，在预训练语料库中代表性较低的高度专业化领域，如物理学和生物医学科学，它们的能力就会减弱。本研究探讨了如何将通用LLMs重新用于专业领域的有效任务求解器。作者引入了一种新颖的、与模型无关的框架，用于学习定制输入标签，这些标签被参数化为连续向量，附加到LLM的嵌入层，以对LLM进行条件化。本文设计了两种类型的输入标签：领域标签用于界定专业化表示（例如，化学公式）并提供领域相关上下文；功能标签用于表示特定功能（例如，预测分子属性）并压缩功能求解说明。作者使用辅助数据和领域知识开发了一个三阶段协议来学习这些标签。通过明确将任务领域与任务功能分离，该方法通过输入标签的各种组合实现了对未见问题的零样本泛化。它还提高了LLM在各种专业领域的性能，例如预测蛋白质或化学性质以及建模药物靶标相互作用，在这些任务中优于专门针对这些任务定制的专家模型。

文章链接：

https://arxiv.org/abs/2402.05140

4. Hydragen: High-Throughput LLM Inference with Shared Prefixes

基于Transformer的大型语言模型（LLMs）现在部署到数亿用户。LLM推理通常是在共享前缀的序列批次上执行的，例如少量示例或聊天机器人系统提示。在这种大批量设置中解码可能会受到注意操作的瓶颈，该操作从内存中读取大型键值（KV）缓存，并为批次中的每个序列计算低效的矩阵-向量乘积。这项工作介绍了Hydragen，一种硬件感知的注意力精确实现，具有共享前缀。Hydragen分别计算共享前缀和唯一后缀的注意力。这种分解通过在序列间批量查询来实现有效的前缀注意力，减少了冗余的内存读取，并使得可以使用硬件友好的矩阵乘法。本文方法可以将端到端LLM吞吐量提高多达32倍，超过了竞争基线，速度随着批处理大小和共享前缀长度的增加而增加。Hydragen还能够使用非常长的共享上下文：在高批处理大小的情况下，将前缀长度从1K增加到16K令牌只会使Hydragen吞吐量减少不到15％，而基线的吞吐量则会下降超过90％。Hydragen可以推广到简单的前缀-后缀分解以外，并且可以应用于基于树的提示共享模式，从而使在竞争性编程问题上进一步减少了55％的推理时间。

文章链接：

https://arxiv.org/abs/2402.05099

5. SpiRit-LM: Interleaved Spoken and Written Language Model

本文介绍了SPIRIT-LM，这是一个基于多模态语言模型的基础模型，可以自由混合文本和语音。该模型基于一个预训练的文本语言模型，通过在文本和语音单元上进行持续训练来扩展到语音模态。语音和文本序列被连接为一组单词，并使用一个小型的自动筛选的语音文本平行语料库，采用单词级交错方法进行训练。SPIRIT-LM有两个版本：一个使用语义单元的基础版本和一个使用语调和风格单元来建模表现力的表达版本，除了语义单元外还使用子词BPE标记对文本进行编码。结果模型显示了文本模型的语义能力和语音模型的表达能力。此外，作者还展示了SPIRIT-LM能够跨模态学习新任务（即ASR、TTS、语音分类）的几种方式。

文章链接：

https://arxiv.org/abs/2402.05755

6. When Benchmarks are Targets: Revealing the Sensitivity of Large Language Model Leaderboards

大型语言模型（LLM）基于基准排名的排行榜经常用来指导从业者选择模型。通常，发布的排行榜排名被直接接受 — 本文表明这是一个（可能代价高昂的）错误。在现有的排行榜下，LLMs的相对性能对（通常是微小的）细节非常敏感。文中展示了对于流行的多项选择题基准测试（例如MMLU），对基准测试进行轻微扰动，比如改变选项的顺序或答案选择方法，会导致排名变动多达8个位置。作者通过对三类基准测试扰动进行系统实验，并确定这种行为的来源来解释这一现象。分析结果产生了几个最佳实践建议，包括采用混合评分方法进行答案选择的优势。本研究凸显了依赖简单基准评估的风险，并为现有基准测试提供更健壮评估方案的路径。

文章链接：

https://arxiv.org/abs/2402.01781

7. Exploring Group and Symmetry Principles in Large Language Models

大型语言模型（LLMs）在各种应用中展示了令人印象深刻的性能；然而，评估它们的推理能力仍然是一个重要挑战。本文介绍了一个基于群和对称原则的框架，这些原则在物理学和数学等领域起着关键作用，并提供了另一种评估它们能力的方式。虽然所提出的框架是通用的，为了展示采用这些属性的好处，作者专注于算术推理，并研究这些模型在四个群属性上的表现：封闭性、单位元、逆元和结合律。研究发现，在不同的测试环境中，LLMs在保持群属性方面表现出困难。在封闭性测试中，作者观察到对特定输出的偏见，并在特定序列长度后，从100%的性能急剧下降到0%。它们在单位元测试中表现不佳，这代表在上下文中添加无关信息，并且在逆元测试中表现出对否定的鲁棒性。此外，本文还展示了将问题分解成较小步骤有助于LLMs在我们进行的结合性测试中取得成功。

文章链接：

https://arxiv.org/abs/2402.06120