Big Model Weekly | 第22期

点击蓝字

863396b1533fec63b6702e74a9869c77.jpeg

关注我们

AI TIME欢迎每一位AI爱好者的加入!

1. Beyond Helpfulness and Harmlessness: Eliciting Diverse Behaviors from Large Language Models with Persona In-Context Learning

大型语言模型(LLMs)是在庞大的文本语料库上进行训练的,这些语料库编码了多种个性特征。这引发了一个有趣的目标,即从LLM中引出特定的个性特质,并探索其行为偏好。因此,作者将个性引出任务形式化,旨在定制LLM的行为以符合目标个性。本文提出了一种新颖的个性引出框架——Persona In-Context Learning(PICLe),该框架基于贝叶斯推断。在核心部分,PICLe引入了一种新的ICL示例选择标准,基于似然比,旨在最优地引导模型引出特定的目标个性。文中通过与基准方法在三个当代LLM上进行广泛比较,证明了PICLe的有效性。

92386bb5431308969fc139b1de8c1b23.png

86aeb90abf6711d865a6c1acac7815c4.png

edbd55d391fd14d89c1e0d2077f64661.png

0d89942adceadfbcc86c1b4e9ebd6e76.png

695830999bc6fcd9e60c84bc04c223e2.png

3f099d2173e6fc901f26734cd8cc075e.png

d4cc98ba7f033688f9ccd4c91d1237a0.png

文章链接:

https://arxiv.org/pdf/2405.02501

2. Can We Use Large Language Models to Fill Relevance Judgment Holes?

不完整的相关性判断限制了测试集合的可重复使用性。当新系统与用于构建已判断文档池的先前系统进行比较时,它们往往处于劣势,因为测试集合中存在“洞”(即新系统返回的未评估文档的空缺)。本文通过利用现有的人工判断,采用大型语言模型(LLM)来填补这些空缺,从而初步扩展现有的测试集合。作者在TREC iKAT中探索了这个问题的上下文,其中信息需求非常动态,响应(以及检索到的结果)更加多样化(留下更大的空缺)。尽管先前的工作表明,LLM的自动判断导致了高度相关的排名,但发现当使用人类和自动判断时(无论是LLM、一次/两次/几次射击还是微调),相关性明显较低。本文进一步发现,根据所使用的LLM,新的运行结果将受到极大的偏爱(或惩罚),而这种影响会与空缺的大小成正比地放大。相反,应该在整个文档池上生成LLM注释,以获得与人工生成标签更一致的排名。未来需要进一步的工作来促使工程化和微调LLM以反映和代表人类注释,以便对模型进行基准化和对齐,使其更适合于特定目的。

699cff39704a39b37715732410d03a42.png

880178f459bc9fb02fb197b0f2385f75.png

89643f8b0578da59b70f5decfc53df58.png

48f73612fa6ae7a9de2009722f4b2854.png

a869c4b55e9a1013aa1cc048caaf4d51.png

c9795622314c5a45bdc6725e6960275b.png

文章链接:

https://arxiv.org/pdf/2405.05600

3. Stylus: Automatic Adapter Selection for Diffusion Models

除了通过更多的数据或参数来扩展基础模型之外,精调适配器提供了一种在降低成本的同时生成高保真度、定制图像的替代方式。因此,适配器已被开源社区广泛采用,积累了超过10万个适配器的数据库,其中大多数高度定制化,但缺乏充分的描述。为了生成高质量的图像,本文探讨了将提示匹配到一组相关适配器的问题,该问题建立在最近的一些研究成果基础之上,这些成果突出了组合适配器带来的性能提升。作者介绍了Stylus,它基于提示的关键词有效地选择并自动组合特定任务的适配器。Stylus概述了一个三阶段的方法,首先用改进的描述和嵌入总结适配器,然后检索相关适配器,最后根据提示的关键词进一步组装适配器,检查它们与提示的匹配程度。为了评估Stylus,本文开发了StylusDocs,一个特色鲜明的数据集,包含了预先计算的适配器嵌入。在对流行的Stable Diffusion检查点的评估中,Stylus实现了更高的效率,并且在人类和多模态模型作为评估者时,比基础模型更受欢迎,受欢迎程度是两倍。

5634a413a2461f5825808c122fbc2531.png

d89a57ceaa2a9d1b2bfadcd256807ba3.png

bfbf877a8b3af4f8b82f22507083c156.png

1632f01f14af98900423905a3bf022c4.png

213872afa4d9c64628af9bb673c912c5.png

477bd639a296d84c326d9516a07cedfe.png

文章链接:

https://arxiv.org/pdf/2404.18928

4. What matters when building vision-language models?

对视觉-语言模型(VLMs)日益增长的兴趣主要是由于大型语言模型和视觉Transformer的改进。尽管关于这个主题的文献丰富,但作者观察到,在设计VLMs时,关键决策通常缺乏充分的理由支持。作者认为这些不受支持的决定妨碍了该领域的进展,因为这使得很难确定哪些选择能够提高模型的性能。为了解决这个问题,本文围绕预训练模型、架构选择、数据和训练方法进行了广泛的实验。研究结果包括Idefics2的开发,这是一个参数量为80亿的高效基础VLM。Idefics2在各种多模态基准测试中都达到了同类模型的最新性能水平,并且通常与其四倍大小的模型性能相媲美。

f9dcae6ed30caf55350a4ffa6bf7ce92.png

0c4709cc7d74203ef330ed4dda43caeb.png

7bbc882ab46dba5f6758764832e12b07.png

614bdf277a5e003cfeba683e6c165480.png

74be6418a8d2ee236c9a92072e5e939f.png

文章链接:

https://arxiv.org/pdf/2405.02246

5. Value Augmented Sampling for Language Model Alignment and Personalization

调整大型语言模型(LLMs)以满足不同的人类偏好、学习新技能和消除有害行为是一个重要问题。基于搜索的方法,如Best-of-N或蒙特卡洛树搜索,在性能上表现良好,但由于推理成本高,对LLM的调整不切实际。另一方面,使用强化学习(RL)进行调整在计算上效率高,但由于协同训练值函数和策略的优化挑战,表现较差。本文提出了一个新的奖励优化框架,称为Value Augmented Sampling(VAS),它可以使用仅来自初始冻结的LLM的样本数据来最大化不同的奖励函数。VAS解决了最大化奖励的最优策略,而无需同时训练策略和值函数的问题,使优化稳定,并在标准基准测试中胜过了已建立的基线,如PPO和DPO,并以更低的推理成本实现了与Best-of-128相当的结果。与现有的RL方法不同,需要改变LLM的权重,VAS不需要访问预训练LLM的权重。因此,它甚至可以调整LLMs(例如ChatGPT),这些模型仅以API的形式提供。此外,该算法解锁了在部署时组合多个奖励并控制每个奖励程度的新能力,为未来对齐、个性化的LLMs铺平了道路。

488554249882a7851dcdb6d18a73d358.png

dd65fc187f2fcec043a770946b5d1277.png

b978ae61ef50efdf2b3ee06ccccdcc4b.png

aef88e7c73a8ba5499b0fbeeaa0c3c19.png

a32ef73410625658ff6b88fdcd691c9c.png

文章链接:

https://arxiv.org/abs/2405.06639

6.A Survey on RAG Meets LLMs: Towards Retrieval-Augmented Large Language Models

作为人工智能中最先进的技术之一,检索增强生成(RAG)技术能够提供可靠且及时的外部知识,为众多任务提供了巨大的便利。特别是在人工智能生成内容(AIGC)时代,RAG在检索中提供额外知识的强大能力使得检索增强生成能够协助现有的生成式人工智能产生高质量的输出。最近,大型语言模型(LLMs)在语言理解和生成方面展示了革命性的能力,但仍然面临固有限制,如幻觉和过时的内部知识。鉴于RAG在提供最新和有用的辅助信息方面的强大能力,检索增强型大型语言模型已经出现,以利用外部和权威的知识库,而不是仅仅依赖模型的内部知识,来增强LLMs的生成质量。本调查全面审查了检索增强型大型语言模型(RA-LLMs)的现有研究,涵盖了三个主要的技术视角:架构、训练策略和应用。作为初步知识,作者简要介绍了LLMs的基础和最新进展。然后,为了说明RAG对LLMs的实际意义,作者按应用领域对主流相关工作进行了分类,具体详述了每个领域的挑战以及RA-LLMs的相应能力。最后,为了提供更深入的见解,作者讨论了目前的限制和未来研究的几个有希望的方向。

9e3547a9e2b79c59c7e6fffa46e9a0e7.png

d10c698b632b03afd0620a05e6119340.png

e6cc5232fecaa1f9323cd169d5681d6a.png

94466c28615f3d573ef53bb61026143b.png

37443fa7425edea64fa43372ff727ef0.png

文章链接:

https://arxiv.org/pdf/2405.06211

7. vAttention: Dynamic Memory Management for Serving LLMs without PagedAttention

对于高吞吐量的LLM推理,高效利用GPU内存至关重要。先前的系统提前为KV缓存保留内存,导致由于内部碎片而造成的资源浪费。受操作系统基于虚拟内存系统的启发,vLLM提出了PagedAttention,以实现对KV缓存的动态内存分配。这种方法消除了碎片,使得具有更大批处理大小的高吞吐量LLM服务成为可能。然而,为了能够动态分配物理内存,PagedAttention将KV缓存的布局从连续虚拟内存改变为非连续虚拟内存。这种改变需要重写注意力核心以支持分页,并且需要服务框架实现内存管理器。因此,PagedAttention模型导致了软件复杂性、可移植性问题、冗余和低效性。本文提出了用于动态KV缓存内存管理的vAttention。与PagedAttention相比,vAttention将KV缓存保留在连续虚拟内存中,并利用底层系统支持的按需分页,该支持已经存在,以实现按需分配物理内存。因此,vAttention使得注意力核心开发人员不再需要显式支持分页,并且避免了在服务框架中重新实现内存管理。本文展示了vAttention能够为各种注意力核心的不变实现提供无缝动态内存管理。vAttention生成的标记速度也比vLLM快高达1.97倍,同时处理输入提示的速度比FlashAttention和FlashInfer的PagedAttention变体快3.92倍和1.45倍。

e39fb9625fe19935b8e4de312ffa1096.png

2c6e646730970b2b0886ea28f63eb186.png

7e3a03ceac84be95d8f7a13cc0a5ae49.png

80df47d94d916a1a466d23d2b184af7d.png

63b892473aa7aa606a75730c7b478761.png

4de595517a69f98847a36a936f3c8894.png

ce4322c1eb5c12ae9ad7c1869830999b.png

文章链接:

https://arxiv.org/pdf/2405.04437

本期文章由陈研整理

往期精彩文章推荐

b0d1a7b63d6f8ab8bd75d590ea117c0c.jpeg

记得关注我们呀!每天都有新知识!

 关于AI TIME 

AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。

迄今为止,AI TIME已经邀请了1800多位海内外讲者,举办了逾600场活动,超700万人次观看。

d5dbcae719c0cead9f68c7b9df51de47.png

我知道你

在看

欢迎讨论,期待你的

留言

6ae1dbeaba39ac020563415c95ec3e16.gif

点击 阅读原文 查看更多!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值