Big model weekly | 第16期

点击蓝字

fc7a891425ee908eb8a3f20d3600d9f5.jpeg

关注我们

AI TIME欢迎每一位AI爱好者的加入!

1.MagicLens: Self-Supervised Image Retrieval with Open-Ended Instructions

图像检索涉及到丰富多样的搜索意图,仅仅使用基于图像的度量很难完全捕捉。最近的研究利用文本指令,使用户能够更自由地表达他们的搜索意图。然而,现有的工作主要集中在视觉上相似的图像对上,并且可以通过一小组预定义的关系来表征。本文的核心论点是,文本指令可以实现检索具有更丰富关系的图像,超越视觉相似性。为了证明这一点,作者引入了MagicLens,一系列支持开放式指令的自监督图像检索模型。MagicLens建立在一个关键的新颖见解上:自然出现在同一网页上的图像对包含着广泛的隐含关系(例如,内部视图),可以通过大型多模态模型(LMMs)和大型语言模型(LLMs)合成指令,将这些隐含关系变得显式。MagicLens在从网络中挖掘的具有丰富语义关系的3670万(查询图像,指令,目标图像)三元组上进行训练,比先前的各种图像检索任务的最新技术(SOTA)方法在八个基准上取得了相当或更好的结果。值得注意的是,在多个基准上,它比以前的SOTA方法在模型大小上小了50倍以上。在一个140万图像的未见语料库上进行的额外人类分析进一步展示了MagicLens支持的搜索意图的多样性。

文章链接:

https://arxiv.org/pdf/2403.19651.pdf

a7e6eaebd634d0ac819683c9f844b62f.png

0f9d20453d4abd22be83ea3a0b73f269.png

f3232a48dd5a4c2a43acb13930f53ed3.png

a05c2eaec3a7cc5b0b98617354beabb7.png

c6eb20944a2c8dbf339bf7c765535b19.png

6803cd27fcc52d848b8832aa0ef3435f.png

e6242661033bcd7c0494ee3b5fa07eb7.png

4f8cd29d9fc00262c9796748c0505b18.png

2.LISA: Layerwise Importance Sampling for Memory-Efficient Large Language Model Fine-Tuning

自从大型语言模型(LLMs)首次出现以来,机器学习社区已经见证了令人印象深刻的进展,然而它们巨大的内存消耗已成为大规模训练的主要障碍。诸如低秩适应(LoRA)之类的参数高效微调技术已被提出,以缓解这一问题,但它们的性能在大多数大规模微调设置中仍无法与全参数训练匹敌。为了补充这一不足,本文调查了LoRA在微调任务上的分层特性,并观察到不同层之间权重范数的不寻常偏斜。利用这一关键观察,作者发现了一种令人惊讶地简单的训练策略,在各种设置中的性能均优于LoRA和全参数训练,而内存成本与LoRA相当。作者将其命名为分层重要性采样AdamW(LISA),这是LoRA的一种有希望的替代方案,它将重要性采样的思想应用于LLMs的不同层,并在优化过程中随机冻结大多数中间层。实验结果显示,在相似或更少的GPU内存消耗下,LISA在下游微调任务中超越了LoRA甚至全参数微调,在MT-Bench分数方面,LISA始终比LoRA表现出超过11%到37%的优势。在大型模型上,特别是LLaMA-2-70B上,LISA在MT-Bench、GSM8K和PubMedQA上取得了与LoRA相媲美甚至更好的性能,证明了其在不同领域的有效性。

文章链接:

https://arxiv.org/pdf/2403.17919.pdf

09d864c200baf8b582f27627c596891b.png

a9faffcc41004f55ac596df10b2f1a3e.png

f6f2150e466331dc891661362389fc1c.png

454f9bef857e040481514e05342645a2.png

1276e0bd9fbe3ee4ee69fa44dbbf69d9.png

623161b7a787787cbff59cb0976bf3ce.png

3.AgentStudio: A Toolkit for Building General Virtual Agents

创造能够在任何数字设备上使用任意软件的自主虚拟代理,仍然是人工智能领域面临的一项重大挑战。两个关键障碍阻碍了进展:缺乏在真实环境中构建虚拟代理的基础设施,以及对基本代理能力进行野外评估的需求。为了解决这一问题,本文介绍了AgentStudio,这是一个在线、逼真、多模态的工具包,涵盖了整个代理开发生命周期。这包括环境设置、数据收集、代理评估和可视化。观察和行动空间非常通用,支持函数调用和人机界面。AgentStudio的图形用户界面进一步增强了其多功能性,允许在真实环境中高效地开发数据集和基准。为了说明这一点,作者使用图形界面介绍了一个视觉基础数据集和一个真实世界的基准套件。此外,本文还介绍了从AgentStudio得出的一些可操作的见解,例如通用视觉基础、开放式工具创建、从视频中学习等。该研究已经开源了环境、数据集、基准和界面,以促进未来通用虚拟代理的研究。

文章链接:

https://arxiv.org/pdf/2403.17918.pdf

ce8b81c5487a0a84f52a88446b7091e8.png

20183d19b3eb48388af1c1ad0f735d34.png

30208a5d5fc7a702b600605134130a53.png

03d134b723aadb9d3eaf9cf38c7bc76d.png

4ae04aa0f940e1c388dee59ab6a28357.png

a4844af2ce3b38d0e4a79d233a51470a.png

4.Have Faith in Faithfulness: Going Beyond Circuit Overlap When Finding Model Mechanisms

近年来,许多语言模型(LM)可解释性研究已采用了电路框架,其旨在找到能够解释LM在给定任务上行为的最小计算子图,或电路。大多数研究确定LM电路中哪些边属于边界电路,通过对每个边界进行独立的因果干预来进行,但这在模型规模较大时效率低下。边缘归因修补(EAP)是一种基于梯度的近似干预方法,已经成为这个问题的可扩展但不完美的解决方案。本文介绍了一种新方法——集成梯度的EAP(EAP-IG),旨在更好地维持电路的一个核心特性:忠实性。如果一个电路是忠实的,那么电路外的所有模型边界都可以被消除而不会改变模型在任务上的性能;忠实性是研究电路而不是完整模型的理由。实验表明,使用EAP找到的电路比使用EAP-IG找到的电路不够忠实,尽管两者在与以前使用因果干预找到的电路的节点重叠方面都很高。本文总结出,更一般地说,当使用电路来比较模型解决任务的机制时,应该衡量忠实性,而不是重叠。

文章链接:

https://arxiv.org/pdf/2403.17806.pdf

e8ad649945d0b2e8aed971b57ed9eb4c.png

5f157ac17bb47c6fe89f51b570eabade.png

e2ca5a23f2fe7ba1fefe52465ac6ca2b.png

fe88270ddceb757727f59132a54f2137.png

5.What Are Tools Anyway? A Survey from the Language Model Perspective

语言模型(LMs)在文本生成任务中表现出强大的能力。工具已经大大提升了它们在需要复杂技能的任务中的性能。然而,许多工作以不同方式使用术语“工具”,引发了一个问题:究竟什么是工具?随后,工具在何处以及如何帮助LMs?这项调查提供了工具的统一定义,即作为LMs使用的外部程序,并对LM工具化的场景和方法进行了系统审查。基于这一审查,本文通过测量它们在各种基准上所需的计算和性能增益来经验性地研究各种工具化方法的效率,并突出了该领域的一些挑战和潜在的未来研究方向。

文章链接:

https://arxiv.org/pdf/2403.15452.pdf

1153f36a18270b1fe4af93fce007855a.png

6611191729ffd9af9b790e27e7d2675c.png

41b57d25efd469729f5df1fbdb7a968d.png

91e576c95576b63f7f1e7b1f9a07719a.png

6dae980deb8cf531850746b6fefaf44f.png

6.STaR-GATE: Teaching Language Models to Ask Clarifying Questions

当提示语言模型完成任务时,用户经常会遗漏重要的方面。虽然提问可以解决这种歧义,但模型通常很难提出好问题。本文探索了语言模型通过奖励其生成有用问题的能力(STaR; Zelikman等,2022)—一种被称为STaR-GATE的简单方法来自我改进。文中生成了一个合成数据集,包含25,500个独特的角色-任务提示,以模拟预训练语言模型(即提问者)与角色扮演者之间的对话,角色扮演者的偏好对提问者是未知的。通过提问问题,提问者从角色扮演者那里引出偏好。提问者在使任务的高质量响应的概率增加的问题上进行迭代微调,这些问题是由一个具有对角色扮演者潜在偏好的Oracle生成的。经过两次自我改进,提问者提出了更好的问题,使其能够生成在72%的任务中优先于初始模型响应的响应。结果表明,教导语言模型提出更好问题会导致更好的个性化响应。

文章链接:

https://arxiv.org/pdf/2403.19154.pdf

f482612298383ce7232d4ab962bfe677.png

b87267247fa8a1b3cf34bc7b9e970366.png

d070bc44833194845f9eb1d2d2b4c0b7.png

1c463fd22e4f6e5d312a59360f0f697e.png

7.Gecko: Versatile Text Embeddings Distilled from Large Language Models

本文介绍了Gecko,一种紧凑且多功能的文本嵌入模型。Gecko通过利用一个关键思想实现了强大的检索性能:将大型语言模型(LLMs)中的知识提炼到检索器中。两步提炼过程首先是利用LLM生成多样化的合成配对数据。接下来,通过为每个查询检索一组候选段落,并使用相同的LLM重新标记正向和难负向段落来进一步提炼数据质量。所提方法的有效性通过Gecko的紧凑性得到了证明。在大规模文本嵌入基准测试(MTEB)上,256维嵌入大小的Gecko优于所有现有的768维嵌入大小的条目。具有768维嵌入尺寸的Gecko取得了66.31的平均分,与7倍大的模型和5倍高维嵌入相竞争。

文章链接:

https://arxiv.org/pdf/2403.20327.pdf

268a167037ae386babaf11b171b1c32a.png

d5194f81f4588a647619552e23e9765e.png

ee6b6418d29e183cc53fe6c73b99cb33.png

e227cbc3883bcbd1418e6624112d7fef.png

往期精彩文章推荐

32561168b67999f341ea49186466df94.jpeg

记得关注我们呀!每天都有新知识!

 关于AI TIME 

AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。

迄今为止,AI TIME已经邀请了1700多位海内外讲者,举办了逾600场活动,超700万人次观看。

a2954e4236bd8d258d1ce28d994bb7c2.png

我知道你

在看

~

5a50c52b4d018666adcd92cf3442af8c.gif

点击 阅读原文 观看更多!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值