点击蓝字
关注我们
AI TIME欢迎每一位AI爱好者的加入!
1.MagicLens: Self-Supervised Image Retrieval with Open-Ended Instructions
图像检索涉及到丰富多样的搜索意图,仅仅使用基于图像的度量很难完全捕捉。最近的研究利用文本指令,使用户能够更自由地表达他们的搜索意图。然而,现有的工作主要集中在视觉上相似的图像对上,并且可以通过一小组预定义的关系来表征。本文的核心论点是,文本指令可以实现检索具有更丰富关系的图像,超越视觉相似性。为了证明这一点,作者引入了MagicLens,一系列支持开放式指令的自监督图像检索模型。MagicLens建立在一个关键的新颖见解上:自然出现在同一网页上的图像对包含着广泛的隐含关系(例如,内部视图),可以通过大型多模态模型(LMMs)和大型语言模型(LLMs)合成指令,将这些隐含关系变得显式。MagicLens在从网络中挖掘的具有丰富语义关系的3670万(查询图像,指令,目标图像)三元组上进行训练,比先前的各种图像检索任务的最新技术(SOTA)方法在八个基准上取得了相当或更好的结果。值得注意的是,在多个基准上,它比以前的SOTA方法在模型大小上小了50倍以上。在一个140万图像的未见语料库上进行的额外人类分析进一步展示了MagicLens支持的搜索意图的多样性。
文章链接:
https://arxiv.org/pdf/2403.19651.pdf
2.LISA: Layerwise Importance Sampling for Memory-Efficient Large Language Model Fine-Tuning
自从大型语言模型(LLMs)首次出现以来,机器学习社区已经见证了令人印象深刻的进展,然而它们巨大的内存消耗已成为大规模训练的主要障碍。诸如低秩适应(LoRA)之类的参数高效微调技术已被提出,以缓解这一问题,但它们的性能在大多数大规模微调设置中仍无法与全参数训练匹敌。为了补充这一不足,本文调查了LoRA在微调任务上的分层特性,并观察到不同层之间权重范数的不寻常偏斜。利用这一关键观察,作者发现了一种令人惊讶地简单的训练策略,在各种设置中的性能均优于LoRA和全参数训练,而内存成本与LoRA相当。作者将其命名为分层重要性采样AdamW(LISA),这是LoRA的一种有希望的替代方案,它将重要性采样的思想应用于LLMs的不同层,并在优化过程中随机冻结大多数中间层。实验结果显示,在相似或更少的GPU内存消耗下,LISA在下游微调任务中超越了LoRA甚至全参数微调,在MT-Bench分数方面,LISA始终比LoRA表现出超过11%到37%的优势。在大型模型上,特别是LLaMA-2-70B上,LISA在MT-Bench、GSM8K和PubMedQA上取得了与LoRA相媲美甚至更好的性能,证明了其在不同领域的有效性。
文章链接:
https://arxiv.org/pdf/2403.17919.pdf
3.AgentStudio: A Toolkit for Building General Virtual Agents
创造能够在任何数字设备上使用任意软件的自主虚拟代理,仍然是人工智能领域面临的一项重大挑战。两个关键障碍阻碍了进展:缺乏在真实环境中构建虚拟代理的基础设施,以及对基本代理能力进行野外评估的需求。为了解决这一问题,本文介绍了AgentStudio,这是一个在线、逼真、多模态的工具包,涵盖了整个代理开发生命周期。这包括环境设置、数据收集、代理评估和可视化。观察和行动空间非常通用,支持函数调用和人机界面。AgentStudio的图形用户界面进一步增强了其多功能性,允许在真实环境中高效地开发数据集和基准。为了说明这一点,作者使用图形界面介绍了一个视觉基础数据集和一个真实世界的基准套件。此外,本文还介绍了从AgentStudio得出的一些可操作的见解,例如通用视觉基础、开放式工具创建、从视频中学习等。该研究已经开源了环境、数据集、基准和界面,以促进未来通用虚拟代理的研究。
文章链接:
https://arxiv.org/pdf/2403.17918.pdf
4.Have Faith in Faithfulness: Going Beyond Circuit Overlap When Finding Model Mechanisms
近年来,许多语言模型(LM)可解释性研究已采用了电路框架,其旨在找到能够解释LM在给定任务上行为的最小计算子图,或电路。大多数研究确定LM电路中哪些边属于边界电路,通过对每个边界进行独立的因果干预来进行,但这在模型规模较大时效率低下。边缘归因修补(EAP)是一种基于梯度的近似干预方法,已经成为这个问题的可扩展但不完美的解决方案。本文介绍了一种新方法——集成梯度的EAP(EAP-IG),旨在更好地维持电路的一个核心特性:忠实性。如果一个电路是忠实的,那么电路外的所有模型边界都可以被消除而不会改变模型在任务上的性能;忠实性是研究电路而不是完整模型的理由。实验表明,使用EAP找到的电路比使用EAP-IG找到的电路不够忠实,尽管两者在与以前使用因果干预找到的电路的节点重叠方面都很高。本文总结出,更一般地说,当使用电路来比较模型解决任务的机制时,应该衡量忠实性,而不是重叠。
文章链接:
https://arxiv.org/pdf/2403.17806.pdf
5.What Are Tools Anyway? A Survey from the Language Model Perspective
语言模型(LMs)在文本生成任务中表现出强大的能力。工具已经大大提升了它们在需要复杂技能的任务中的性能。然而,许多工作以不同方式使用术语“工具”,引发了一个问题:究竟什么是工具?随后,工具在何处以及如何帮助LMs?这项调查提供了工具的统一定义,即作为LMs使用的外部程序,并对LM工具化的场景和方法进行了系统审查。基于这一审查,本文通过测量它们在各种基准上所需的计算和性能增益来经验性地研究各种工具化方法的效率,并突出了该领域的一些挑战和潜在的未来研究方向。
文章链接:
https://arxiv.org/pdf/2403.15452.pdf
6.STaR-GATE: Teaching Language Models to Ask Clarifying Questions
当提示语言模型完成任务时,用户经常会遗漏重要的方面。虽然提问可以解决这种歧义,但模型通常很难提出好问题。本文探索了语言模型通过奖励其生成有用问题的能力(STaR; Zelikman等,2022)—一种被称为STaR-GATE的简单方法来自我改进。文中生成了一个合成数据集,包含25,500个独特的角色-任务提示,以模拟预训练语言模型(即提问者)与角色扮演者之间的对话,角色扮演者的偏好对提问者是未知的。通过提问问题,提问者从角色扮演者那里引出偏好。提问者在使任务的高质量响应的概率增加的问题上进行迭代微调,这些问题是由一个具有对角色扮演者潜在偏好的Oracle生成的。经过两次自我改进,提问者提出了更好的问题,使其能够生成在72%的任务中优先于初始模型响应的响应。结果表明,教导语言模型提出更好问题会导致更好的个性化响应。
文章链接:
https://arxiv.org/pdf/2403.19154.pdf
7.Gecko: Versatile Text Embeddings Distilled from Large Language Models
本文介绍了Gecko,一种紧凑且多功能的文本嵌入模型。Gecko通过利用一个关键思想实现了强大的检索性能:将大型语言模型(LLMs)中的知识提炼到检索器中。两步提炼过程首先是利用LLM生成多样化的合成配对数据。接下来,通过为每个查询检索一组候选段落,并使用相同的LLM重新标记正向和难负向段落来进一步提炼数据质量。所提方法的有效性通过Gecko的紧凑性得到了证明。在大规模文本嵌入基准测试(MTEB)上,256维嵌入大小的Gecko优于所有现有的768维嵌入大小的条目。具有768维嵌入尺寸的Gecko取得了66.31的平均分,与7倍大的模型和5倍高维嵌入相竞争。
文章链接:
https://arxiv.org/pdf/2403.20327.pdf
往期精彩文章推荐
记得关注我们呀!每天都有新知识!
关于AI TIME
AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。
迄今为止,AI TIME已经邀请了1700多位海内外讲者,举办了逾600场活动,超700万人次观看。
我知道你
在看
哦
~
点击 阅读原文 观看更多!