Big Model Weekly | 第24期

点击蓝字

051a6b0c8e0d65c756986acd15cdd1ff.jpeg

关注我们

AI TIME欢迎每一位AI爱好者的加入!

01

Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality

虽然Transformer一直是深度学习在语言建模中取得成功的主要架构,但诸如Mamba之类的状态空间模型(SSM)最近在小到中等规模上被证明可以匹敌或超越Transformer。本文表明,这些模型家族实际上关系密切,并开发了一套丰富的理论框架,将SSM与各种注意力机制的变体通过一种研究良好的结构化半分离矩阵类的各种分解联系起来。状态空间对偶(SSD)框架促进了新架构(Mamba-2)的设计,其核心层是对Mamba选择性SSM的改进,速度提高了2-8倍,同时在语言建模上继续与Transformer竞争。

a98aeff18a7e284aa7feb2202241c262.png

fdd7267956100b4d68d233851b4c0672.png

f15a2b93d04b8dee9cece2c569f5944d.png

566bbb226bcb42f2ae8cdc44a5b1a2d3.png

70cd49c68af9cfb58a94eab0f8eb6394.png

文章链接:

https://arxiv.org/pdf/2405.21060

02

Perplexed by Perplexity: Perplexity-Based Data Pruning With Small Reference Models

这项工作研究了小型语言模型是否能够确定大规模文本数据集中的高质量子集,从而提升大型语言模型的性能。尽管已有工作表明,基于较大模型的困惑度进行修剪可以产生高质量数据,作者研究了较小模型是否可以用于基于困惑度的修剪以及修剪受数据领域构成的影响。文章展示了在多种数据集构成下,基于困惑度对预训练数据进行修剪可以显著提升下游任务的性能:基于一个拥有1.25亿参数的模型计算的困惑度进行修剪,可以使一个拥有30亿参数的模型在下游任务上的平均性能提升最多2.04,并且预训练步骤减少至基线性能的1.45倍。此外,本文还证明了这种基于困惑度的数据修剪在过度训练和数据受限的情况下同样能带来下游性能的提升。

9d7e7123d61a000eb8eadbf2325d62c1.png

1d624030ecdbf24b1f1e1d15f76af82f.png

4541dd094eb1a4b90738b1c58a34e080.png

1e0652b53eae68536844d00f7d0b3d6b.png

867b4da74316d39599d7fa8de50c8186.png

680420bcea2d87b3fc4913618da8eafe.png

文章链接:

https://arxiv.org/abs/2405.20541

03

Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis

在追求通用人工智能的过程中,多模态大语言模型(MLLMs)已成为最近进展的焦点,但当前的重点仍然是开发其在静态图像理解方面的能力,MLLMs在处理序列视觉数据方面的潜力尚未得到充分探索,缺乏全面高质量的性能评估。本文介绍了Video-MME,这是首个全面的多模态评估基准,用于评估MLLMs在视频分析中的表现。该工作通过视频类型的多样性、时间维度的持续性、数据模态的广度以及高质量的标注,显著区别于现有的基准。作者手动选择和标注了900个视频,总计256小时,通过反复观看所有视频内容,生成了2700个问答对。使用Video-MME,作者广泛评估了包括GPT-4系列和Gemini 1.5 Pro在内的各种最先进的MLLMs,以及开源图像模型如InternVL-Chat-V1.5和视频模型如LLaVA-NeXT-Video。实验结果表明,Gemini 1.5 Pro是表现最好的商业模型,显著优于开源模型,其平均准确率为75.7%,而LLaVA-NeXT-Video为52.5%。结果还显示,Video-MME是一个通用的基准,适用于图像和视频MLLMs。进一步的分析表明,字幕和音频信息可以显著增强视频理解,但所有模型在视频时长增加时表现都会下降,这些发现和所用数据集强调了在处理更长序列和多模态数据方面需要进一步改进,为未来MLLM的发展指明了方向。

0b462a62a89cc6e79fedc8e922449ae4.png

c8b776c040851b520528748182025e0a.png

797a47b16679af9a8187e8a6b70cce24.png

257e7a32c71c82152a58802d68a2e7dd.png

d532bd3daca47177d2737e0460cba5e3.png

文章链接:

https://arxiv.org/pdf/2405.21075

04

Crafting Interpretable Embeddings by Asking LLMs Questions

大型语言模型(LLMs)在自然语言处理任务的文本嵌入方面迅速取得了进展。然而,它们的不透明性以及在神经科学等科学领域的广泛应用,导致了对可解释性的需求日益增加。本文探讨是否可以通过LLM提示获得可解释的嵌入。作者介绍了问答嵌入(QA-Emb),其中每个特征代表对LLM提出的一个是/否问题的答案。训练QA-Emb简化为选择一组基础问题,而不是学习模型权重。文章使用QA-Emb灵活生成可解释的模型,以预测fMRI体素对语言刺激的响应。QA-Emb显著优于既定的可解释基线,并且在需要极少问题的情况下实现这一目标。这为构建灵活的特征空间铺平了道路,使得能够具体化和评估对语义脑表征的理解。作者还发现QA-Emb可以通过高效模型进行有效近似,并探索了其在简单NLP任务中的广泛应用。

9c899e8903f4021686e6478ab14ddb5b.png

7b2d695ebbd7ada1780143adffb633c7.png

0ee8bc5ab98637e765d259e120d852a9.png

dcbaebb6e24794f82d36c26d96e905bb.png

文章链接:

https://arxiv.org/abs/2405.16714

05

Matryoshka Query Transformer for Large Vision-Language Models

大型视觉语言模型(LVLMs)通常将图像编码为固定数量的视觉标记(例如,576个)并使用语言模型处理这些标记。尽管表现强劲,但LVLMs在适应不同计算约束方面面临挑战。这引发了一个问题:是否可以根据不同任务和计算资源的需求灵活调整视觉标记的数量?作者的答案是肯定的。受Matryoshka表示学习的启发,本文引入了Matryoshka Query Trans(MQT),能够在推理过程中将图像编码为m个视觉标记,其中m可以是任意数量,直至预定义的最大值。通过使用包含M个潜在查询标记的查询变压器来压缩视觉嵌入,作者在每次训练步骤中随机选择m ≤ M个潜在查询标记,并仅使用这前m个标记来训练模型,丢弃其余标记。将MQT与LLaVA结合,只需训练一个模型一次,就可以灵活并大幅减少推理时的视觉标记数量,同时保持类似或更好的性能,避免为每个标记数量单独训练模型。模型MQT-LLAVA在11个基准测试中使用最多256个标记即可匹敌LLaVA-1.5的性能,而LLaVA固定使用576个标记。减少到16个标记(计算量减少8倍)在MMBench上仅牺牲2.4分的性能。在某些任务如ScienceQA和MMMU中,甚至可以减少到仅2个视觉标记,性能仅下降3%和6%。本文对视觉标记数量带来的准确性与计算成本之间的权衡进行了探索,促进了未来研究以实现两者的最佳平衡。

af33ec4a1c0861bf4891835ba4600ff4.png

e19478c4abcf51f97abb19426a94a72d.png

6df9049fd9f2a1221a9e6edd73de5ada.png

b02fb87246a058a811c3160c61c95cf2.png

fa8aefc39726a91722f750c7c5b7e93e.png

文章链接:

https://arxiv.org/pdf/2405.19315

06

GRAG: Graph Retrieval-Augmented Generation

虽然检索增强生成(RAG)通过生成式语言模型提高了响应的准确性和相关性,但在既重视文本信息又重视拓扑信息的图形环境中表现不佳。朴素的RAG方法固有地忽视了文本图的结构复杂性,导致了生成过程中的重要差距。为了解决这一挑战,本文引入了图检索增强生成(GRAG),通过强调子图结构的重要性,显著增强了检索和生成过程。与专注于基于文本实体检索的RAG方法不同,GRAG保持对图拓扑的敏感性,这对于生成具有上下文和事实一致性的响应至关重要。GRAG方法包括四个主要阶段:k-跳邻居图的索引、图检索、软修剪以减轻不相关实体的影响,以及使用修剪后的文本子图进行生成。GRAG的核心工作流程——检索文本子图后进行软修剪——有效地识别了相关的子图结构,同时避免了枚举子图搜索的计算不可行性,后者是NP难的。此外,本文提出了一种新颖的提示策略,实现了从文本子图到分层文本描述的无损转换。对图多跳推理基准的大量实验表明,在需要对文本图进行多跳推理的场景中,GRAG方法在显著优于当前最先进的RAG方法的同时,有效减轻了虚构现象。

2718a179e908143b59d5b0e12e077509.png

3fc56eed2d288365c3b4e1df6e9e8889.png

9cb3824fc7767c7547ac3dec94ae74c1.png

bb3453262068d2091990a80a1c638c3d.png

文章链接:

https://arxiv.org/pdf/2405.16506

07

Instruct-MusicGen: Unlocking Text-to-Music Editing for Music Language Models via Instruction Tuning

最近在文本到音乐编辑领域取得的进展,利用文本查询来修改音乐(例如通过改变其风格或调整乐器组件),为AI辅助音乐创作提供了独特的挑战和机遇。在这一领域,先前的方法受到了从头训练特定编辑模型的限制,这既耗费资源又低效;其他研究使用大型语言模型来预测编辑后的音乐,导致音频重建不精确。为了结合各种优势并解决这些限制,本文引入了Instruct-MusicGen,这是一种新颖的方法,通过对预训练的MusicGen模型进行微调,以有效地遵循编辑指令,如添加、移除或分离音频轨道。该方法涉及对原始MusicGen架构的修改,包括引入文本融合模块和音频融合模块,使模型能够同时处理指令文本和音频输入,并产生所需的编辑后音乐。值得注意的是,Instruct-MusicGen仅向原始MusicGen模型引入约8%的新参数,并仅训练5K步,然而,它在所有任务上均表现出比现有基线更优异的性能,并展示出与针对特定任务训练的模型相当的性能。这一进步不仅提高了文本到音乐编辑的效率,还拓宽了音乐语言模型在动态音乐制作环境中的适用性。

e1915bbd749277c87d6b10102a13da3b.png

a24e69ea8d9edc12617f4a16def59611.png

e4e59715341d48abfaef9afa63ef94e7.png

2ce3f445bc6016be6382dc6b8220a885.png

99d4b4b0a7bb31e579099897eba76411.png

文章链接:

https://arxiv.org/pdf/2405.18386

本期文章由陈研整理

往期精彩文章推荐

d0f9138428bcc82598417cae83088a20.jpeg

记得关注我们呀!每天都有新知识!

 关于AI TIME 

AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。

迄今为止,AI TIME已经邀请了1800多位海内外讲者,举办了逾600场活动,超700万人次观看。

181467f042b4561a141a3ec00c9bcccb.png

我知道你

在看

欢迎讨论,期待你的

留言

21fbaedb45acba7f212d71452ec1ab74.gif

点击 阅读原文 查看更多!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值