Big Model Weekly | 第36期

点击蓝字

a4054531cc53f1349b710098fdce983a.jpeg

关注我们

AI TIME欢迎每一位AI爱好者的加入!

01

REInstruct: Building Instruction Data from Unlabeled Corpus

手动为大语言模型标注指令数据既困难又昂贵,而且难以扩展。同时,当前的自动标注方法通常依赖于从专有LLMs提炼合成数据,这不仅限制了指令数据质量的上限,还可能引发潜在的版权问题。本文提出了REInstruct,这是一种简单且可扩展的方法,用于从未标注语料中自动构建指令数据,而无需过度依赖专有LLMs和人工标注。具体而言,REInstruct首先选择一部分未标注文本,这些文本可能包含结构良好、有帮助且有见解的内容,然后为这些文本生成指令。为了生成准确且相关的响应以进行有效和稳健的训练,REInstruct进一步提出了一种基于重写的方法,以提高生成的指令数据的质量。通过将Llama-7b在3k种子数据和32k来自REInstruct的合成数据上进行训练,微调后的模型在AlpacaEval排行榜上对抗text-davinci003时达到了65.41%的胜率,优于其他开源、非蒸馏的指令数据构建方法。

c189cd38a751f1524f0d14a51c36abfa.png

11f4e9a00c6436382fc1ed5c526132ef.png

8ad56eb2a2c0dfe80d643e4aa29e43f1.png

0cd532ee340a4fb02395f1b235465cd0.png

89d482a4cdc0e7bb2d9270ba409df51c.png

1886e23339287049887f7d86d19f5fc8.png

文章链接:

https://arxiv.org/pdf/2408.10663

02

LongVILA: Scaling Long-Context Visual Language Models for Long Videos

长上下文处理能力对于多模态基础模型,特别是长视频理解至关重要。本文介绍了LongVILA,这是一种为长上下文视觉语言模型提供的全栈解决方案,通过共同设计算法和系统实现。在模型训练方面,LongVILA通过引入两个额外的阶段,即长上下文扩展和长监督微调,将现有的视觉语言模型(VLMs)升级,以支持长视频理解。然而,长视频的训练在计算和内存上都非常密集。为此,作者提出了长上下文多模态序列并行(MM-SP)系统,该系统高效地并行化了长视频的训练和推理,支持在256个GPU上进行2M上下文长度的训练,无需任何梯度检查点。LongVILA有效地将VILA的视频帧数从8扩展到1024,将长视频字幕评分从2.00提高到3.26(满分为5),并在1400帧(274k上下文长度)的视频“针找稻堆”任务中实现了99.5%的准确率。LongVILA-8B在VideoMME基准测试中,随着视频帧数的增加,在长视频上的准确率也持续提升。此外,MM-SP比环序列并行快2.1倍至5.7倍,比Megatron的上下文并行+张量并行快1.1倍至1.4倍。而且,它可以无缝集成到Hugging Face Transformers中。

a44acb230eac35a99af6ff21981cfccf.png

34a4876bbebc2346c4fec73d8579cf0a.png

0dc9f26bd1c6cc9af053c3c8448deadd.png

6803d2a9f217e387e5437e70d2e903c9.png

e80ab2ca270750c3a5606f8f6f54d219.png

a0c5a37f73a169d23fad8ca3d2c4822f.png

475f9d806975e2232ae6d6f5dd1ad7b0.png

文章链接:

https://arxiv.org/pdf/2408.10188

03

MagicDec: Breaking the Latency-Throughput Tradeoff for Long Context Generation with Speculative Decoding

大型语言模型(LLMs)在长上下文应用中,如交互式聊天机器人、文档分析和代理工作流中变得越来越普遍,但在低延迟和高吞吐量下处理长上下文请求仍然具有挑战性。推测解码(SD)是一种广泛使用的技术,可以在不牺牲性能的情况下减少延迟,但传统观点认为其效果仅限于小批量处理。MagicDec展示了一个令人惊讶的发现:即使在高吞吐量推理中,SD在处理中等到长序列时也能实现加速。更有趣的是,通过严格分析,智能起草策略可以随着批量大小的增加获得更好的加速效果。MagicDec首先识别出随着批量大小和序列长度的增加而出现的瓶颈转移,并利用这些见解更有效地部署推测解码以实现高吞吐量推理。然后,它利用具有稀疏KV缓存的草稿模型来解决随着序列长度和批量大小增加而扩展的KV瓶颈。此发现强调了推测解码在长上下文服务中的广泛适用性,因为它能够在不牺牲准确性的前提下提高吞吐量并减少延迟。在中等到长序列的处理上,研究表明在8个NVIDIA A100 GPU上为批量大小从32到256提供服务时,LLaMA-2-7B-32K模型的速度提升了多达2倍,LLaMA-3.1-8B模型的速度提升了1.84倍。

9210556d7fb42f7cd2aa95d0f9b6e312.png

c14558c071b0d1e3b42f480da5f9df5e.png

07b49772096f1ea7aad5d3d209366b72.png

aa1540b5a427fd4ee25bc9f9bb5c395a.png

ca7a3a6685fd6bd5c1f17f14f45ee480.png

9fb4e9c4690d0f148606bcde162c2094.png

文章链接:

https://arxiv.org/pdf/2408.11049

04

xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations

本文介绍了xGen-VideoSyn-1,这是一种文本生成视频(T2V)模型,能够从文本描述中生成逼真的场景。基于最近的技术进展,如OpenAI的Sora,xGen-VideoSyn-1探索了潜在扩散模型(LDM)架构,并引入了视频变分自编码器(VidVAE)。VidVAE在空间和时间上压缩视频数据,显著减少了视觉标记的长度以及生成长序列视频的计算需求。为进一步降低计算成本,提出了一种分割与合并策略,以保持视频片段之间的时间一致性。模型采用了扩散Transformer(DiT),该模型结合了空间和时间自注意层,从而能够在不同时间段和长宽比下实现稳健的泛化能力。团队从头设计了数据处理流程,并收集了超过1300万对高质量的视频-文本对。该流程包括剪辑、文本检测、运动估计、美学评分和基于内部视频-LLM模型的密集标注等多个步骤。训练VidVAE和DiT模型分别耗时约40和642个H100天。xGen-VideoSyn-1模型支持超过14秒的720p视频生成,并在端到端的视频生成中展示了与当前最先进的T2V模型相媲美的性能。

ae070783e81d196e26080f8393e6621e.png

f77cfaf4b81ccc89df88a706eb1a843c.png

241c50ca4c8218d2c20a43a69126eed6.png

15b6d46aed4cf7f32f7fb7152d1de391.png

0ce0ba091ba64aa3f15c8456543afa83.png

203632bd27a1a6257f6d68dd1ef3d406.png

文章链接:

https://arxiv.org/pdf/2408.12590

05

OpenCity: Open Spatio-Temporal Foundation Models for Traffic Prediction

准确的交通预测对于有效的城市规划和交通管理至关重要,有助于实现资源的高效分配和提升出行体验。然而,现有模型在泛化能力上往往存在局限性,尤其在对未见过的区域和城市进行零样本预测时表现不佳,并且长期预测的准确性也有所下降。这主要是由于交通数据的空间和时间异质性以及时间和空间上的显著分布转移所带来的固有挑战。为了解决这些问题,本研究旨在探索构建多功能、具有弹性和适应性的时空基础模型的新可能性,以用于交通预测。为实现这一目标,本文引入了一种新的基础模型,名为OpenCity,该模型能够有效捕捉和规范来自多样化数据特征的底层时空模式,从而促进在不同城市环境中的零样本泛化能力。OpenCity将Transformer架构与图神经网络结合起来,以建模交通数据中的复杂时空依赖关系。通过在大规模、异质的交通数据集上对OpenCity进行预训练,使得该模型能够学习丰富的、具有广泛适用性的表示,进而可以无缝应用于多种交通预测场景中。实验结果表明,OpenCity在零样本预测中表现出卓越的性能。此外,OpenCity展示了有前景的缩放法则,表明开发一种真正适用于所有交通预测场景的解决方案的潜力,该方案能够以最小的开销适应新的城市环境。

628e584e78bda82d71c099cb727631c3.png

6b3df214228a6de3434308742cb72db2.png

e0f66e6d9c897a0004c9d16867703e86.png

5ccd9f1046758ae03f55eb0d9b3a21a9.png

3df9df3ee4a105cb89dbc0bd939d8603.png

e5715a664b5fcf3100055e5b06cc1226.png

f6e7eeb5fe0ea7ea074e0c5d842177cc.png

文章链接:

https://arxiv.org/pdf/2408.10269

06

MoE-LPR: Multilingual Extension of Large Language Models through Mixture-of-Experts with Language Priors Routing

大型语言模型(LLMs)通常以英语为中心,这是由于其预训练数据中语言分布不均衡的结果。通过后续预训练增强非英语语言能力通常会导致对原有语言能力的灾难性遗忘。以往的方法要么在扩展语言能力方面表现良好但遗忘严重,要么在防止遗忘方面表现良好但语言扩展不佳,这表明在语言扩展和防止遗忘之间保持平衡是一项挑战。为了解决这一问题,本文提出了一种称为MoE-LPR(基于语言先验路由的专家混合模型)的方法。MoE-LPR采用了两阶段训练方法以增强多语言能力。首先,模型通过升级进入专家混合(MoE)架构进行后续预训练,此时所有原始参数都被冻结,并且新增了专家。在这一阶段,重点是提升扩展语言的能力,而不使用任何原始语言数据。然后,模型通过回放数据复习原始语言的知识,这些回放数据的量不到后续预训练数据的1%。在这一阶段,融入了语言先验路由,以更好地恢复原始语言的能力。多项基准评估表明,MoE-LPR在表现上优于其他后续预训练方法。冻结原始参数保留了原始语言知识,而添加新专家则保留了学习新语言的能力。通过LPR复习有效利用了参数中的多语言知识。此外,MoE架构在增加模型参数总量的同时保持了相同的推理开销。大量实验表明,MoE-LPR在改善扩展语言能力和保持原始语言熟练度方面具有出色的可扩展性。

86c9df46513cebd1272b078da183d600.png

c44a46caa0cd1db204911caa3cfd68f7.png

bc141f61916af51bba9eece84472d713.png

9bc9287b9c8eceb5ee0387825a46f4b3.png

04aa91a7d17a8b3c6ceda0eb9f32feb0.png

aee7a093971d62f50237f2f6948bbef2.png

文章链接:

https://arxiv.org/pdf/2408.11396

07

Mixed Sparsity Training: Achieving 4\times FLOP Reduction for Transformer Pretraining

大型语言模型(LLMs)在处理复杂任务方面取得了显著进展,但其广泛应用受到巨大计算需求的阻碍。具有数千亿参数的基于Transformer的LLMs需要在高端GPU集群上进行数月的预训练。然而,本文揭示了一个引人注目的发现:Transformer在预训练计算中存在相当大的冗余,这促使提出了一种高效的预训练方法——混合稀疏训练(MST)。MST能够在保持性能的同时减少大约75%的浮点运算(FLOPs)。MST在预训练过程中集成了动态稀疏训练(DST)与稀疏性变化(SV)和混合稀疏注意力机制(HSA),并涉及三个不同的阶段:预热阶段、超稀疏化阶段和恢复阶段。预热阶段将密集模型转变为稀疏模型,恢复阶段则重新建立连接。在这些阶段中,模型在动态演变的稀疏拓扑结构和HSA机制下进行训练,以同时维持性能并最小化训练FLOPs。实验结果表明,在GPT-2模型上的应用中,MST在不影响性能的情况下实现了4倍的FLOPs减少。

d24d891084c3d0028a7899e9b6e66756.png

4fb204492e22471235ec78938cc39f78.png

c3dd1ed4594f79dde3f86e8cce074854.png

cad99260ba7cffc39e09342161955343.png

c5d04011b2f7ae62c5c4c771dbd0c37e.png

0073afa4da1b4901e56066bea08a6e36.png

bb78d833c36cdb3c49b8d3b37fa5ee57.png

文章链接:

https://arxiv.org/pdf/2408.11746

本期文章由陈研整理

往期精彩文章推荐

63416b224b51a9312939663746583521.jpeg

 关于AI TIME 

AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。

迄今为止,AI TIME已经邀请了1800多位海内外讲者,举办了逾600场活动,超700万人次观看。

 c3a153123324e91c407652596b525458.png

我知道你

在看

提出观点,表达想法,欢迎

留言

91cf58e5d21c8e9f7695e41703aaa7ce.gif

点击 阅读原文 查看更多!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值