Big Model Weekly | 第30期

点击蓝字

f346b4aef43a873027ffca42f335c70d.jpeg

关注我们

AI TIME欢迎每一位AI爱好者的加入!

01

Mixture of A Million Experts

这篇论文探讨了稀疏的混合专家(MoE)架构,旨在解决传统图自注意力模型在隐藏层宽度增长时计算成本和激活记忆呈线性增加的问题。通过使用产品键技术,论文提出了PEER层设计,可以在大规模专家池中实现高效的检索,而不受到计算资源和优化问题的限制,这为大型模型进一步扩展和提高性能发挥了潜力。PEER层在语言建模任务上证明了与密集的前馈层和粗糙的MoE层相比,在性能和计算效率之间取得了更好的权衡。

b5726dd40eb12a8547beb0676ac033ee.png

894a61f7e22c355a932dd51097446f7c.png

e67c62d73154131fc5993a24ce59b394.png

7ace8b228691605ef36dec7744d731fd.png

a2048e72a4874e15fe9e12bb3bd880db.png

文章链接:

https://arxiv.org/pdf/2407.04153

02

SoftDedup: an Efficient Data Reweighting Method for Speeding Up Language Model Pre-training

本文针对大型语言模型(LLMs)在广泛预训练数据集中的有效性受到重复数据影响的问题,进行了一项研究。当前方法主要集中在检测和删除重复数据,这可能导致有价值信息的丢失,并忽略了复制的不均匀程度。基于此,该论文提出了一种软去重方法,该方法在不破坏数据完整性的同时,通过选择性地减少高度重复数据的采样权重,有助于减少所需的训练步骤。该论文引入了“数据重复度”这一度量,通过n-gram模型来衡量样本的出现概率,该方法在实验上显示了显著的训练效率提高,相较于传统方法至少节省了26%的训练步骤,同时在训练等时长的情况下游程准确率提高了1.77%。本文方法的一致性在严格去重数据集上也有表现,表明其潜力成为大型语言模型标准预训练过程的补充。

3490a2f94ca494e3b0552c98c70cb0c0.png

e9fb8152c3827f4ebc8fd40eb3d66673.png

101ce47528bcfb4048c3f15e36375694.png

28a9c714df1e4569a7ab234cf8a33f4a.png

d0d406b48238dbf340c646d054ab3b19.png

8d4544f52998d19f9baf395452303883.png


文章链接:

https://arxiv.org/pdf/2407.06654

03

Progress or Regress? Self-Improvement Reversal in Post-training

通过后训练方法(如迭代偏好学习)进行自我提升被认为能够在无需人类干预的情况下增强大型语言模型(LLMs)的问题解决能力(例如,数学推理)。然而,随着探索的深入,评估这些改进是否真正意味着在解决更具挑战性的问题方面取得了进展,或者是否可能导致意外的退步,变得至关重要。为此,本文提出了一个全面的评估框架,不仅仅依赖于表面的 pass@1 指标,而是深入审视后训练范式的自我提升的潜在改进。通过在各种问题解决任务上进行严格的实验和分析,实证结果指出了自我提升逆转的现象,即模型在基准测试中表现出改进,但在更广泛和重要的能力(如输出多样性和超出分布(OOD)泛化)上却出现了矛盾的下降。这些发现表明,当前通过后训练进行的自我提升实践不足以使模型能够应对更复杂的问题。此外,它们还强调了关键评估指标的重要性,以区分自我提升的 LLMs 是在进步还是退步。

9e4b8a5a9394ce42f4f1c23319512519.png

654345f854bcdef5c0c97119f9be59c1.png

99d5fad03dde9fc3a8bd347cb9a70bb1.png

e827ee99c1b9f36e673017c19386d787.png

d58d050257eceeb4483e03ba5fffd5f7.png

2a5f73bf930976d24b16ff3c4da30d88.png

文章链接:

https://arxiv.org/pdf/2407.05013

04

RodinHD: High-Fidelity 3D Avatar Generation with Diffusion Models

本文介绍了RodinHD,这是一种能够从肖像图像生成高保真3D头像的方法。现有方法难以捕捉诸如发型等复杂细节,而本论文中解决了这一问题。首先,作者识别出在对多个头像依次拟合三平面时,由于MLP解码器共享方案而产生的灾难性遗忘问题。为了解决这个问题,本文提出了一种新颖的数据调度策略和一个权重巩固正则项,以提升解码器渲染更细锐细节的能力。此外,文章通过计算更细粒度的层次化表示来优化肖像图像的指导效果,这种表示捕捉了丰富的2D纹理线索,并通过交叉注意力将其注入到3D扩散模型的多个层中。在对46,000个头像进行训练并针对三平面优化噪声调度后,所得到的模型能够生成比以往方法更好细节的3D头像,并能推广到自然环境中的肖像输入。

c8ce7c90c36a0cc6a6c441dbf4970063.png

1182eb7e873a82125d55a00fa237305b.png

9c8010902f3d8caff2a92951fc49ed27.png

a786388517b8e80bbd7e9a58f50e00f3.png

f9c5d208af50f0af652789d9cb8cc3af.png

文章链接:

https://arxiv.org/pdf/2407.06938

05

Re-Tuning: Overcoming the Compositionality Limits of Large Language Models with Recursive Tuning

本文提出了一种用于大型语言模型解决组合任务的新方法。尽管大型语言模型在传统语言理解任务中表现出色,但在解决组合任务时却存在困难,这些任务的解决依赖于解决同一问题的更小实例。文章提出了一种自然的方法来递归地解决组合任务。Re-Tuning,通过调整模型将问题分解为子问题,解决这些子问题,并结合结果。本文展示了该方法在三个具有代表性的组合任务(整数加法、动态规划和奇偶性)上显著提高了模型性能。与保留问题解决中间步骤的最先进方法相比,Re-Tuning 在准确性上有显著提升,并且更加节省GPU内存。

96a3580ced1d32e4fff08b51f8f56cdd.png

2738964141b43cd3bb7ffbee7dcd496e.png

c9f728748316a6a19bcf4e870267c6aa.png

1968fb0506f5adb48bfcc26cc5469da8.png

0936f865f8194964dc8ef10a823dcb27.png

文章链接:

https://arxiv.org/pdf/2407.04787

06

MAPO: Boosting Large Language Model Performance with Model-Adaptive Prompt Optimization

提示工程作为一种高效利用大型语言模型(LLM)的方式,引起了研究界的广泛关注。现有研究主要强调将提示适配于特定任务的重要性,而非特定的LLM。然而,一个好的提示不仅仅由其措辞定义,还与所用LLM的性质紧密相关。这项工作首先定量证明了不同的提示应适应不同的LLM,以增强它们在各种自然语言处理下游任务中的能力。然后,本文新提出了一种模型自适应提示优化器(MAPO)方法,该方法针对每个特定的LLM优化原始提示以用于下游任务。大量实验表明,所提出的方法能够有效优化LLM的提示,从而在各种下游任务中实现显著的性能提升。

e9780bbdb1fda2fa00105f42c038710c.png

619943ad776c280b749431419ee80e5c.png

0f12142ed5bcf24f555853dc21dfd229.png

f6f1b4b9c912c215a8863d9adc2ad9e7.png

64340a27fa20123351a3cf94a437becd.png

文章链接:

https://arxiv.org/pdf/2407.04118

07

FunAudioLLM: Voice Understanding and Generation Foundation Models for Natural Interaction Between Humans and LLMs

提示工程作为一种高效利用大型语言模型(LLM)的方式,引起了研究界的广泛关注。现有研究主要强调将提示适配于特定任务的重要性,而非特定的LLM。然而,一个好的提示不仅仅由其措辞定义,还与所用LLM的性质紧密相关。这项工作首先定量证明了不同的提示应适应不同的LLM,以增强它们在各种自然语言处理下游任务中的能力。然后,作者新提出了一种模型自适应提示优化器(MAPO)方法,该方法针对每个特定的LLM优化原始提示以用于下游任务。大量实验表明,所提出的方法能够有效优化LLM的提示,从而在各种下游任务中实现显著的性能提升。

8c255c80375128fc7df142098b077225.png

680ea6168952a164da7073290914e44b.png

0c5cdf8a17bf9a78e58d36a73570e57f.png

8f527cc35a05a289963fde44892ca19a.png

b6e5214dc054cf1b48c3fd54b6c6e75a.png

82dbd0116d9216af6001353225c77b17.png


文章链接:

https://arxiv.org/pdf/2407.04051

本期文章由陈研整理

往期精彩文章推荐

adb9f78db7fd4a1be1be76f2d8ee5ea9.jpeg

记得关注我们呀!每天都有新知识!

 关于AI TIME 

AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。

迄今为止,AI TIME已经邀请了1800多位海内外讲者,举办了逾600场活动,超700万人次观看。

545ec04786c020f233b87adaa7c25846.png

我知道你

在看

欢迎讨论,期待你的

留言

760169f3f7be657941ef83ca6a8c8208.gif

点击 阅读原文 查看更多!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值