迭代数据增强策略:LLM2LLM

大模型(LLM)是一种人工智能模型,旨在理解和生成人类语言。它们在大量的文本数据上进行训练,可以执行广泛的任务,包括文本总结、翻译、情感分析等等。LLM的特点是规模庞大,包含数十亿的参数,帮助它们学习语言数据中的复杂模式。这些模型通常基于深度学习架构,如转化器,这有助于它们在各种NLP任务上取得令人印象深刻的表现。

2022年底,OpenAI 推出的基于 GPT-3.5 的大型语言模型 ChatGPT,由于其优秀的表现,ChatGPT 及其背后的大型语言模型迅速成为人工智能领域的热门话题,吸引了广大科研人员和开发者的关注和参与。
在这里插入图片描述
本周精选了5篇LLM领域的优秀论文,为了方便大家阅读,只列出了论文标题、AMiner AI综述等信息,如果感兴趣可点击查看原文,PC端数据同步(收藏即可在PC端查看),每日新论文也可登录小程序查看。

如果想要对某篇论文进行深入对话,可以直接复制论文链接到浏览器上或者直达AMiner AI页面:
https://www.aminer.cn/chat/g/explain?f=cs

1.POLCA: Power Oversubscription in LLM Cloud Providers

本文讨论了大规模语言模型(LLM)在云计算环境中对数据中心GPU计算能力需求的显著增长,并指出数据中心的一个关键瓶颈是电力资源。随着LLM模型规模的增大,其对电力的需求也日益增加。研究显示,在LLM集群中过订阅电力可以显著提高数据中心的电力效率,允许在同一数据中心部署更多的可部署服务器,并减少部署时间,因为建设新数据中心的过程较慢。通过广泛研究各种LLM及其配置的电力消耗模式,确定了推理和训练电力消耗模式之间的差异。研究指出,LLM集群在推理时的平均和峰值电力利用率不应过高。通过对生产环境中LLM集群的数据分析,发现推理工作负载为电力过订阅提供了大量的余地。然而,虚拟化环境中GPU提供的严格的一系列遥测和控制机制,使得建立一个可靠和健壮的电力过订阅机制具有挑战性。本文提出POLCA,这是一个适用于GPU集群的健壮、可靠且易于部署的电力过订阅框架。使用开源模型复制在生产环境中观察到的电力模式,我们模拟POLCA并证明,在相同的GPU集群中,可以为推理部署30%更多的服务器,且性能损失最小。
在这里插入图片描述
链接:https://www.aminer.cn/pub/64e826d63fda6d7f06c314cd/?f=cs

2.Medusa: Simple LLM Inference Acceleration Framework with Multiple Decoding Heads

本文介绍了Medusa,一种有效的语言模型(LLM)推理加速方法。该方法通过增加额外的解码头并行预测多个后续令牌,从而扩展LLM的推理过程。Medusa利用基于树的注意力机制,构建多个候选延续,并在每个解码步骤中同时验证它们。通过利用并行处理,Medusa在单步延迟上的开销最小化,同时大幅减少所需的解码步骤。本文提出了两种级别的微调过程,以满足不同用例的需求:Medusa-1直接在冻结的主干LLM上微调,实现无损的推理加速;Medusa-2与主干LLM一起微调,使Medusa头的预测准确性更高,加速效果更好,但需要特殊的训练方法,以保持主干模型的能力。此外,还提出了几种扩展,以改善或扩大Medusa的实用性,包括用于处理没有训练数据情况的自蒸馏,以及用于提高接受率同时保持生成质量的典型接受方案。本文在各种大小和训练过程的模型上评估了Medusa。实验结果表明,Medusa-1在不牺牲生成质量的情况下,可以实现超过2.2倍的加速效果,而Medusa-2进一步将加速效果提高到2.3-3.6倍。在这里插入图片描述
链接:https://www.aminer.cn/pub/65add586939a5f408220090d/?f=cs

3.LLMeBench: A Flexible Framework for Accelerating LLMs Benchmarking

本文介绍了LLMeBench框架,这是一个用于加速大规模语言模型(LLM)基准测试的灵活框架。该框架最初是为了评估使用OpenAI的GPT和BLOOM模型的阿拉伯NLP任务而开发的,但用户可以根据需要轻松地为任何NLP任务和模型进行定制,不受语言限制。该框架还具备零样本和少样本学习设置,用户可以在10分钟内添加新的自定义数据集,并使用自己的模型API密钥来评估所涉及的NLP任务。该框架已在31个独特的NLP任务上进行了测试,使用了53个公开可用的数据集,在90个实验设置中,涉及大约296K数据点。作者计划将该框架开源供社区使用(https://github.com/qcri/LLMeBench/),并发布了一个在线视频介绍该框架(https://youtu.be/FkQn4UjYA0s)。
在这里插入图片描述
链接:https://www.aminer.cn/pub/64d465973fda6d7f0689142e/?f=cs

4.LLM2LLM: Boosting LLMs with Novel Iterative Data Enhancement

本文提出了一种新的迭代数据增强策略LLM2LLM,旨在通过使用一个教师大型语言模型(LLM)来增强小种子数据集,生成可用于特定任务微调的额外数据。LLM2LLM的三个步骤包括:(1)在初始种子数据上微调基础学生LLM;(2)评估并提取模型预测错误的数据点;(3)使用教师LLM基于这些错误数据点生成合成数据,并将它们添加回训练数据中。这种方法通过训练过程中LLM对错误预测数据点的增强,将它们重新整合到数据集中,以便LLM关注更具挑战性的例子。研究结果显示,在低数据环境下,LLM2LLM显著提升了LLM的性能,优于传统微调和其他数据增强基线。LLM2LLM减少了对外部劳动密集型数据策展的依赖,为更可扩展和性能更优的LLM解决方案铺平了道路,使我们能够处理数据受限的领域和任务。使用LLaMA2-7B学生模型,在低数据环境中实现了高达24.2个点的改进。
在这里插入图片描述
链接:https://www.aminer.cn/pub/6600da6d13fb2c6cf6bf3195/?f=cs

5.LLMI3D: Empowering LLM with 3D Perception from a Single 2D Image

本文提出了一种新的解决方案,以解决当前3D感知算法在处理逻辑推理、问题回答和处理开放场景类别方面的挑战。为了克服这些挑战,文章提出了一种增强的空间特征提取方法,用于改善空间特征提取;一种用于精确几何回归的3D查询令牌导出信息解码方法;以及一种用于处理相机焦距变化的几何投影 based 3D推理方法。文章还对预训练的多模态大型语言模型进行了参数有效的微调,并开发出了LLMI3D,这是一种强大的3D感知MLLM。此外,我们构建了IG3D数据集,该数据集提供了细粒度的描述和问题回答注释。大量的实验表明,我们的LLMI3D取得了最先进的表现,显著优于现有方法。
在这里插入图片描述
链接:https://www.aminer.cn/pub/66bd64f401d2a3fbfc1d8d98/?f=cs


AMiner AI入口:
https://www.aminer.cn/chat/g/explain?f=cs

  • 11
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值