上交大团队发布更精准的Less is More,删减84%数据反提升效果

大模型(LLM)是一种人工智能模型,旨在理解和生成人类语言。它们在大量的文本数据上进行训练,可以执行广泛的任务,包括文本总结、翻译、情感分析等等。LLM的特点是规模庞大,包含数十亿的参数,帮助它们学习语言数据中的复杂模式。这些模型通常基于深度学习架构,如转化器,这有助于它们在各种NLP任务上取得令人印象深刻的表现。

2022年底,OpenAI 推出的基于 GPT-3.5 的大型语言模型 ChatGPT,由于其优秀的表现,ChatGPT 及其背后的大型语言模型迅速成为人工智能领域的热门话题,吸引了广大科研人员和开发者的关注和参与。
在这里插入图片描述
为了方便大家阅读,只列出了论文标题、AMiner AI综述等信息,如果感兴趣可点击查看原文,PC端数据同步(收藏即可在PC端查看),每日新论文也可登录小程序查看。

如果想要对某篇论文进行深入对话,可以直接复制论文链接到浏览器上或者直达AMiner AI页面:
https://www.aminer.cn/chat/g/explain

Byte Latent Transformer: Patches Scale Better Than Tokens

【要点】:本文提出了Byte Latent Transformer(BLT)模型,一种新的字节级大型语言模型架构,首次在规模上实现了与基于标记的大型语言模型相当的性能,同时显著提升了推理效率和鲁棒性。
【方法】:BLT将字节编码为动态大小的“补丁”,作为计算的主要单元,并根据下一个字节的熵来分割补丁,为数据复杂性较高的部分分配更多的计算和模型容量。
【实验】:作者进行了首个FLOP控制规模的字节级模型研究,参数规模达到8B,训练字节数达到4T。实验结果表明,BLT在固定推理成本下,比基于标记的模型具有更好的扩展性,同时在训练和推理效率上都有提升,并在推理和长尾泛化方面有定性的改进。
【链接】:https://www.aminer.cn/pub/675f95f0ae8580e7ff22ac8c

Evaluation Agent: Efficient and Promptable Evaluation Framework for Visual Generative Models

【要点】:论文提出了一种名为Evaluation Agent的评价框架,模仿人类评估视觉生成模型的方式,通过少量样本实现快速、动态、多轮次评估,并提供定制化的详细分析。
【方法】:Evaluation Agent框架采用类似人类的策略,通过在每一轮评估中使用少量样本,提供灵活且高效的评价过程,同时可以根据用户需求调整评估策略。
【实验】:作者使用Evaluation Agent框架对多个视觉生成模型进行了评估,实验结果显示,该框架将评估时间缩短至传统方法的十分之一,且生成了具有可比性的结果。论文中未明确提及使用的数据集名称,但框架已开源以促进视觉生成模型及其高效评估的研究。
【链接】:https://www.aminer.cn/pub/675f952aae8580e7ff1fd4f3

RetroLLM: Empowering Large Language Models to Retrieve Fine-grained Evidence within Generation

【要点】:论文提出了RetroLLM框架,该框架将检索与生成统一为一个整体过程,使大型语言模型能够直接从语料库中生成细粒度证据,减少幻觉现象,并通过层级FM-Index约束和前瞻性约束解码策略提高证据的准确性。
【方法】:RetroLLM通过整合检索与生成过程,使用层级FM-Index约束来减少解码空间中不相关的部分,并采用前瞻性约束解码策略来提升生成证据的相关性。
【实验】:在五个开放域问答数据集上进行的广泛实验表明,RetroLLM在域内和域外任务上均展现出优越性能。具体数据集名称未在摘要中提及。
【链接】:https://www.aminer.cn/pub/67623160ae8580e7ff8edd1e

BrushEdit: All-In-One Image Inpainting and Editing

【要点】:本文提出了BrushEdit,一种结合多模态大语言模型(MLLMs)和图像修复模型的创新性指令引导图像编辑框架,实现了自主、用户友好和交互式自由形状编辑。
【方法】:通过集成MLLMs和双分支图像修复模型,BrushEdit在代理协作框架中执行编辑分类、主要对象识别、掩码获取和编辑区域修复。
【实验】:作者在多个数据集上进行了广泛实验,结果显示BrushEdit在包括掩码区域保持和编辑效果连贯性在内的七项指标上取得了优越性能。
【链接】:https://www.aminer.cn/pub/675f973aae8580e7ff2740c8

LIMR: Less is More for RL Scaling

【要点】:本文挑战了增大强化学习(RL)训练数据量必然提高性能的传统观念,提出了一种基于学习影响测量(LIM)的样本选择方法,用远较少的样本量实现了比完整数据集更优或相当的性能,揭示了精确样本选择可能是增强大型语言模型推理能力的关键。
【方法】:研究引入了学习影响测量(LIM)方法,自动化评估和优先排序训练样本,根据样本与模型学习轨迹的一致性进行选择,从而提高资源利用效率并实现可扩展的实施。
【实验】:通过实验表明,使用仅1,389个样本的战略性选择的子集,比完整8,523样本数据集达到可比或更优的性能。实验使用了监督微调(SFT)在7B-scale模型上对比了数据高效方法LIMO和s1,并发现基于RL的LIMR方法性能显著优于这两种方法。相关代码和数据集已开源在https://github.com/GAIR-NLP/LIMR。
【链接】:https://www.aminer.cn/pub/67b3fbfbae8580e7ff49ead9

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值