How Far Can Camels Go? Exploring the State of Instruction Tuning on Open Resources

515 篇文章 3 订阅

已下架不支持订阅

本文全面评估了指令调优在一系列公开资源上的效果,发现不同的指令数据集能提升特定技能,但没有单一数据集在所有评估中最佳。最大65B的模型在平均性能上接近ChatGPT的83%,但未达到GPT-4的水平。论文介绍了模型TULU,它是公开发布的最大指令调优模型之一,展示了指令调优的潜力和挑战,强调了需要更好的基础模型和指令数据集来缩小差距。
摘要由CSDN通过智能技术生成

本文也是LLM系列相关文章,介绍instruction Tuning的相关内容,针对《How Far Can Camels Go? Exploring the State of Instruction Tuning on Open Resources》的翻译。

摘要

在这项工作中,我们在一系列开放式指令跟随数据集上探索了指令调整语言模型的最新进展。尽管最近有人声称开放模型可以与最先进的专有模型相提并论,但这些说法往往伴随着有限的评估,这使得全面比较模型和确定各种资源的效用变得困难。我们提供了一大组大小从6.7B到65B的指令调整模型,在12个指令数据集上进行训练,从手动策划(例如,OpenAssistant)到合成和提炼(例如,Alpaca),并通过一系列自动、基于模型和基于人的度量。我们进一步介绍了TÜLU,这是我们性能最好的指令调优模型套件,在高质量开放资源的组合上进行了微调。
我们的实验表明,不同的指令调整数据集可以揭示或增强特定技能,而没有一个数据集(或组合)在所有评估中提供最佳性能。有趣的是,我们发现基于模型和人类偏好的评估未能反映基于基准的评估所暴露的模型能力的差异,这表明在这项工作中需要进行系统评估。我们的评估显示,任何给定评估中的最佳模型平均达到ChatGPT性能的83%和GPT-4性能的68%,这表明需要进一

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

已下架不支持订阅

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值