How Far Can Camels Go? Exploring the State of Instruction Tuning on Open Resources-CSDN博客

本文链接：https://blog.csdn.net/c_cpp_csharp/article/details/131510507

本文全面评估了指令调优在一系列公开资源上的效果，发现不同的指令数据集能提升特定技能，但没有单一数据集在所有评估中最佳。最大65B的模型在平均性能上接近ChatGPT的83%，但未达到GPT-4的水平。论文介绍了模型TULU，它是公开发布的最大指令调优模型之一，展示了指令调优的潜力和挑战，强调了需要更好的基础模型和指令数据集来缩小差距。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文也是LLM系列相关文章，介绍instruction Tuning的相关内容，针对《How Far Can Camels Go? Exploring the State of Instruction Tuning on Open Resources》的翻译。

摘要

在这项工作中，我们在一系列开放式指令跟随数据集上探索了指令调整语言模型的最新进展。尽管最近有人声称开放模型可以与最先进的专有模型相提并论，但这些说法往往伴随着有限的评估，这使得全面比较模型和确定各种资源的效用变得困难。我们提供了一大组大小从6.7B到65B的指令调整模型，在12个指令数据集上进行训练，从手动策划（例如，OpenAssistant）到合成和提炼（例如，Alpaca），并通过一系列自动、基于模型和基于人的度量。我们进一步介绍了TÜLU，这是我们性能最好的指令调优模型套件，在高质量开放资源的组合上进行了微调。
我们的实验表明，不同的指令调整数据集可以揭示或增强特定技能，而没有一个数据集（或组合）在所有评估中提供最佳性能。有趣的是，我们发现基于模型和人类偏好的评估未能反映基于基准的评估所暴露的模型能力的差异，这表明在这项工作中需要进行系统评估。我们的评估显示，任何给定评估中的最佳模型平均达到ChatGPT性能的83%和GPT-4性能的68%，这表明需要进一