性能飞跃！18种大模型指令调优技巧大放送，打造更强LLM！

最新推荐文章于 2024-09-04 09:27:54 发布

和老莫一起学AI

最新推荐文章于 2024-09-04 09:27:54 发布

阅读量656

点赞数 14

文章标签：算法人工智能产品经理语言模型学习 ai agi

本文链接：https://blog.csdn.net/2401_85373691/article/details/141602859

版权

指令调优（IT），一种针对大型语言模型（LLMs）的训练方法，是提高大型语言模型能力和可控性的关键技术。该方法的核心目标是使LLM具备遵循自然语言指令并完成现实世界任务的能力。它弥补了LLM的下一个单词预测目标与用户让LLM遵循人类指令的目标之间的差距，约束了模型的输出，使其符合预期的响应特征或领域知识。

随着计算机技术的发展，指令调优在一些需要执行特定任务的场景上，如机器翻译、问答系统等，都有着广泛的应用前景。

为帮助大家理解并掌握IT，我这次整理了18种指令调优方法，包含指令微调LLMs、多模态指令微调两个方向，每个方法的原文及模型源码也都整理啦。

指令微调LLMs

1.InstructGPT

论文：Training language models to follow instructions with human feedback

通过人类反馈训练语言模型遵循指令

「简述：」 本文提出一种通过人类反馈微调语言模型的方法，使其与用户意图对齐。作者收集了标注者演示所需行为的数据集和模型输出排名的数据集，微调GPT-3得到InstructGPT模型。在人机评估中，1.3B参数的InstructGPT模型比175B GPT-3更受青睐，同时减少了输出不真实和有害的情况，性能下降不大。

2.BLOOMZ

论文：Crosslingual Generalization through Multitask Finetuning

跨语言泛化通过多任务微调实现

「简述：」 本文将多任务微调应用于预训练的多语言BLOOM和mT5模型族，生成了名为BLOOMZ和mT0的微调变体。研究发现，在英语任务上微调大型多语言语言模型并使用英文提示可以使模型泛化到非英语语言的任务中。在多语言任务上使用英文提示进行微调进一步提高了性能，实现了各种最先进的零样本结果。

3.FLAN-T5

论文：Scaling Instruction-Finetuned Language Models

缩放指令微调语言模型

「简述：」 本文研究了在一系列指令性数据集中微调语言模型的效果，并发现这可以提高模型性能和对未见过的任务的泛化能力。作者特别关注三个方面：扩展任务数量、扩大模型规模、在思维链数据上进行微调。研究发现，在这些方面进行指令微调可以显著提高各种模型类别、提示设置和评估基准的性能。例如，Flan-PaLM 540B在1.8K个任务上进行了指令微调，比PaLM 540B高出很多（平均+9.4%）。作者还公开发布了Flan-T5检查点，它在少样本性能方面表现强劲，甚至与更大的模型相比也毫不逊色。

4.Alpaca

论文：Alpaca: A Strong, Replicable Instruction-Following Model

一种强大、可复制的指令跟随模型

「简述：」 指令跟随模型越来越强大，但仍然存在许多缺陷。为了解决这些问题，研究人员发布了一种名为Alpaca的指令跟随语言模型，它是基于Meta的LLaMA 7B模型微调而来的。该模型在52K个以text-davinci-003的自我指导风格生成的指令跟随演示上进行了训练。

在这里插入图片描述

5.Vicuna

项目：Vicuna: An Open-Source Chatbot Impressing GPT-4 with 90%* ChatGPT Qualit

一个开源聊天机器人，以90%的ChatGPT质量给GPT-4留下深刻印象

「简述：」 LMSYS介绍了开源聊天机器人Vicuna-13B，它是通过在ShareGPT上收集的用户共享对话中微调LLaMA进行训练的。初步评估使用GPT-4作为评判标准显示，Vicuna-13B实现了超过90％* 的OpenAI ChatGPT和Google Bard的质量，并在超过90％* 的情况下优于其他模型，如LLaMA和斯坦福Alpaca。

6.GPT-4-LLM

论文：Instruction tuning with gpt-4

使用GPT-4进行指令调优

「简述：」 本文介绍了使用GPT-4生成指令跟随数据来微调大型语言模型（LLMs）的首次尝试。早期的实验表明，使用GPT-4生成的52K英文和中文指令跟随数据比先前最先进的模型生成的指令跟随数据在全新任务上表现出更出色的零样本性能。作者还收集了来自GPT-4的反馈和比较数据，以实现全面的评估和奖励模型训练。

7.WizardLM

论文：WizardLM: Empowering Large Language Models to Follow Complex Instructions

赋予大型语言模型遵循复杂指令的能力

「简述：」 本文提出了一种使用大型语言模型（LLM）生成指令数据的方法，以代替人工创建。通过逐步将初始指令重写为更复杂的指令，并将所有生成的指令数据混合到一起微调LLaMA，得到的结果被称为WizardLM。在人类评估和GPT-4自动评估中，WizardLM表现出比ChatGPT更好的能力。

8.LIMA

论文：Lima: Less is more for alignment

对齐时，少即是多

「简述：」 本文介绍了一种使用大型语言模型（LLM）进行训练的方法，分为无监督预训练和大规模指令微调两个阶段。作者通过训练LIMA来证明，在有监督损失微调中，只需要少量示例即可让LLM学习到高质量的输出。LIMA表现出非常出色的性能，能够遵循特定的响应格式，并泛化到未见过的任务上。

9.OPT-IML

论文：OPT-IML: Scaling Language Model Instruction Meta Learning through the Lens of Generalization

通过泛化的视角扩展语言模型指令元学习

「简述：」 论文提出了一种使用大型预训练语言模型进行指令元学习的方法，通过扩展模型和基准规模来提高其在未见过的任务上的泛化能力。作者创建了一个包含2000个NLP任务的大型基准测试集，并展示了在不同指令微调决策下的应用效果。通过这个框架，作者训练了OPT-IML 30B和175B，这两个模型是OPT的指令微调版本，并在四个不同的评估基准测试集上表现出了很好的性能。

10.Dolly 2.0

项目：Free dolly: Introducing the world’s first truly open instruction-tuned llm

介绍世界上第一个真正开放的指令调优LLM

「简述：」 Dolly 2.0 是第一个开源的、指令遵循的、120亿参数的语言模型，完全基于EleutherAI pythia模型系列进行微调，并专门使用了一个新的、高质量的人工生成指令遵循数据集，该数据集是在Databricks员工中进行众包收集的。

11.Tülu

论文：How Far Can Camels Go? Exploring the State of Instruction Tuning on Open Resources

探索开放资源上的指令调优状态

「简述：」 本文研究了在一系列开放指令遵循数据集上进行指令调优的语言模型的最新进展，提供了一组从67亿到650亿参数规模的指令调优模型，并使用自动、基于模型和基于人类的指标对其进行了评估。实验表明，不同的指令调优数据集可以发现或增强特定的技能，但没有单个数据集（或组合）在所有评估中提供最佳性能。作者还介绍了Tülu，这是在高质量的开放资源组合上微调的最佳表现的指令调优模型套件。

12.UltraLM

论文：Enhancing chat language models by scaling high-quality instructional conversations

通过扩展高质量的指导性对话来增强聊天语言模型

「简述：」 作者提供了一个多样化、信息量大的指导性对话数据集UltraChat，并基于该数据集微调了一个强大的对话模型UltraLLaMA。评估结果表明，UltraLLaMA优于其他开源模型。

多模态指令微调

1.InstructPix2Pix

论文：Instructpix2pix: Learning to follow image editing instructions

学习遵循图像编辑指令

「简述：」 本文提出了一种根据人类指令快速编辑图像的方法。作者结合了两个大型预训练模型的知识来生成大量的图像编辑示例数据集，并使用这个数据集训练了一个新的条件扩散模型InstructPix2Pix。该模型可以在几秒钟内快速编辑图像，并在推理时推广到真实图像和用户编写的指令。

2.LLaVA

论文：Visual instruction tuning

可视化指令调优

「简述：」 本文介绍了一种使用语言模型生成多模态语言-图像指令遵循数据的可视化指令调优方法，以改善新任务的零样本能力。作者首次尝试使用只有语言的GPT-4来生成多模态语言-图像指令遵循数据，并通过这种生成的数据进行指令调优，引入了LLaVA。LLaVA是一个端到端训练的大型多模态模型，将视觉编码器和LLM连接起来，用于通用的视觉和语言理解。

3.Video-LLaMA

论文：Video-llama: An instruction-tuned audio-visual language model for video understanding

一种用于视频理解的指令调优的视听语言模型

「简述：」 论文提出了一种多模态框架Video-LLaMA，可让大型语言模型理解视频中的视觉和听觉内容。该模型从冻结的预训练视觉和音频编码器以及冻结的LLMs开始进行跨模态训练，解决了捕捉视觉场景中的时间变化和整合视听信号两个挑战。作者还提出了一个Video Q-former来将预训练的图像编码器组装到视频编码器中，并引入了一个视频到文本生成任务来学习视频-语言对应关系。

4.InstructBLIP

论文：Instructblip: Towards general-purpose visionlanguage models with instruction tuning

通过指令调优实现通用视觉语言模型

「简述：」 本文介绍了一种通用视觉语言模型InstructBLIP，通过大规模的预训练和指令调优实现了广泛的能力。作者使用26个公开可用的数据集进行训练，引入了一种指令感知的查询转换器来提取相关信息特征。在13个持有数据集中进行训练后，InstructBLIP在所有测试集上都达到了最先进的零样本性能，显著优于其他模型。在单个下游任务上进行微调时，InstructBLIP也取得了很好的性能。

5.Otter

论文：Otter: A multi-modal model with in-context instruction tuning

一种具有上下文指令调优的多模态模型

「简述：」 本文介绍了多模态模型Otter，它基于DeepMind的Flamingo模型并通过上下文指令调优进行了训练。作者使用类似的方式构建了MultI-Modal In-Context Instruction Tuning（MIMIC-IT）数据集，并展示了Otter在遵循指令和上下文学习方面的优秀能力。

6.MultiModal-GPT

论文：Multimodal-gpt: A vision and language model for dialogue with humans

一种用于与人类对话的视觉和语言模型

「简述：」 本文介绍了一种名为MultiModal-GPT的视觉和语言模型，用于与人类进行多轮对话。该模型可以从人类那里遵循各种指令，例如生成详细的描述、计算感兴趣的对象数量以及回答用户提出的一般问题。作者使用视觉和语言数据构建了多模态指令调优的指令模板，以使模型能够理解和遵循人类的指令。作者还利用仅语言指令跟随数据对MultiModal-GPT进行联合训练，有效地提高了对话性能。

如何学习大模型

现在社会上大模型越来越普及了，已经有很多人都想往这里面扎，但是却找不到适合的方法去学习。

作为一名资深码农，初入大模型时也吃了很多亏，踩了无数坑。现在我想把我的经验和知识分享给你们，帮助你们学习AI大模型，能够解决你们学习中的困难。

我已将重要的AI大模型资料包括市面上AI大模型各大白皮书、AGI大模型系统学习路线、AI大模型视频教程、实战学习，等录播视频免费分享出来，需要的小伙伴可以扫取。

一、AGI大模型系统学习路线

很多人学习大模型的时候没有方向，东学一点西学一点，像只无头苍蝇乱撞，我下面分享的这个学习路线希望能够帮助到你们学习AI大模型。

在这里插入图片描述

二、AI大模型视频教程

在这里插入图片描述

三、AI大模型各大学习书籍

在这里插入图片描述

四、AI大模型各大场景实战案例

在这里插入图片描述

五、结束语

学习AI大模型是当前科技发展的趋势，它不仅能够为我们提供更多的机会和挑战，还能够让我们更好地理解和应用人工智能技术。通过学习AI大模型，我们可以深入了解深度学习、神经网络等核心概念，并将其应用于自然语言处理、计算机视觉、语音识别等领域。同时，掌握AI大模型还能够为我们的职业发展增添竞争力，成为未来技术领域的领导者。

再者，学习AI大模型也能为我们自己创造更多的价值，提供更多的岗位以及副业创收，让自己的生活更上一层楼。

因此，学习AI大模型是一项有前景且值得投入的时间和精力的重要选择。

零基础如何学习大模型 AI

领取方式在文末

为什么要学习大模型？

学习大模型课程的重要性在于它能够极大地促进个人在人工智能领域的专业发展。大模型技术，如自然语言处理和图像识别，正在推动着人工智能的新发展阶段。通过学习大模型课程，可以掌握设计和实现基于大模型的应用系统所需的基本原理和技术，从而提升自己在数据处理、分析和决策制定方面的能力。此外，大模型技术在多个行业中的应用日益增加，掌握这一技术将有助于提高就业竞争力，并为未来的创新创业提供坚实的基础。

大模型典型应用场景

①AI+教育：智能教学助手和自动评分系统使个性化教育成为可能。通过AI分析学生的学习数据，提供量身定制的学习方案，提高学习效果。
②AI+医疗：智能诊断系统和个性化医疗方案让医疗服务更加精准高效。AI可以分析医学影像，辅助医生进行早期诊断，同时根据患者数据制定个性化治疗方案。
③AI+金融：智能投顾和风险管理系统帮助投资者做出更明智的决策，并实时监控金融市场，识别潜在风险。
④AI+制造：智能制造和自动化工厂提高了生产效率和质量。通过AI技术，工厂可以实现设备预测性维护，减少停机时间。

⑤AI+零售：智能推荐系统和库存管理优化了用户体验和运营成本。AI可以分析用户行为，提供个性化商品推荐，同时优化库存，减少浪费。

⑥AI+交通：自动驾驶和智能交通管理提升了交通安全和效率。AI技术可以实现车辆自动驾驶，并优化交通信号控制，减少拥堵。

…
这些案例表明，学习大模型课程不仅能够提升个人技能，还能为企业带来实际效益，推动行业创新发展。