LLM对齐经验之数据越少越好？

AI大模型教程

已于 2024-05-05 14:45:52 修改

阅读量1.1k

点赞数 20

文章标签：人工智能深度学习机器学习大模型

于 2024-01-27 13:30:00 首次发布

本文链接：https://blog.csdn.net/2401_82469710/article/details/135864367

版权

LIMA

论文：LIMA: Less Is More for Alignment
要点：人工构建1K高质量样本用于对齐，高质量主要指输出的风格一致性，以及输入的多样性

LIMA是比较早提出Quality Over Quantity观点的论文。论文提出一个假设是模型的知识和能力几乎全部是预训练阶段注入的。而指令微调阶段的对齐只是学习和人类交互的回答形式。因此一个输入多样，输出形式一致的高质量指令数据集能帮模型快速学到回答形式。

指令数据集的构建方式是人工从Stack Exchange， wikiHow和Reddit里面分类筛选更高质量的问题和回答，来构建指令样本集。我们具体说下Stack Exchange样本的构建，其他两个思路是一致的

分类采样: 为了保证多样性，把Stack的分成75个科学类别和99个其他类别，从每个类别中采样200个问题
筛选：为了保证质量，在以上每个类别中筛选问题评分最高的，再筛选该问题中回答得分最高的
过滤：为了保证输出的一致性，过滤太长(4096字符)/太短（1200字符）的回答，过滤以第一人称回答，或者引用了其他回答的内容。以及对内容进行清洗只保留代码和文本部分。
样本构建：随机使用问题的标题或者描述作为输入，使用回答做为输出。

除了使用已有的QA数据，几位作者还人工构建了200条基于个人偏好随机创建的prompt，以及编写的回答，在回答编写过程中核心是注意回答风格的一致性。重要的事情说三遍，一致性，一致性，一致性。论文反复强调一致的回答风格可以加速模型收敛。

论文使用的是65B的LLAMA模型，1000条样本，微调了15个epoch，lr=1e-5, batch=32, max_seq_len =2048。最终是人工在验证集打分上，选择了5-10个epoch之间的checkpoint。

论文针对数据集的质量，数量和多样性进行了消融实验，如下图

多样性：相似质量和数量，输入指令多样性更高的stack exchange的效果优于输入相对单一的wikiHow数据集
质量：同等量级上过滤后质量更高的stack Exchange数据集微调的效果更好
数量：从质量过滤后单一的stack exchange中采样更高量级的训练样本，并不能显著带来效果提升。之前公认的样本数量越多越好，可能更多是数量提升带来的指令多样性提升。

当然论文选择的样本数本身并无非常大的参考意义，因为这个选择的基座模型，模型大小，数据本身的多样性都相关，所以需要具体模型具体分析。

ALPAGASUS

论文：AlpaGasus: Training A Better Alpaca with Fewer Data
代码：https://lichang-chen.github.io/AlpaGasus/
数据: https://github.com/gururise/AlpacaDataCleaned/
要点：模型自动化筛选高质量指令微调样本

论文起名终于从和动物纠缠不清，到开始上天入地，模型起名AlpaGasus=Alpaca+Pegasus，故名飞天羊驼，哈哈最近总会让人不由自主想到飞天茅台

对比LIMA，ALPAGASUS没有对什么是高质量进行很明确的定义，但是提出了自动化样本过滤的方案，成本更低，更简单粗暴。从原始52K的ALPACA样本中使用大模型自动筛选高质量的9K样本进行模型微调。

论文在以下4个测试集上进行评估，使用GPT-4给原始Alpaca和飞天羊驼进行偏好打分，胜率如下，在不同量级的训练样本上，飞天羊驼以80%+的胜率超越Alpaca，当训练样本在9K左右的时候，胜率最高~

自动样本过滤机制比较简单，就是使用如下Prompt，让Chatgpt给(instruction, input, response)的三元组样本进行打分，并根据最终的打分分布，选定4.5分作为阈值，筛选打分>4.5的9K样本用于下游模型微调。

论文还进行了消融实验，对比了不同的筛选阈值得到的不同训练样本量的影响，3k/6k/9k中9K的样本量级，模型效果最好，但超过后模型效果会有下降。延伸下大概就是高质量的数据越多越好，但低质量的数据越少越好。同时对比了随机采样9K作为作为对照组，效果是显著差于使用模型打分筛选出的9K样本。

自动化数据筛选看起来非常美好且梦幻，但笔者本人有一个疑问，论文使用chatgpt来筛选样本，又用GPT4作为评估，是否会引入bias，这个bias主要来自chatgpt和gpt4相对一致的偏好。这一点除非引入人工评估，或者多个大模型例如Claude之类同时进行最终的评估打分，否则个人感觉可能出现妈妈看自己的孩子咋看都好看的情况…

LTD

论文：Maybe Only 0.5% Data is Needed: A Preliminary Exploration of Low Training Data Instruction Tuning
要点：聚类过滤相似度高的样本，筛选多样性样本用于对齐

LTD的样本筛选中心放在多样性，在任务微调上只使用0.5%的训练样本，还比原有效果提升了2%。论文对多样性给出了更形象的描述就是用最少的样本，去近似刻画当前全部指令集的空间分布。这么一描述，其实答案已经呼之欲出了，跑不了cluster，KNN，k-center这些方案，论文实现如下

具体分成3个步骤

Sample embedding: 把指令样向量化，这里论文是把指令+回答一同输入BERT模型进行编码，并且做了l2正则化，这样后续聚类计算距离就可以直接使用cosine距离
Clustering：作者使用K-Means对所有指令样本进行聚类，不过个人更偏好aggolomerative clustering,毕竟k-means是密度聚类，而层次聚类是基于距离的，在文本聚类中距离是有明确含义的，可以更好保证不同cluster直接的粒度相对一致
Corest Sampling：基于聚类结果选择有代表性的样本来构建指令集。我本以为论文会直接从每个cluster动进行随机采样，意料之外的是论文采用了贪心的K-center算法来选取更有代表性的数据点，算法如下。目标是找到K的中心点，使得所有点到距离最近的中心点的距离之和最小化。实现是先用聚类中心点作为起始中心点，遍历所有其他点找到离所有起始点距离最远的点，把这个点也加入中心点，然后多次重复以上过程。

除了以上介绍的论文之外，还有几篇论文思想也或有相似，包括以下Reference中的

InstructionGPT-4：把多样性和质量进行综合打分的多模态微调模型
Instruction Minning：使用指令评估集推理Loss来对指令数据进行高质量筛选的
Polite Flamingo：通过改写和重构构建高质量多模态模型输出数据
Textbooks：编程任务上构建教科书级别质量的预训练数据，和对应的习题集数据用于微调效果显著超越StarCoder

话接上文的指令微调的样本优化方案，上一章是通过多样性筛选和质量过滤，对样本量进行缩减，主打经济实惠。这一章是通过扩写，改写，以及回译等半监督样本挖掘方案对种子样本进行扩充，提高种子指令样本的多样性和复杂度，这里我们分别介绍Microsoft，Meta和IBM提出的三个方案。

LLM对齐方案再升级

Microsoft：WizardLM

WizardLM: Empowering Large Language Models to Follow Complex Instructions
https://github.com/nlpxucan/WizardLM
要点：使用prompt对种子指令样本进行多样化，复杂化改写可以有效提升模型效果

wizardLM提出了一套指令改写的方案Evol-Instruct对原始指令样本进行改写，改写后的指令用于微调模型显著超过了之前Vicuna使用ShareGPT微调LLAMA的效果，甚至在复杂指令上号称超过ChatGPT。

指令改写是使用大模型直接进行的，分成深度改写和广度改写两个类型，其中深度改写有5种不同的改写指令，广度改写有1种改写指令。Evol-Instruct对初始的指令集，也就是52K的Alpaca指令，总共进行了4轮改写，每轮改写会等权重随机选择一种深度、广度改写指令，经过过滤后总共得到了250K的改写指令用于模型微调。下图是一个指令改写的示例

下面我们具体看下改写指令是如何设计的

深度改写

深度改写把指令改写的更加复杂，包括加入限制条件，指令复杂化，指令具象化，增加推理步骤，输入复杂化等5种类型的指令。以下是加入限制条件的prompt指令，以下指令控制每次改写增加的字数，以及改写的程度，每次只增加部分难度，这样通过多轮的改写，就可以得到不同难度，多样性更高的指令集。

其他的四类prompt的差异主要在高亮部分，分别为

指令复杂化：If #Given Prompt# contains inquiries about certain issues, the depth and breadth of the inquiry can be increased
指令具象化：Please replace general concepts with more specific concepts.
增加推理步骤：If #Given Prompt# can be solved with just a few simple thinking processes, you can rewrite it to explicitly request multiple-step reasoning.
输入复杂化：You must add [XML data] format text as input data in [Rewritten Prompt]

广度改写

广度改写的目的就是为了扩充指令覆盖的范围，包括更多的话题，技能等等

改写基本是论文最大的亮点，除此之外的细节就不多细说啦。通过4轮改写，加上简单的样本过滤后得到的250K指令样本用于模型微调，效果上在收集的Evol-Instruct测试集，Vicuna的测试集，以及更高难度的测试集上WizardLM的效果都略超过vicuna还有alapca。但略有些奇怪的是vicuna似乎表现还略差于alpaca？Anyway, LLM时代评估指标的置信度都有限，方法学到手就好，模型表现莫要太当真…

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

😝有需要的小伙伴，可以点击下方链接免费领取或者V扫描下方二维码免费领取🆓

在这里插入图片描述

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。

如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

😝有需要的小伙伴，可以Vx扫描下方二维码免费领取==🆓