Instruction Mining:High-Quality Instruction Data Selection for Large Language Models

Instruction Mining:High-Quality Instruction Data Selection for Large Language Models

Introduction

本文提出了一种通过线性规则筛选高质量数据的方案(有种套娃的感觉),目前验证指令数据的质量的方法大多数采用GPT+Few Shot 或者 微调+验证的方案,作者认为这种方法太贵了,提出了一种通过indicator过滤数据的方法,不用微调模型就可以相对评估指令数据的方案。
作者融合一些开源的指令数据集构成data pool,然后对比了随机sample和使用indicator过滤的方式,最终发现它有42.5的概率战胜随机采样。

Method

符号定义:数据质量Q,D数据,M模型,M撇微调后的模型,L表示损失,D-eval表示测试数据。
作者首先做了一个假设:
在这里插入图片描述
上面的公式表明指令数据的质量Q与微调后模型在验证集的损失成正比。

由于微调+推理不是那么高效,所以作者定义了一个·indicaor :=I,把这个评估的过程想成一个房价预测的过程,每个indicator就是影响房价的因素,如城市、人口,而在本文中表示指令的长度、奖励模型的分数等等。
在这里插入图片描述

假设它可以近似等于微调后的模型在测试集上面的Loss,也就是可以满足下面的公式。
在这里插入图片描述
然后作者通过这种近似继续推倒
在这里插入图片描述
其中beta是线性回归的系数,L0与theta为常数,I(D)为数据在每个Indicator上面的数值,可以直接获得,那么Y就是估计的数据质量,而真实值用eval 上面的loss近似替代。

然后作者通过最小二乘法得到下面的权重:
在这里插入图片描述
这样就可以在真实数据上筛选样本,然后下面是与真实数据上随机采样与筛选的结果对比:
在这里插入图片描述

参考

https://arxiv.org/pdf/2307.06290.pdf

  • 3
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

HanZee

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值