Instruction Mining:High-Quality Instruction Data Selection for Large Language Models

HanZee

已于 2023-07-15 23:31:06 修改

阅读量707

点赞数 3

文章标签：语言模型人工智能自然语言处理

于 2023-07-14 22:16:19 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_18555105/article/details/131731790

版权

Instruction Mining:High-Quality Instruction Data Selection for Large Language Models

Introduction
- Method
参考

Introduction

本文提出了一种通过线性规则筛选高质量数据的方案（有种套娃的感觉），目前验证指令数据的质量的方法大多数采用GPT+Few Shot 或者微调+验证的方案，作者认为这种方法太贵了，提出了一种通过indicator过滤数据的方法，不用微调模型就可以相对评估指令数据的方案。
作者融合一些开源的指令数据集构成data pool，然后对比了随机sample和使用indicator过滤的方式，最终发现它有42.5的概率战胜随机采样。

Method

符号定义：数据质量Q，D数据，M模型，M撇微调后的模型，L表示损失，D-eval表示测试数据。
作者首先做了一个假设：
在这里插入图片描述
上面的公式表明指令数据的质量Q与微调后模型在验证集的损失成正比。

由于微调+推理不是那么高效，所以作者定义了一个·indicaor :=I，把这个评估的过程想成一个房价预测的过程，每个indicator就是影响房价的因素，如城市、人口，而在本文中表示指令的长度、奖励模型的分数等等。
在这里插入图片描述

假设它可以近似等于微调后的模型在测试集上面的Loss，也就是可以满足下面的公式。
在这里插入图片描述
然后作者通过这种近似继续推倒

其中beta是线性回归的系数，L0与theta为常数，I(D)为数据在每个Indicator上面的数值，可以直接获得，那么Y就是估计的数据质量，而真实值用eval 上面的loss近似替代。

然后作者通过最小二乘法得到下面的权重：
在这里插入图片描述
这样就可以在真实数据上筛选样本，然后下面是与真实数据上随机采样与筛选的结果对比：

参考

https://arxiv.org/pdf/2307.06290.pdf

关注

3
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
Instruction Mining:High-Quality Instruction Data Selection for Large Language Models

本文提出了一种通过线性规则筛选高质量数据的方案（有种套娃的感觉），目前验证指令数据的质量的方法大多数采用GPT+Few Shot 或者微调+验证的方案，作者认为这种方法太贵了，提出了一种通过indicator过滤数据的方法，不用微调模型就可以相对评估指令数据的方案。由于微调+推理不是那么高效，所以作者定义了一个·indicaor :=I，把这个评估的过程想成一个房价预测的过程，每个indicator就是影响房价的因素，如城市、人口，而在本文中表示指令的长度、奖励模型的分数等等。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

HanZee 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。