论文阅读：Self-Evolved Diverse Data Sampling for Efficient Instruction Tuning 数据子集挑选方法

clvsit

于 2024-05-12 23:02:39 发布

阅读量1.1k

点赞数 7

分类专栏： LLM LLM 数据子集选择文章标签：论文阅读人工智能 LLM

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43378396/article/details/138770974

版权

论文链接：https://arxiv.org/abs/2202.06417
GitHub 仓库：https://github.com/OFA-Sys/DiverseEvol

提高大型语言模型（LLM）的指令遵循能力主要需要大量的指令调整数据集。然而，这些数据集的庞大数量带来了相当大的计算负担和标注成本。为了研究一种标注效率高的指令调整方法，使模型本身能够主动采样同样有效甚至更有效的子集，作者引入了一种自进化机制 DIVERSEEVOL。在这一过程中，模型会反复增强其训练子集，以完善自身性能，而无需人类或更高级 LLM 的干预。该数据采样技术的关键在于提高所选子集的多样性，因为模型会根据其当前的嵌入空间选择与任何现有数据点最不同的新数据点。三个数据集和基准的广泛实验证明了 DIVERSEEVOL 的有效性。与在全部数据上进行微调相比，在不到 8% 的原始数据集上训练的模型保持或提高了性能。作者还提供了经验证据来分析指令数据多样性的重要性，以及迭代方案相对于一次性采样的重要性。

方法：DIVERSEEVOL

迭代指令数据选择

目标是将指令数据挖掘正规化，使其成为一个迭代过程，按照一定的策略从庞大的源指令数据集中逐步提取指令。给定一个指令响应对集合，表示为 $\{(x_i, y_i)\}_{i \in N}$ ，其中每个 (xi, yi) 代表一个特定的指令响应对，定义 $\{1, \ldots, n\}$ 为初始源代码指令数据集的大小。

迭代过程围绕两个数据容器展开：截至迭代步骤 t 的训练数据池 $P_t$ 和未选择数据点容器 $Q_t$ 。在每次迭代 t 中，选择函数（即策略）A 决定将哪些数据点 $\{s_j\}_{j \in K}, \ K = \{1, \ldots , k\}$ ，被整合到下一步的训练数据池 $P_{t+1}$ 中。扩大后的模型库将作为下一次模型迭代 $M_{t+1}$

最低0.47元/天解锁文章

博客等级

码龄7年

103
原创

931
点赞

2259
收藏

544
粉丝

关注

私信

热门文章

分类专栏

最新评论

论文阅读：Speculative RAG: Enhancing Retrieval Augmented Generation through Drafting
征途黯然.: The explanation of 论文阅读SpeculativeRAGEnhancingRetrievalAugmentedGenerationthroughDrafting in this article is vivid. The insights are amazing. I have learned a lot, thanks for sharing your efforts!
论文阅读：DQ-LoRe：Dual Queries with Low Rank Approximation Re-ranking for In-Context Learning
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
论文阅读：Speculative RAG: Enhancing Retrieval Augmented Generation through Drafting
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
论文阅读：Be like a Goldfish, Don‘t Memorize! Mitigating Memorization in Generative LLMs
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
AI 情感聊天机器人之旅 —— 相关论文调研
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN月度精选】榜单，全部的排名请看 https://bbs.csdn.net/topics/619110625。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。