论文阅读:Self-Evolved Diverse Data Sampling for Efficient Instruction Tuning 数据子集挑选方法
引入了 DIVERSEEVOL,这是一种用于高效调整 LLM 指令的自进化方法。DIVERSEEVOL 依靠迭代方案,利用 K-Center 策略从大量指令数据中选择不同的子集,从而逐步完善自身,而无需寻求任何外部监督。经验结果表明,该方法只用了不到原始数据大小的 8%,就能达到或超过强大的基准性能。未来的工作可以在更大的指令数据集上利用该方法,以获得可能更加精细的结果。在 DIVERSEEVOL 所奠定的基础上,更先进的多样化采样算法也有望进一步提高模型性能。限制。
原创
2024-05-12 23:02:39 ·
813 阅读 ·
0 评论