Self-Alignment with Instruction Backtranslation

最新推荐文章于 2024-09-05 15:28:00 发布

HanZee

最新推荐文章于 2024-09-05 15:28:00 发布

阅读量262

点赞数

分类专栏：深度学习理论文章标签：自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_18555105/article/details/132326145

版权

本文介绍了一种自我对齐方法，用于从未经标记的数据中生成指令，并通过迭代自增益和自精选来提高数据质量。这种方法依赖于强大的LLM生成高质量的QA对，并在初始化时使用少量人为注释的数据进行微调。

摘要由CSDN通过智能技术生成

Self-Alignment with Instruction Backtranslation

Introduction
Method
实验
参考

Introduction

目前Alignment LLM 的数据主要的来源为用户手写与 powerful LLM 生成，但如果要生成高质量的一批数据，是十分昂贵的。这篇文章作者提出了Self-alignment方法，从 unlabeled数据中生成instruction，然后逐步迭代。

在这里插入图片描述

Method

这个方法有两个假设：

大量的人类手写的无监督文本中可能还有对于用户来说的gold generation。
通过这些候选的 gold generation 可以通过 powerful LLM生成对应的QA对，组成高质量的数据。

Initialization

Seed Data：收集一些human-annotated 数据，然后用模型finetune。
unlabeled data；使用web corpus 作为unlabeled data。对其去重、长度过滤，移除潜在的低质量数据，然后若干个document块作为response。

Self-Augmentation(generating instructions)

首先根据seed data，finetune baseline model:=M1,然后根据候选的unlabeld data生成instructionÿ

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
Self-Alignment with Instruction Backtranslation

首先根据seed data，finetune baseline model:=M1,然后根据候选的unlabeld data生成instruction，但是这些QA问答对并不是完全都是高质量的，所以下一步显得十分重要。为了不断提升模型性能，首先通过模型M0finetune seed data 得到M1，通过M1筛选数据D的到D1，然后将seed data + D1 继续微调M0得到M2，作者最终只迭代到了M2.对其去重、长度过滤，移除潜在的低质量数据，然后若干个document块作为response。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

HanZee 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。