Direct Preference Knowledge Distillation for Large Language Models

本文是LLM系列文章,针对《Direct Preference Knowledge Distillation for Large Language Models》的翻译。

大型语言模型的直接首选项知识蒸馏

摘要

在大型语言模型 (LLM) 领域,知识蒸馏 (KD) 是将功能从教师模型迁移到学生模型的关键技术。然而,现有的 KD 方法在蒸馏 LLM 方面面临局限性和挑战,包括效率和传统 KL 散度测量能力不足。结果表明,LLM 可以作为隐式奖励函数,我们将其定义为 KL 分歧的补充。在这项工作中,我们提出了 LLM 的直接偏好知识蒸馏 (DPKD)。我们将 LLM 的 KD 重新表述为两个阶段:首先优化和目标,包括隐性奖励和反向 KL 发散,然后提高教师产出对学生产出的偏好概率。我们对 LLM 参数范围从 120M 到 13B 的各种数据集进行了实验和分析,并证明了我们的 DPKD 方法的广泛适用性和有效性。同时,我们通过实验和理论分析证明了 KD 中引入的隐性奖励和输出偏好的价值和有效性。DPKD 方法在输出响应精度和精确匹配百分比方面都优于基线方法。代码和数据可在 https://aka.ms/dpkd上获得。

1 引言

2 方法

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值