Rethinking Kullback-Leibler Divergence in Knowledge Distillation for Large Language Models

UnknownBody

于 2024-07-24 17:53:22 发布

阅读量2

点赞数

分类专栏： LLM Daily Distilling 文章标签：语言模型人工智能自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/c_cpp_csharp/article/details/140657714

版权

LLM Daily 同时被 2 个专栏收录

172 篇文章 2 订阅 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

22 篇文章 0 订阅

订阅专栏

本文是LLM系列文章，针对《Rethinking Kullback-Leibler Divergence in Knowledge Distillation for Large Language Models》的翻译。

对大型语言模型知识蒸馏中Kullback-Leibler散度的再思考

摘要
1 引言
2 相关工作
3 前言和反思
4 方法
5 实验
6 广泛分析
7 结论

摘要

Kullback-Leiber散度在知识蒸馏（KD）中被广泛用于压缩大型语言模型（LLMs）。与之前的断言相反，即反向Kullback-Leibler（RKL）散度是模式寻求的，因此优于均值寻求的正向Kullback-Leibler（FKL）散度，这项研究从经验和理论上证明，LLM的KD中既没有模式寻求也没有均值寻求性质。相反，RKL和FKL被发现具有相同的优化目标，并且都在足够多的迭代周期后收敛。然而，由于实际限制，LLM很少针对如此广泛的时间段进行训练。同时，我们进一步发现，RKL关注分布的尾部，而FKL关注分布开始时的头部。因此，我们提出了一种简单而有效的自适应Kullback-Leiber（AKL）散度方法，该方法自适应地分配权重以组合FKL和RKL。基于度量和GPT4的评估表明，所提出的AKL在各种任务中都优于基线，并提高了生成响应的多样性和质量。

1 引言

2 相关工作

3 前言和反思

4 方法

5 实验

6 广泛分析

7 结论

这项工作首先证明了FKL的均值寻道行为和RKL

了解本专栏

超级会员免费看

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
Rethinking Kullback-Leibler Divergence in Knowledge Distillation for Large Language Models

Kullback-Leiber散度在知识蒸馏（KD）中被广泛用于压缩大型语言模型（LLMs）。与之前的断言相反，即反向Kullback-Leibler（RKL）散度是模式寻求的，因此优于均值寻求的正向Kullback-Leibler（FKL）散度，这项研究从经验和理论上证明，LLM的KD中既没有模式寻求也没有均值寻求性质。相反，RKL和FKL被发现具有相同的优化目标，并且都在足够多的迭代周期后收敛。然而，由于实际限制，LLM很少针对如此广泛的时间段进行训练。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UnknownBody 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。