【AAAI2025】多层次最优传输用于语言模型中的通用跨标记器知识蒸馏

84d48244278540f8509cd0029bbb1604.png

来源:专知
本文约1000字,建议阅读5分钟
本文提出了多层次最优传输(MultiLevelOT),这是一种新的方法,推进了通用跨标记器知识蒸馏的最优传输技术。

1c54d26dc1884a926e68b63109a585a2.png

知识蒸馏(KD)已成为压缩大规模语言模型(LLM)的一种流行技术。现有的KD方法受限于教师模型和学生模型之间必须使用相同的标记器(即词汇表),这限制了其在处理不同架构家族的LLM时的通用性。本文提出了多层次最优传输(MultiLevelOT),这是一种新的方法,推进了通用跨标记器知识蒸馏的最优传输技术。我们的方法通过使用多种成本矩阵,在标记级和序列级对教师和学生的logit分布进行对齐,从而消除了维度或逐标记符对应的需求。

在标记级,MultiLevelOT通过联合优化序列中的所有标记,整合了全局和局部信息,从而增强了鲁棒性。在序列级,我们通过Sinkhorn距离高效捕捉logits的复杂分布结构,该距离近似于Wasserstein距离,用于度量分布的散度。通过在抽取式问答、生成式问答和摘要等任务上的大量实验证明,MultiLevelOT在各种设置下优于现有的跨标记器KD方法。我们的 approach 对不同的学生和教师模型在不同的模型家族、架构和参数规模下表现出较强的鲁棒性。

e99f5404654b9ffbcf9e8d865e514be1.png

关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。

9e35250961daf88648c3918a9b9cc2a3.png

新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值