Sequence-Level Knowledge Distillation

该博客探讨了序列级别的知识提炼在模型压缩中的应用,通过训练简单网络以逼近复杂网络的效果。主要内容包括词级别和序列级别的知识传递方法,如交叉熵和负对数似然的插值最小化,并介绍了如何利用k-Beam Search优化目标函数。
摘要由CSDN通过智能技术生成

Sequence-Level Knowledge Distillation

序列级别的知识提炼


一、大纲

这篇论文主要讲的是模型压缩,也就是训练一个简单的网络来代替已有的复杂的网络,训练的目标两个网络的交叉熵最小(两个网络的效果相近)和简单网络的负对数似然最小(网络的效果好)。

 

二、Word-Level

 

描述:Teacher Network和Student Network分别训练处

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值