《Sequence-Level Knowledge Distillation》
序列级别的知识提炼
一、大纲
这篇论文主要讲的是模型压缩,也就是训练一个简单的网络来代替已有的复杂的网络,训练的目标两个网络的交叉熵最小(两个网络的效果相近)和简单网络的负对数似然最小(网络的效果好)。
二、Word-Level
描述:Teacher Network和Student Network分别训练处
《Sequence-Level Knowledge Distillation》
序列级别的知识提炼
一、大纲
这篇论文主要讲的是模型压缩,也就是训练一个简单的网络来代替已有的复杂的网络,训练的目标两个网络的交叉熵最小(两个网络的效果相近)和简单网络的负对数似然最小(网络的效果好)。
二、Word-Level
描述:Teacher Network和Student Network分别训练处