论文阅读笔记--Learning Light-Weight Translation Models from Deep Transformer

最新推荐文章于 2024-06-13 09:53:52 发布

QingerBig

最新推荐文章于 2024-06-13 09:53:52 发布

阅读量373

点赞数

分类专栏： NMT论文笔记文章标签：深度学习机器翻译人工智能神经网络机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/QingerBig/article/details/113104546

版权

NMT论文笔记专栏收录该内容

8 篇文章 0 订阅

订阅专栏

本文探究了一种知识蒸馏和一种skipping sub-layer方法去实现将深层模型所学的知识转移到一个浅层网络当中。
Compression of Deep Transformer
本文的核心思想：将一个大型网络所学习到的知识转移到一个小的轻型网络当中。具体来说，本文使用的方式是知识蒸馏，即使小的模型学习大的模型的输出分布，作者所基于的知识蒸馏并不是传统的知识蒸馏的形式，而是equence-level knowledge distillation (SKD)。同时作者具体的训练策略为：

1、在训练teacher模型时，使用组置换策略。具体来说即在训练encoder时，将encoder的层分为多个组，这要求teacher模型层数正好是student模型层数的整数倍，这样就对应了student中的第i层对应teacher的第j组。该方法的核心是使用选定的单层模拟其组输出的行为。这样就避免了使用额外项的引入。
2、生成SKD训练数据。在训练teacher模型时会同时生成SKD训练集，具体过程如下：给定数据对{x,y}，teacher模型将x翻译为z从而生成SKD数据{x,z}
3、训练student模型

Skipping Sub-Layers for Deep Transformer
深层的大型网络极易出现过拟合现象，为了解决这个问题，Skipping Sub-Layers被作为一种正则化手段引入到深层网络的训练过程当中，该手段可被视为一种垂直的dropout策略。

但作者发现，直接使用该策略并不会促进性能的提升，反而会损害模型的性能，故作者提出了两阶段的训练：第一阶段先训练原始模型至收敛，在启动第二阶段，即加入skipping策略后继续训练。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。