[论文阅读]Compression of Neural Machine Translation Models via Pruning

最新推荐文章于 2024-01-07 12:59:31 发布

XMU_MIAO

最新推荐文章于 2024-01-07 12:59:31 发布

阅读量342

点赞数

分类专栏：论文阅读文章标签：自然语言处理深度学习神经网络剪枝

本文链接：https://blog.csdn.net/ZY_miao/article/details/109652272

版权

本文探讨了神经机器翻译（NMT）模型的过参数化问题，研究了Class-Blind、Class-Uniform和Class-Distribution三种剪枝策略。实验表明，即使在剪枝80%的情况下，经过重新训练，NMT模型的性能可以恢复甚至超过原始模型。权重剪枝揭示了NMT架构中的参数冗余，高层权重如注意力和softmax权重尤为重要。

摘要由CSDN通过智能技术生成

前言

论文名：Compression of Neural Machine Translation Models via Pruning
论文作者：Abigail See et.al.
期刊/会议名：CoNLL 2016
本文作者：XMU_MIAO
日期：2020/11/13

摘要

与其他深度学习领域一样，神经机器翻译（NMT）同样存在过参数化问题（over-parameterization），从而造成其存储空间过大。本文研究了三种简单的针对NMT模型基于大小的剪枝方案，即：Class-Blind,Class-Uniform,Class-Distribution三者在如何计算NMT架构中不同类别权重的剪枝阈值方面存在差异。我们证明了权重剪枝作为一种压缩技术针对最先进的NMT系统的效力。我们表明了在WMT’14English-German翻译任务上，拥有超过2亿个参数的NMT模型可以被剪枝40%而不造成性能损失。这有助于揭示NMT架构中的冗余分布。我们的主要结果是：通过再训练，可以恢复甚至超过被剪枝80%的模型。

一、Introduction

NMT模型虽然相比于基于词汇的翻译方法内存占用显著降低了，但模型规模对于移动设备来说仍然过大。虽然更深更大的模型能够带来更大的进步，它也引入了过度参数化，导致运行时间长、过拟合和上面讨论的存储大小问题。 对过度参数化问题的解决方案可能会帮助所有这三个问题，但是第一个问题(长运行时间)超出了本文的讨论范围。

二、Contribution

研究了权重剪枝对于NMT模型的有效性，包括三种基于大小的权重剪枝方案：class-blind、class-uniform、class-distribution
经过试验发现高层权重（attention、softmax等）非常重要，而低层权重（输入嵌入等）存在一些参数冗余现象。

三、Approach

3.1模型架构

在这里插入图片描述
在本文工作中，我们具体考虑以LSTM作为隐藏层单元的深度多层循环架构，图1展示了一个该架构的例子

3.2 NMT中的权重

在这里插入图片描述

图2展示了一个3.1中提到模型的具体细节。具体细节在图中进行了说明。

3.3 剪枝方案

我们遵循一般的基于大小的剪枝方法，该方法剪枝绝对值（ $L_1$ 范数）最小的一些权重。实验中采取了三种剪枝策略。假设整个模型的预期剪枝率为 $x\%$ ，那我们如何在模型的不同权重类别上（如图2）分配剪枝比例呢？我们建议研究以下三种剪枝方案：

$\textbf{Class-Blind}$ ：将所有参数无论权重级别都按照大小（ $L_1范数$ ）进行排序，并修剪最小的 $x\%$ 参数（所

最低0.47元/天解锁文章

XMU_MIAO

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
[论文阅读]Compression of Neural Machine Translation Models via Pruning

文章目录前言摘要一、Introduction二、Contribution三、Approach3.1模型架构3.2 NMT中的权重3.3 剪枝方案3.4四、Experiments总结前言论文名：Compression of Neural Machine Translation Models via Pruning论文作者：Abigail See et.al.期刊/会议名：CoNLL 2016本文作者：XMU_MIAO日期：2020/11/12摘要与其他深度学习领域一样，神经机器翻译（NM
复制链接

扫一扫

专栏目录