[论文阅读]Compression of Neural Machine Translation Models via Pruning

本文探讨了神经机器翻译(NMT)模型的过参数化问题,研究了Class-Blind、Class-Uniform和Class-Distribution三种剪枝策略。实验表明,即使在剪枝80%的情况下,经过重新训练,NMT模型的性能可以恢复甚至超过原始模型。权重剪枝揭示了NMT架构中的参数冗余,高层权重如注意力和softmax权重尤为重要。
摘要由CSDN通过智能技术生成

前言

论文名:Compression of Neural Machine Translation Models via Pruning
论文作者:Abigail See et.al.
期刊/会议名:CoNLL 2016
本文作者:XMU_MIAO
日期:2020/11/13

摘要

  与其他深度学习领域一样,神经机器翻译(NMT)同样存在过参数化问题(over-parameterization),从而造成其存储空间过大。本文研究了三种简单的针对NMT模型基于大小的剪枝方案,即:Class-Blind,Class-Uniform,Class-Distribution三者在如何计算NMT架构中不同类别权重的剪枝阈值方面存在差异。 我们证明了权重剪枝作为一种压缩技术针对最先进的NMT系统的效力。我们表明了在WMT’14English-German翻译任务上,拥有超过2亿个参数的NMT模型可以被剪枝40%而不造成性能损失。这有助于揭示NMT架构中的冗余分布。我们的主要结果是:通过再训练,可以恢复甚至超过被剪枝80%的模型。

一、Introduction

  NMT模型虽然相比于基于词汇的翻译方法内存占用显著降低了,但模型规模对于移动设备来说仍然过大。虽然更深更大的模型能够带来更大的进步,它也引入了过度参数化,导致运行时间长、过拟合和上面讨论的存储大小问题。 对过度参数化问题的解决方案可能会帮助所有这三个问题,但是第一个问题(长运行时间)超出了本文的讨论范围。

二、Contribution

  • 研究了权重剪枝对于NMT模型的有效性,包括三种基于大小的权重剪枝方案:class-blind、class-uniform、class-distribution
  • 经过试验发现高层权重(attention、softmax等)非常重要,而低层权重(输入嵌入等)存在一些参数冗余现象。

三、Approach

3.1模型架构

在这里插入图片描述
在本文工作中,我们具体考虑以LSTM作为隐藏层单元的深度多层循环架构,图1展示了一个该架构的例子

3.2 NMT中的权重

在这里插入图片描述

图2展示了一个3.1中提到模型的具体细节。具体细节在图中进行了说明。

3.3 剪枝方案

  我们遵循一般的基于大小的剪枝方法,该方法剪枝绝对值( L 1 L_1 L1范数)最小的一些权重。实验中采取了三种剪枝策略。假设整个模型的预期剪枝率为 x % x\% x%,那我们如何在模型的不同权重类别上(如图2)分配剪枝比例呢?我们建议研究以下三种剪枝方案:

  • Class-Blind \textbf{Class-Blind} Class-Blind:将所有参数无论权重级别都按照大小( L 1 范 数 L_1范数 L1)进行排序,并修剪最小的 x % x\% x%参数(所
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值