#论文 《Towards Binary-Valued Gates for Robust LSTM Training》

前两周就看到这篇论文的微信号文章介绍了,今天有空拿出来看一下,梳理一下思想。

这个论文主要解决的是在LSTM中,发现记忆门和遗忘门的值的分布不够显著,和LSTM设计思想中想让门表示记忆或者遗忘的意思不太一致,所以论文作者提出了用一种方法(Gumbel- Softmax estimator)来对门中的阈值进行改进,从而让阈值更加显著的趋向0或者1,近似二值化。这样做有几个好处:

  1. 和设计遗忘门和记忆门的初衷更加符合,让记忆的就记住,遗忘的就忘掉。让这些门开就是开,关就是关,而不是所有门都模模糊糊的在中间值附近游荡。

  2. 0-1化的模型参数,更容易压缩。

  3. 泛化能力更强。

作者验证了门的输出对于输入值不敏感,可以通过low-rank approximation and low-precision approximation对数据进行压缩,压缩后得到的模型的性能没有下降,反而更加鲁棒和更有泛化性。

下面是直观的表示,是否二值化前后的门中的值的数据分布对比,可以看出,确实更加显著的向两端分化了。

 

 

最主要要学习的思想,还是验证假设的思想。在LSTM中,对遗忘门和记忆门的假设,去真正看下门内的值的分布,从而去探究模型内部是否有问题,然后才想办法去纠正这个问题,查看是否会有提升。

 

 

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值