DL-Paper精读：Training SDNNs with IHT

最新推荐文章于 2021-05-21 06:01:31 发布

星月野

最新推荐文章于 2021-05-21 06:01:31 发布

阅读量147

点赞数

分类专栏： paper阅读

本文链接：https://blog.csdn.net/li6016265/article/details/111188686

版权

paper阅读专栏收录该内容

21 篇文章 3 订阅

订阅专栏

本文提出使用迭代硬阈值(IHT)方法训练Skinny Deep Neural Networks (SDNNs)，旨在解决DNN的过拟合和端侧部署难题。通过IHT算法，模型能在保持精度的同时降低参数量。研究发现，相比随机阈值，IHT能更好地保留重要参数，避免模型发散。在CIFAR-10上的实验显示，即使80%的参数被稀疏化，模型性能仍超越基线。然而，论文在理论证明和实验解释方面存在不足。

摘要由CSDN通过智能技术生成

Training Skinny Deep Neural Networks with Iterative Hard Thresholding Methods

https://openaccess.thecvf.com/content_ECCV_2018/papers/Zehao_Huang_Data-Driven_Sparse_Structure_ECCV_2018_paper.pdf

background

DNN在各个领域应用取得巨大成功的同时，也因其巨大的参数量而带来了两个严重的问题：1、过拟合严重； 2、端侧部署困难。

related work and the limit

现有的Dropout等解决了过拟合问题，却不能降低参数量；各种pruning方法可以提升速率却是以精度下降为代价

novel points

提出了一种迭代硬阈值法（IHT, iterative hard thresholding）来训练稀疏网络（SDNNs, Skinny Deep Neural Networks）

IHT的思想来自于GHT（参考文献30），使用迭代的硬阈值操作（保留top k的部分权重而将其他参数直接置为0），在mild conditions下，GHT算法能够保证模型很大概率上收缩于全局最优的领域内。It is proved that under mild conditions, the GHT algorithm converges geometrically to the point with bounded deviation from global optimum, with a high probability

此外，本文相对于GHT的改进还包括，将GHT算法推广到了DNN中；实现多步更新，多个迭代后再使用一次 hard thresholding 操作；训练中去掉了稀疏约束等

methodology

整体算法分为两阶段：

Phase 1: Hard thresholding over connections and sub-network fine-tuning。硬阈值操作加子网络fine-tune。硬阈值方法：保留前k个权值较大的weight而把其他的权重置为0，各层的稀疏比例设置都一致。

Phase 2: Connection restoration and training the entire network. 将之前置为0的参数也加入正常训练中。该部分有针对hard thresholding 和 random thresholding的讨论，文中发现随机阈值操作导致模型发散，因为部分重要的参数困难被删除了。

evaluation(benchmark, experiments design)

weights-wise的稀疏，总是有很惊人的结果。cifar-10上，80%的参数被稀疏都能得到超过baseline的结果。

Thoughts:

1、 is this problem very meaningful? is the idea interesting and inspired?

在非结构性裁剪的工作中，结构效果是较为突出的。但目前看普及度和受重视程度并不高/(ㄒoㄒ)/~~

2、 does the paper clearly explained the considerations and implement?

figure 2中的change ratio实验，没有给出详细的说明。第三部分最后给出了恢复被置零的连接，有利于学习到表征能力更强的特征，SDNN有在大参数空间中搜索更好的局部最优的能力，但未给出数学分析，实验验证的说明也不够清晰。

3、 what’s the tradeoff?

…

4、 other consideration.

文中将GHT扩展到DNN上，并且放松了稀疏约束，但并没有给出数学上最优化及收敛性等问题的证明，虽然实验结果依然优秀。

星月野

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
DL-Paper精读：Training SDNNs with IHT

Training Skinny Deep Neural Networks with Iterative Hard Thresholding Methodshttps://openaccess.thecvf.com/content_ECCV_2018/papers/Zehao_Huang_Data-Driven_Sparse_Structure_ECCV_2018_paper.pdfbackgroundDNN在各个领域应用取得巨大成功的同时，也因其巨大的参数量而带来了两个严重的问题：1、过拟.
复制链接

扫一扫

专栏目录