DSD（Dense-Sparse-Dense Training）算法详解

最新推荐文章于 2024-09-02 19:54:30 发布

AI之路

最新推荐文章于 2024-09-02 19:54:30 发布

阅读量8k

点赞数 5

分类专栏：深度学习文章标签：压缩深度学习

本文链接：https://blog.csdn.net/u014380165/article/details/77816155

版权

DSD（Dense-Sparse-Dense）训练是一种改进深度学习模型准确性的方法，由Song Han提出。它通过三个步骤：密集训练、稀疏训练和重新密集训练，提高模型性能。DSD不同于dropout，它依据权重重要性有选择地剪枝。实验表明，DSD在ImageNet上提高了GoogLeNet、VGG-16、ResNet-18和ResNet-50的Top1准确率。DSD训练过程中，权重分布的变化有助于模型优化，避免局部最优并提高整体表现。

摘要由CSDN通过智能技术生成

论文：DSD： Dense-Sparse-Dense Training for Deep Neural Networks
论文链接：https://arxiv.org/pdf/1607.04381.pdf
模型下载地址：https://songhan.github.io/DSD.

这是Song Han发在ICLR2017上的文章，我们知道Song Han的研究领域主要是模型压缩，模型加速等，但是这篇DSD（Dense-Sparse-Dense）却是关注如何通过改进训练过程提高传统模型的准确率。个人觉得这是一篇挺有意思的文章，值得一看。

DSD是一种新的训练模型的方式，可以提高预训练模型的准确率。DSD和dropout不一样，虽然都是在训练过程中有prune（剪枝）操作，但是DSD是有一定依据来选择去掉哪些connection，而dropout是随机去掉。另外DSD也不是模型压缩算法，DSD算法训练模型目的是提高准确率，而不是模型压缩。

那么DSD的效果怎么样呢？On ImageNet, DSD improved the Top1 accuracy of GoogLeNet by 1.1%, VGG-16 by 4.3%, ResNet-18 by 1.2% and ResNet-50 by 1.1%, respectively.

DSD算法的训练过程主要分3步，大致过程可以看这段话：In the first D (Den