[论文笔记] [2014] Deeply-Supervised Nets

最新推荐文章于 2024-07-09 15:34:24 发布

Alexzhuan

最新推荐文章于 2024-07-09 15:34:24 发布

阅读量748

点赞数 1

分类专栏： DL 文章标签：深度学习神经网络机器学习

本文链接：https://blog.csdn.net/qq_37524214/article/details/107115502

版权

本文详细介绍了深度学习领域的Deeply-Supervised Nets，探讨了其动机和模型设计。通过在每个隐藏层引入companion objective，即附加分类器，以评估和优化每一层的特征提取。论文提出的目标函数结合了最后一层和各隐藏层分类器的损失，缓解了梯度消失问题，并在实验中展示了模型的泛化能力和收敛速度。

摘要由CSDN通过智能技术生成

这篇论文是比较早的工作了，但论文中提到 Deep Supervision 的概念在后面的工作中常会被提到。这篇论文的亮点就在于对每一隐层都引入 companion objective。简单说来就是每一个隐层都会后接一个分类器，去检验（监督）每一个隐层抽取出的特征的效果，这也是为什么标题叫 deeply-supervised。

如果先不看论文后面的部分，只看这么一个 idea，就会有一些疑问：

每个隐层都接一个分类器，整个模型怎么训练？目标函数怎么定义？反向传播怎么做？
对每个隐层的分类器做优化，不会影响模型最后分类器的效果吗？

这几个问题也是作者论文主体部分要去阐述和讨论的。

Deeply-Supervised Nets

作者一开始总结了当时 DL 存在的一些问题，当然这些问题目前依旧还是存在的，比如中间层在训练时的不透明、训练时出现梯度爆炸/消失的问题、缺乏数学理论的理解、模型训练依赖于大量的数据、需要人工调参等。而作者的工作一定程度的缓解或解决了上述的一些问题。

Motivation

对于这么一个新奇的结构，作者的动机是什么？通常，我们在做数据挖掘时，有一个很关键的步骤就是特征工程，因为特征决定了模型效果的上限。使用 highly discriminative 的特征去训练一个模型，其效果会优于使用了 less discriminative 的特征。基于这个观察（特征好，模型就好），在DL模型中，我们自然希望模型的隐层能提取出好的特征。

于是就有一个问题，如何促使隐层提取出好的特征，又如何去评估隐层提取出的特征的好坏。一个很简单的思路，“是驴是马，拉出来溜溜不就知道了嘛”，给每个隐层抽取的特征后面接一个分类器看看效果，不就知道提取出来的特征是好是坏了嘛。基于这么一个想法，作者就提出了给每一个隐层后面接上一个分类器，通过这个分类器的效果来评估隐层提取出的特征的质量，利用这个反馈来优化隐层，进而使得整体模型的效果得到提升。

Formulation

这个想法不要太香。那么就看看前面提到的一个疑问，模型的目标函数怎么定义，怎么做反向传播训练。首先是常规的每一层卷积操作的定义：
$Z^{(m)} = f(Q^{(m)}), \quad and \quad Z^{(0)} = X, \\ \ \\ Q^{(m)} = W^{(m)} * Z^{(m-1)}$
其中 $M$ 表示模型总的层数： $W^{(m)},m=1...M$ 为每一层需要学习的参数权重； $Z^{(m - 1)}$ 为 $m - 1$ 层产生的 feature map； $Q^{(m)}$