论文:Multi-Scale Dense Convolutional Networks for Efficient Prediction
论文链接:https://arxiv.org/abs/1703.09844
代码地址:https://github.com/gaohuang/MSDNet
DenseNet的一作康奈尔大学黄高的作品,先来聊聊文章的出发点。对于分类网络的测试而言,有些输入图像是网络容易分类的,有些输入图像是网络难分类的。以softmax输出为例,假设一个2分类的例子,如果一张图像属于两个类的概率分别是0.01和0.99,和一张图像属于两个类的概率分别是0.51和0.49,显然相比之下前者更容易分类。那么从这个点出发,能不能对于简单图像仅采用浅层的速度较快的网络来分类,而对于难分类图像再采用深层的速度慢一点的网络来分类。当然可以,直观的做法可能是一张图像先过简单网络,如果输出概率能有较大把握判断该图像的类别,那么就直接输出这个类别。如果输出概率没有较大把握判断该图像的类别(比如概率小于某个阈值),那么就把这张图像再过一下深层网络。但是这样做有两个问题:1、对于简单图像而言却是可以节省时间,但是对于难分类的图像显然也增加了时间(可能要过好几个网络,最后的结果也不一定正确)。2、如果一张图像是难分类的图像,那么就要过好几次网络才能得到结果,而在过后面几个网络的时候,前面网络所提取的特征都没利用到。因此作者就提出了Multi-Scale Densenet网络来解决这些问题,主要思想就是在一个网络中有多个分类出口,对于简单图像可以直接从前面某个分类出口得到结果,而难分类的网络可能要到网络后面的某一层才能得到可靠的结果,而且这些分类出口并不是简单在一个网络的一些层直接引出,毕竟浅层特征直接用来分类的效果是非常差的,因此采用的是multi-scale的特征。
因此Multi-Scale Densenet(MSDNet)主要由两个核心结构组成:multi-scale feature maps and dense connectivity。这两个核心结构的作用如下:The multi-scale feature maps produce high-level feature representations that are amenable to classi