Resnet in Resnet:Resnet in Resnet: Generalizing Residual Architectures
摘要:
   \quad \; 残差网络(ResNets)在计算机视觉任务中达到了state of art。我们提出了Resnet in Resnet(RiR):一种深度dual-stream架构,它对ResNets和标准的CNN进行了推广,并且很容易实现(没有额外的计算开销)。RiR在ResNets的基础上进一步提高了性能(同样是在CIFAR-10数据集上,采用和ResNets一样的数据增强技术),并且在CIFAR-100上达到了新的state of art。
总结:
   \quad \; 提出了ResNet Init及ResNet in ResNet架构。文章不够深刻
1. 简介
   \quad \; ResNets在ILSVRC 2015分类任务上达到了 state of art,并且允许我们训练深达1000层的网络。与highway网络相似,residual网络使用了identity shortcut connections,这些连接使得信息流可以无衰减地穿过各层,从而提高优化效果(resulting in improved optimization)[1]。在残差网络中,shortcut连接直接连接了两层(没有任何变换)。虽然ResNets的实验中的性能提升较大,但当前的残差网络有很多潜在的缺陷:当前的ResNet使用identity连接 会导致 不同级别的特征在每一层积聚,即使在一个深度网络,前面的一些层学习到的一些特征可能在后面的层不再提供有用的信息。
   \quad \; ResNet架构的一个假设是:学习identity权重是困难的,同样的,it is difficult to learn the additive inverse of identity weights needed to remove information from the representation at any given layer。residual block模块固定尺寸的结构也迫使残差单元必须通过浅层的子网络来学习得到,尽管有证据表明,越深的网络计算量越大。我们引入了一个广义残差架构,这个架构以残差,非残差并行的方式结合了残差网络和标准的卷积网络(in parallel residual and non-residual streams)。我们表明使用广义残差块保留了identity shortcut连接的优化特性,同时提高了表达能力、降低了去除不需要的信息的难度。我们然后得到一个架构:ResNet in ResNet(RiR),它包含了这些广义残差块,并且在CIFAR-100上达到了state of art。
2. 广义残差网络架构(Generalizing Residual Network Architectures)
   \quad \; 广义残差网络架构的模块化单元是一个并行结构的广义残差块,并行包含了一个残差通道 r \text{r} r和一个瞬变通道 t \text{t} t。残差通道采用和ResNet类似的identity shortcut连接,瞬变通道采用标准的卷积层。另外,有两组fliter对两个通道进行交叉卷积( W l , r → t W_{l,\text{r}\rightarrow \text{t}} Wl,r→t和 W l , t → r W_{l,\text{t} \rightarrow \text{r}} Wl,t→r): r l + 1 = σ ( conv ( r l , W l , r → r ) + conv ( t l , W l , t → r ) + shortcut ( r l ) ) \text{r}_{l+1}=\sigma(\text{conv}(\text{r}_{l},W_{l,\text{r} \rightarrow \text{r}}) +\text{conv}(\text{t}_{l},W_{l,\text{t} \rightarrow \text{r}}) + \text{shortcut}(\text{r}_{l})) rl+1=σ(conv(rl,W