初读Geoffrey Hinton颠覆之作《Dynamic Routing Between Capsules》

最新推荐文章于 2021-07-17 21:51:43 发布

maltliquor

最新推荐文章于 2021-07-17 21:51:43 发布

阅读量4.9k

点赞数

分类专栏： cnn神经网络文章标签： geoffrey hinton cnn

本文链接：https://blog.csdn.net/maltliquor/article/details/78422557

版权

本文探讨了Hinton在2017年NIPS大会上提出的CapsNet（胶囊网络）如何挑战CNN。文章分析了CNN的不足，如Pooling和反向传播的问题，并介绍了CapsNet的动态路由机制和Capsule概念，指出其在保留精细特征和解决重叠图像识别上的优势。此外，文章还概述了CapsNet的工作原理和网络架构。

摘要由CSDN通过智能技术生成

最近在搜资料时忽然看到一条消息，Hinton老爷子在NIPS 2017大会上放了大招，宣布要革CNN和反向传播的命。武林盟主在武林大会上要推翻自己之前的武学门派，另起炉灶，如此精彩的大戏怎能不吃瓜围观，于是一边努力完成导师的任务，一边找了点时间学习老爷子的论文。

论文比较精简，言简意赅，干货满满。可能是因为第一篇相关的完善论文，并没有过多复杂的数学细节，还是比较容易读懂，下面开始展开自己对这篇论文的一些粗略的见解，有理解不当之处，欢迎批评指正。

另，本文部分思路来自SIY.Z老师的解析，深入浅出，写得非常好：https://zhuanlan.zhihu.com/p/29435406

一、”What is wrong with CNN ? “

早在2011年，老爷子就提出了Capsule的结构[1]，同时一起进入人们视线的还有卷积神经网络（Convolutional Neural Network,CNN），后来由于CNN在计算机视觉方面功能太过亮眼，capsule的提出一直蒙在尘埃之中，无人问津。

但是没有关系，大神之所以是大神，除了金字塔尖的技术能力，更重要的是，他有掌控全局的观念和对未来的直觉，当几乎所有人都沉浸在CNN的狂热中，发了一篇又一篇的paper时，老爷子依然坚持在capsule的进一步构建与完善中（当然他已经不需要发paper完成指标了——来自苦哈哈研究生的吐槽）。

直到2017年，在 NIPS 2017，他终于放出了这篇备受关注的论文，向世人展示他又一次的创举。

1、CNN的不合理之处

Pooling
Back-propagation
低等级识别
样本数量过大

1） Pooling

CNN在做pooling操作的主要目的是降低特征维度，既减少计算量又可以防止过拟合。
下面借用SIY.Z老师的图说明Pooling和Dynamic Routing的区别，出处：https://zhuanlan.zhihu.com/p/29435406

在这里我们可以直观的看到，Pooling是对一定区域内的特征取平均，然后映射到下一层对应的神经元上，在两个layer之间的对应关系是固定的，直白的。

但老爷子认为，两个layer之间的对应关系，不应该是如此死板的映射规则，同时Pooling过程中不可避免地损失了一些重要的精细特征，这样的话对最终的分类结果一定会产生消极的影响。于是老爷子设想，能不能让相邻两个网络之间采用动态路由协议，自己选择特征映射的对象。

举个栗子，较低级别的low-level layer中有大量的capsule，其中一个capsule i 可以映射到较高级别layer中的任意一个capsule j，在训练的过程中使用Dynamic routing不断迭代，最终可以确定capsule i 映射到哪一个capsule j 最多（在下文中表现为耦合系数c）。

2）Back-propagation

反向传播是Hinton老爷子当初为了解决网络优化而提出的训练方法，在近几年的神经网络中搭配简单的随机梯度下降（stochastic gradient descent，SGD）取得了极其优秀的结果。

然而老爷子对BP的质疑越来越深，首先在生物的神经系统，从来没有发现过能够完成反向传播功能的神经结构，也就是说，反向传播的诞生，完全是人类为解决神经网络学习问题创造出来的方法，目前没有生物学方面的支持。当然对于神经网络是否要完全仿生这个问题，目前还无法下定论，人类大脑作为人类已知的最高智能，通过模仿人脑系统来构建神经网络，自然是一个值得发展的设想。而且，老爷子对于capsule的设想正是来源于神经解剖学中发现的mini-column，朝仿生方面考虑下一代神经网络的结构，也就可以理解了。

ÿ