1. 引言
《stacked capsule autoencoders》使用无监督的方式达到了98.5%的MNIST分类准确率。
Stacked Capsule Autoencoders 发表在 NeurIPS-2019,作者团队阵容豪华。可以说是官方capsule的第3个版本。前两个版本的是:
- Dynamic Routing Between Capsules
- Matrix capsule with EM routing
当然还有最早的Transforming Auto-encoders ,发表在2011年ICANN,论文第一次引入“capsule”的概念。值得一提的是,这篇论文的作者是Hinton、Alex Krizhevsky等人,对,是AlexNet的Alex。原来Alex本人在2012年发表AlexNet之前在研究这种“奇怪”的东西。2011年的他可能没想到,第二年的他们,为了参与ImageNet大规模数据集图像识别挑战赛而设计的一款基于的传统CNN的AlexNet,引爆了接下来已经持续7年之久的“Deep Learning”潮流,现如今CVPR 2020投稿量都过10000了,是谁惹得“祸“的还不清楚吗?
2. 概念
从2017年开始, Hinton等人研究的Capsule Network得到了深度学习社区的大量关注。可以说Capsule Network在反思CNN的一些固有偏见,比如CNN的学习过分强调不变性(invariant )特征的学习,数据增强也服务于这一目的。而这样做,实际上,忽略了一个真实世界中的事实:
1)物体-部件 关系(Object-Part-relationship )是视角不变的(viewpoint invariant),
2)物体-观察者(Object-Viewer-relationship) 是视角同变性(viewpoint equivariant)的。
- equivariant:
- invariant: