深度网络能够学习到不变性么？

最新推荐文章于 2023-04-18 11:12:12 发布

凌空的桨

最新推荐文章于 2023-04-18 11:12:12 发布

阅读量1.2k

点赞数

分类专栏：神经网络文章标签：深度网络能够学习不变性

神经网络专栏收录该内容

3 篇文章 0 订阅

订阅专栏

这里是翻译Alexey Potapov的一篇博客，不变性其实就是图像的旋转不变性，通过旋转得到各个角度的图像，看看深度网络是否可以在不同的角度下都能识别出物体。

人工智能（通用）Artifcial General Intelligence(AGI)具有识别的功能，尤其是在识别物体上，在少量样本的前提下尽可能识别新的类别。

也就是说，它具有泛化性，怎么实现的呢？

假设我们有一个模式x,这个模式可以经过一些变换T变成其他形式，变换以后的模式我们暂且记作T（x | w），在整个变换的过程中所有的变换参数w可以由原模式确定（学习得到）。当然这个变换我们还不知道。也就是说，我们研究的内容要么学习变换本身，要么学习具有不变性的识别模型。

深度学习网络在计算机视觉方面的表现非常成功。但是它们能够学习到训练集不变性和泛化性么？还是它们只是可以做插值（interpolate）和记忆？我们的团队一直在研究这方面的可能性。

识别问题

常见的变换，识别模型应该是不变的，是空间变换。变换的不变性通常通过使用卷积神经网络（CNN）进行硬编码。旋转不变的CNN有时也被使用，但不太流行。实现不变识别的常用技术是用原始图像的空间变换版本来扩展训练集。

但这是否有助于识别新姿势中的物体？

理想情况下，机器学习系统应该能够超出训练集中参数值范围外推。例如，如果我们对在[-45°，45°]范围内旋转的所有MNIST数字进行识别模型训练，它应该能够识别旋转了例如90°的这些数字。

我们从一个更简单的任务开始。我们扩展了在整个角度范围内旋转除了'3'和'4'以外的所有数字的MNIST训练集（去除了'6'和'9'数字），而数字'3'和'4'[-45°，45°]。 DNN模型在没有明确引入旋转不变性能的情况下识别数字'3'和'4'旋转超出范围[-45°，45°]范围内的角度是否可行。

注意：目前有能够学习空间变换的模型（例如空间变换器），特别是使识别模型不变。虽然这样的解决方案可能比硬编码的不变

性更具实用性和更一般性，但它仍然认为转换类及其适当的参数化是已知的。我们对DNN的功能感兴趣，以实现对先验未知变换的不变性。

一个更相关的工作的例子是“流形结构的非局部估计”，它精确地考虑了超出训练集范围的外推任务，并将这种外推（例如旋转流形结构）转移到新的图像类。不幸的是，作者只研究“轻微旋转”，这种应用对于新颖的图像已经产生了不完美的结果。因此，我们考虑通用DNN模型。

我们采用了基本的CNN网络进行第一次实验。我们的基线网络包含两个卷积层和两个softmax作为输出层的密集层

我们考虑了以下准确性测试：

整个测试装置的精度与旋转角度在训练期间使用的范围相同：Ptest = 0.989。

数字3和4（来自测试装置的图像）的旋转角度为[45°，315°]的准确度：Pout = 0.212。

数字3和4（来自测试装置的图像）的旋转角度为[135°，225°]的准确度：Pinv = 0.003。

可以看出，该模型在训练集的区域之外很难概括，并且即使在训练集外的角度范围内，其准确性几乎降至零（远低于随

机猜测），即使它在所有旋转角度为其他数字。

众所周知，批量归一化（BN）等技术可以提高神经网络的泛化能力。我们尝试了 BNB和Dropout以及他们的组合。最好的模型达到Ptest = 0.993，Pout =0.257，Pinv = 0.041。它通常表现出更高的准确性，但对于不变性测试，它仍然远低于随机猜测。

人们可以假设网络不够深，而更深的特征可能能够更好地推断流形结构。然而，在我们的实验中，在具有两个卷积层的最佳模型中添加更多层会略微提高Ptest，Pout，但也会略微降低Pinv。

因此，传统的CNN无法在没有附加手段的情况下推广旋转概念（不仅仅是为了推断未曾见过的旋转角度，而是为了将所遇到的角度的识别能力从一个类别转移到另一个类别）。

CapsNets

胶囊网络（CapsNets）专门用于捕捉部分 - 整体关系，同时考虑到对象及其部件的姿势。我们在这里考虑胶囊网络，因为它

们没有明确地用空间位置和变换进行操作，而是利用神经元层之间的推理时路由的一般机制，这依赖于胶囊的向量输出。

首先，我们考虑了动态路由的CapsNet。基于论文“胶囊间的动态路由”的原始实现从这里被采取。

对于CapsNet的这种实现，我们实现了Ptest = 0.991，Pout= 0.249，Pinv = 0.009，这并不比具有BN的CNN更好（并

且不变性更差）。

这个CapsNet模型包含一个用于正则化的解码器，也可以用来查看模式的最高级别表示中包含的信息。训练好的解码器输出示

例如下（输入图像位于上半部分，解码图像位于下半部分）。

对于遇到的早期方向的图像的重建结果是合理的。但是，如果我们观察以下新颖方向的数字3和4的重建结果，则它们是完全不

正确的并且与其他数字相似（因为它们被识别为这样）。

从获得的结果我们可以得出结论：用动态和EM路由的CapsNet的测试实现不能可靠地推广旋转图像。测试是用一系列超参数完成的，可能的调整可能会改变结果，但不会在很大程度上。值得注意的是，使用EM-routing的CapsNet在类别3和类别4的测试图像上旋转了一个与范围（180-45,180 + 45）的角度旋转的其他被认为的模型（0.089），表现出最好的精度。但是在所有的CapsNet架构中都表现出较差的旋转泛化能力以及基线模型。