AN OPTIMIZATION VIEW ON DYNAMIC ROUTING BETWEEN CAPSULES 翻译

最新推荐文章于 2024-08-12 19:10:16 发布

一定要努力啊

最新推荐文章于 2024-08-12 19:10:16 发布

阅读量336

点赞数

文章标签：机器学习神经网络深度学习

本文链接：https://blog.csdn.net/qq_40327008/article/details/106503653

版权

说实话，这篇文章没有怎么看懂，不过知道这篇文章对2017年所提出的胶囊网络的路由协议进行了细致的讲解，同时该作者提出了一种改进的路由协议。具体的看论文。

摘要

尽管最近在（Sabour et al。，2017）中提出了动态路由程序的有效性，但我们仍然缺乏启发式方法及其含义的标准形式化方法。在本文中，我们部分地制定了Sabour等人提出的路由策略。（2017）是一个优化问题，该问题使类耦合损失和当前耦合分布与其最后状态之间的KL正则项的组合最小化。然后，我们介绍另一种简单的路由方法，该方法几乎没有有趣的特性。在无监督的感知分组任务中，我们通过实验证明了我们的路由算法优于Sabour等人提出的动态路由方法。（2017）。

1. 简介

胶囊是一组神经元（Hinton等人，2011; Sabour等人，2017; Hinton等人，2018），代表特定类型的对象或对象部分的实例化参数。胶囊的主要优点是，它们提供了一种简单的方法来识别整体，方法是以类似于我们人类感知系统的方式识别其各个部分。为了使这样的局部整体层次成为现实，使用了动态路由机制（Sabour et al。，2017）将较低级别的（第layer层）胶囊预测发送给较高级别的（第layer + 1层）胶囊）与输入内容一致的胶囊。
给定一组来自较低级别胶囊的预测向量{ˆµj | i = Tijµi}，其中µi表示较低级别胶囊i的输出，而Tij是将较低级别胶囊i与较高级别胶囊相关的转换矩阵胶囊j。我们用S = {s1，···，sk}表示高层胶囊的表示，其中sj与较低层胶囊预测ˆµj | i在同一特征空间中。令wj代表较高级别胶囊j的激活概率，并且为简单起见，我们假设每个较低级别胶囊的重量已吸收到µi中。令C = [cij] i，j胶囊i和胶囊j之间的耦合概率。 Sabour等。（2017）提出了以下迭代路由程序来决定如何将每个较低级别的胶囊预测分配给较高级别的胶囊，如算法1所示。

2. 动态路由的优化视图

我们观察到，算法1中提出的路由过程可以部分公式化为使用KL散度正则化来最小化聚类损失函数，定义如下：

其中表示内积，是最后一个的耦合概率。解决（1）的一种典型方法是使用坐标下降法，该坐标下降法可优化C和S。考虑当α= 1的情况，那么很容易证明算法1（第4行）中S：= {sj}的更新等效于C固定且S的坐标下降，而C：= { cij}（第3和第5行）是C在固定S的情况下的坐标下降。但是，此说明的警告是，它没有说明的更新规则。在后续文章中，我们提出了一种新的路由过程变体，它可以解决此问题，并且与原始路由算法相比有许多其他改进。

3. 我们的方法

我们的算法总结在算法2中。其动机是解决以下类似聚类的目标函数：

其中同时表示Tij的Frobenius范数。我们的目标类似于凝聚式模糊K均值算法1（Li et al。，2008）。推导C和S的坐标下降更新，我们在算法2中获得更新。

wj的更新与（1）相比，我们从目标（2）中删除了激活概率wj的依赖关系，而是将wj设置为路由过程的结尾。这样，我们将路由算法表述为更正式的优化问题。另外，仅在过程结束时设置wj可以防止w随着迭代次数的增加变得高度不平衡。

尺度不变我们做的另一种修改是在将变换矩阵Tij输入到过程中之前对其进行归一化，即，使用作为输入。注意，假设 || µi || ≤1，为了稳定整个训练过程，需要对变换矩阵Tij进行正则化，这样可以防止等式的LHS。（1）在我们训练期间学习Tij的值时变为无穷大。（1）中的目的并不是靠问题本身解决的，而是Sabour等人。（2017）通过使用有趣的保证金损失解决了这个问题。具体而言，如果胶囊j存在实体，则将应用的损失。否则，将损耗取为，其中m + = 0.9，m- = 0.1。这相当于力

在本文中，我们提出了一种更通用的进行正则化的方法。对于每个路由迭代，我们重新缩放权重矩阵Tij，并且之间的内部乘积的比例被限制为小于1的值。激活权重wj也不依赖于Tij的比例。

退火正则项请注意，Sabour等人。（2017年）使用具有固定系数α= 1的KL（C || Cold）正则化。我们建议用熵正则化代替KL散度，该熵正则化迫使cij接近于均匀，而不是先前的值。这使得路由的输出以更平滑的方式依赖于输入，从而稳定了算法。我们还在迭代过程中逐渐减小α的值。凭直觉，在早期阶段，较低级别的压缩程序的预测并不可靠，我们需要更新网络参数以获取用于后续路由过程的更多判别表示。因此，我们应该设置一个较大的α并使熵发挥更重要的作用，以便路由过程将尝试以更统一的方式将每个较低级别的胶囊分配给更高级别的胶囊；在训练的后期，我们应该设置一个较小的α，以便路由过程将尝试最大化下层胶囊和高层胶囊之间的一致性，从而需要cij更具确定性。这类似于将每个较低级别的容器分配给其最近的较高级别的容器。我们发现，α的值对于在许多无人监督的任务中的表现至关重要。我们对未来的工作进行了深入的讨论。

4. 实验结果

在本节中，我们通过简单的无监督感知分组任务评估凝聚路由方法的性能，该任务涉及将位于28×28图像的随机位置的三个随机选择的规则形状分组。遵循Greff等人的设置。（2017年），每个输入图像都可以看作是由表示{s1，...，sk}参数化的k个成分的空间混合。训练了神经网络fθ，以将这些胶囊{sj}转换为逐像素预测。期望的目标是训练一个产生连贯说明的胶囊网络，该说明可以进一步用于分别解码输入中的每个对象。

在我们的实验中，我们使用与（Sabour等人，2017）中使用的胶囊网络结构相同的胶囊网络结构。表示{sk}是由胶囊网络生成的实值16维向量，我们固定k =4。令mk为组分配概率，zk =fθ（sk）为该组的预期预测像素值。 mk和zk都具有与输入图像x相同的尺寸。这样，最终的重建损失定义为原始

我们评估与地面真实性有关的学习分组的质量，同时以类似于Greff等人的方式忽略背景和重叠区域。（2017）。从表4中可以看出，我们的路由方法比其他基准具有更好的性能。

5. 结论

我们显示（Sabour et al。，2017）中提出的路由机制与通过耦合概率的KL正则化最小化标准聚类损失相似。我们讨论了几种改善胶囊网络性能的可能方法。未来的工作包括对较大数据集的清晰讨论和实验。

一定要努力啊

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
AN OPTIMIZATION VIEW ON DYNAMIC ROUTING BETWEEN CAPSULES 翻译

摘要尽管最近在（Sabour et al。，2017）中提出了动态路由程序的有效性，但我们仍然缺乏启发式方法及其含义的标准形式化方法。在本文中，我们部分地制定了Sabour等人提出的路由策略。（2017）是一个优化问题，该问题使类耦合损失和当前耦合分布与其最后状态之间的KL正则项的组合最小化。然后，我们介绍另一种简单的路由方法，该方法几乎没有有趣的特性。在无监督的感知分组任务中，我们通过实验证明了我们的路由算法优于Sabour等人提出的动态路由方法。（2017）。1. 简介胶囊是一组.
复制链接

扫一扫