胶囊网络原理

最新推荐文章于 2024-07-02 09:45:00 发布

Eccentric_t

最新推荐文章于 2024-07-02 09:45:00 发布

阅读量5.8k

点赞数 14

分类专栏：机器学习

原文链接：https://blog.csdn.net/zjm2017/article/details/84991333

版权

机器学习专栏收录该内容

7 篇文章

订阅专栏

文章目录

一、整体结构
二、主胶囊层详解
三、动态路由算法
四、损失函数
- 1、间隔损失（Margin Loss）
- 2. 重构损失

一、整体结构

胶囊网络原论文《Dynamic Routing Between Capsules》中给出如下的网络结构：输入层、卷积层、主胶囊层、数字胶囊层。
胶囊网络结构图
图中输入为28×28的MNIST手写数字，经过256个9×9步长为1的卷积核得到20×20×256的特征图，该层就是普通的卷积神经网络，下一层采用8组9×9×32的卷积核卷积8次，会得到8组6×6×32的特征图，然后将每一个特征图展成一维，对应位置组合，一共得到1152个8维的向量神经元，也就是胶囊。最后通过动态路由算法得到数字胶囊层，数字胶囊层向量的模长大小就是预测结果。

二、主胶囊层详解

下图即为主胶囊层的计算过程，上一层得到的是20×20×256的特征图，接下来用8组9×9×32的卷积核进行步长为2的卷积操作，得到如下图所示的8组6×6×32的特征图，这里与普通卷积神经网络有了区别。然后将8组特征图都展成一维，然后对应位置合并，即可得到1152个胶囊。
主胶囊层理解

三、动态路由算法

下图展示了动态路由算法的整个过程。
动态路由图
红框1：主胶囊层的结果，得到1152个胶囊（向量神经元）
红框2：一个全连接结构，一共10行，每行相当于1152个胶囊对该类别的贡献，对应于原论文公式2
红框3：c_ij是b_ij通过softmax得到，加权时候每行相加就得到s_i
红框4：向量压缩结果，通过squashing函数将模长压缩到0-1之间，对应原论文公式1
以上四步是动态路由前向传播，下图中蓝色向量代表红框2中的某一行胶囊的部分向量，红色箭头代表s_i，也就是最终所有向量共同作用的结果。
向量加法
动态路由算法的权重更新公式如下：
b_ij=b_ij+U_ji · v_j
向量积的特点就是夹角θ越小，向量积越大，夹角为90°，向量积为0，大于90°为负，U_ji相当于单个胶囊的个人预测，v_j是所有胶囊共同作用的结果，所以向量积的大小代表了该胶囊对最终结果的一致程度，也就是耦合程度，如果向量积为负，耦合程度应该变小，如果向量积为正，耦合程度应该变大，这个更新公式正好实现，也就是原论文伪代码最后一行对应的公式。