Hinton大神点赞的胶囊网络模型。原文
对象可以看作是相互关联的几何组织,利用几何关系来应对视点的不变性更加具有鲁棒性。
CNN比其他没有权重共享的网络可以有更好的表现的原因是,一个特征不可能只出现在图像中的一个位置。通过跨尺度、方向和其他仿射自由复制特征来改变视点变化的影响,但是会导致特征图维度高。与CNN不同的是,人类的视觉系统也是依赖于坐标系的,当一个熟悉的物体换一个新的坐标系可能就会识别错误。SCAE主要包括两个阶段:PCAE(Part Capsule Autoencoder)和OCAE(Object Capsule Autoencoder)
CCAE(Constellation Autoencoder)
利用基于注意力机制的Set Transformer将所有的部分胶囊分成K个目标胶囊,每个目标胶囊包括一个胶囊特征向量ck,存在的可能性ak和表示部分和观察者之间仿射变换的33 object-viewer-relationship(ov)矩阵,每个目标胶囊会根据特征向量ck预测N<=M个候选,其中每个候选由存在概率ak,n,标准标量误差λk,n和一个表示部分和目标之间仿射变换33关系矩阵(op),候选预测μk,n是由ov和op的乘积得来,作为高斯混合模型中的均值和方差。
PCAE
将部分胶囊的问题看成一个自编码问题,编码器用于学习推断不同部分胶囊的存在性和姿势,解码器学习每个部分胶囊的模板。使用他们的姿势与当前部分对应的模板进行仿射变换,这些变换后的模板的像素用于为每个图像像素创建单独的高斯混合模型。目前,不允许多个相同类型部分出现在同一张图像中,使用一个编码器去推断它们的六维姿势、存在的可能性dm和特殊的特征zm。
图像像素会成为一个独立的高斯混合模型,对于每一像素,采用转换后的模板的相应像素,并将它们视为具有恒定方差的各向同性高斯分布的中心。
OCAE
接着就是在已经存在的部件中寻找可能的目标,使用连接姿势的xm,特殊的特征zm和平展系数Tm。首先将dm送入编码器中,用于修正set Transformation的误差。然后用于衡量部分和目标胶囊的似然系数。最后,通过PCAE被发现的部分胶囊会有独立的特征识别。由姿势推断出物体,从而发现潜在的结构。
Stacked Capsule Autoencoder(SCAE)
最新推荐文章于 2023-05-28 16:38:04 发布