【论文解析】Unsupervised Discovery of Object Landmarks as Structural Representations

最近在翻CVPR2018的文章,突然就翻到了这篇oral,关于无监督学习的关键点检测,感觉还是很流弊的,特地来分享一下
论文链接:Unsupervised Discovery of Object Landmarks as Structural Representations
首先,来看一下网络结构
在这里插入图片描述

主要分成三个部分,landmark detector(对应于左上角的蓝色部分),Local latent descriptors(对应左下角的粉色部分)以及landmark-based decoder(对应于右半部分)。

1.landmark detector:
可以看到,这部分主要是一个hourglass网络,输入的是一张原图,没有label信息,经过这个网络得到一个初始的类似于heatmap的raw score map(R)。
在这里插入图片描述
θ表示网络参数,要注意的是这里R有k+1个通道,k是landmark 的数量,第k+1代表的是background。
然后R经过softmax归一化之后得到detection confidence map(我把它叫做置信图)
在这里插入图片描述
然后把Dk看作是一个权重图,第k个landmark的坐标用以下式子计算:
在这里插入图片描述
然后在这里插入图片描述是一个空间归一化因子,就是为了坐标乘上权重计算得到landmark坐标之后能够返回原来的坐标系下对应的scale。同时这个式子3是可导的,意味着它可以进行反向传播(除非Dk权重都集中在一个坐标上面,那就是完美的理想网络也不需要可导直接可以用了hh)
但是上面得到的landmark是随机的,太任意了,很可能得到的landmark都不能用,为此作者也提出了几个软约束
1.Concentration constraint
浓度约束,目的是为了让权重图Dk的密度集中在小部分区域,然后以至于可以把最集中区域的中心点当作是landmark,否则如果权重图很分散的话会陷入不知道选那个点当作landmark的尴尬境地。把Dk/ζk当作是二项分布的密度,计算两个方差σ²det,u和σ²det,v,得到loss函数
在这里插入图片描述
把这个loss函数当作一个各向同性的高斯分布的熵的指数形式(把loss函数当作熵的目的是因为熵越低意味着更高的峰值分布),可以得到一个对密度Dk/ζk作估计的高斯分布
在这里插入图片描述
2.separation constraint
分离约束,这个其实比较易于理解,就是为了让各个landmark都尽可能地分离,否则最开始的随机性可能导致预测出来的landmark坐标都在图像中心附近。在这里插入图片描述
3.equivariance constraint
不变性约束。就是对于变换后的图像,检测出来的landmark位置还能和原来的一样,不受旋转,缩放等影响。变换函数用TPS(薄板样条插值)随机参数随机得到。

在这里插入图片描述
这里g是对变换后的图像检测得到的坐标,然后后面的(xk,yk)是直接对原图坐标作同样变换得到的值,两个构成了类似于MSEloss的loss函数。
4.Cross-object correapondence
跨对象的一致性主要是通过同一滤波器共享语义相似度这个事实。

2.Local latent descriptors
因为landmark可能不足以描述图像的structural representation,所以引入了额外的局部潜在描述器,所谓局部,意味着它也不能编码太多了全局信息。
还是通过一个hourglass 结网络,得到feature map F。
在这里插入图片描述对于每个F,用式子6中得到的置信图高斯估计分布当作软掩模,来得到每个landmark的局部特征。C小于S,因为里面有一个线性操作子Wk,专门用来降维,将landmark的feature表示降到低维空间,使得可以用特定有限bits的pattern来表示。
在这里插入图片描述

3.Landmark-based decoder
因为是encoder-decoder结构,所以图像重建也是可以的。
首先采用以前面1中得到的landmark的坐标为中心得到的各向同性高斯分布图当作raw score map。背景通道被置为1,再across channels正则化R得到D。
在这里插入图片描述
在这里插入图片描述

然后结合2中得到的fk,把D当作软掩模,进行一个全局反池化,得到最后的feature map。
在这里插入图片描述
里面的η是非线性激活函数,如LeakyReLU等等。
但是,D和F得到了之后,如果只用一组,可能效果不好,因为要平衡D中的密度锐度。若D中越密,那么早期反向传播的像素点就会越少,对网络的迭代不好,所以作者的做法是用不同的σdec得到很多组D和F,用它们来进行图像的重建。

在这里插入图片描述
最后的loss函数如下:
在这里插入图片描述
其中Lrecon为在这里插入图片描述
λ取0.5

(最近任务多,先写完网络结构了,实验部分后面补)

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
封闭回路的无监督学习结构化表示 封闭回路的无监督学习结构化表示是一种机器学习方法,旨在通过建立闭环反馈以自动地学习数据之间的结构化表示。在无监督学习中,我们通常没有标签的辅助信息,因此要求模型能够从数据中自动发现隐藏的结构和模式。 封闭回路的无监督学习方法的关键思想是通过对模型输出和输入进行比较来进行训练。在这个闭环中,模型的输出被重新注入到模型的输入中,从而形成了一个持续的迭代过程。模型通过调整自身的参数来最小化输入和输出之间的差异,以此来改善所学到的表示。 使用封闭回路进行无监督学习的一个例子是自编码器。自编码器是一种神经网络模型,它的输入和输出都是相同的。模型的目标是通过学习如何将输入编码为一个低维的表示,并且能够从这个低维表示中重构出输入。在训练过程中,自编码器通过最小化输入和重构输出之间的差异来调整自身的参数。 封闭回路的无监督学习方法有许多优点。首先,由于无需标签,这种方法可以适用于大量未标记的数据。其次,学习到的结构化表示可以用于许多任务,如数据压缩、降噪、特征提取等。此外,通过引入封闭回路,模型可以在训练过程中不断自我纠正,从而改善表示的质量。 总之,封闭回路的无监督学习方法通过建立闭环反馈来自动地学习数据之间的结构化表示。该方法可以应用于无标签数据,并且通过迭代过程来不断改善所学到的表示。这种方法在很多任务中都具有广泛的应用前景。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值