Unsupervised Discovery of Object Landmarks as Structural Representations
本文的核心是提出一种无监督的方法检测物体的关键点。这个具有语义性质的关键点不是人为定义的而是自动学得的。
文章主要思路是利用autoencoder模型,在中间部分添加各种loss约束引导检测的关键点heatmap的生成。主要架构见上图,encoder部分有俩不同的hourglass组成,上面一个得到K+1个channel的heatmap(K个关键点+背景),在此添加三个约束:
1. Concentration constraint,计算单个heatmap两个维度的方差,使它们尽量小,这样就可以尽量集中到一个点;
2. Separation constraint,使得每个channel得到的关键点尽量分开
3. Equivariance constraint,对输入图像做可控的扰动(放缩、旋转等变化),要求对应的关键点位置产生相应变化,即具有不变性。
因为是autoencoder模型,还需要做decoder计算与原图的重构误差。但是只有关键点的信息不足以重建图像,因此用了第二个encoder产生又一个feature map F F (通道数不是K+1)用于描述重构所需信息。然后每个关键点的heatmap作为attention map乘上 之后再做一个关键点相关的降维线性变换 Wk W k 得到关键点对应的特征描述 f