Unsupervised Person Image Synthesis in Arbitrary Poses阅读笔记

最新推荐文章于 2022-06-23 15:13:57 发布

MindAndHand

最新推荐文章于 2022-06-23 15:13:57 发布

阅读量729

点赞数 2

文章标签：无监督对抗生成网络 GAN 姿态阅读笔记

本文链接：https://blog.csdn.net/qq_35226955/article/details/99635013

版权

Unsupervised Person Image Synthesis in Arbitrary Poses

作者：Albert Pumarola ，Antonio Agudo等人 2018 CVPR

1. 摘要：

有监督中的利用图像生成指定pose的行人图像做reid是早就用烂的了，但在无监督中生成带有任意pose的行人图像的方法还很少，同为2018 CVPR的PNGAN可以算是一种无监督方法(普通对抗损失+重建L1损失)。因此作者从无监督reid切入，并将这一任务切分为两个子任务，分别是：首先是设计一个有条件的双向姿态生成器，它需要将生成的具有指定pose的图像映射回具有原始pose的图像，从而直接与输入图像进行比较(CycleGAN思想，主要目的其实还是为了变无监督为监督，在不能直接监督的情况下通过设计网络进行A->B->A‘ 生成的间接监督)，而不需要任何训练图像；其次是设计了一个结合了内容和纹理信息的，致力于生成高质量图像的损失函数。

生成示例展示：
在这里插入图片描述
其实生成图像还是具体比较明显的人造痕迹，比如脸部。

2. 方法

问题定义：

用具有pose为 $P_o$ 的图像 $I_{P_o}\in R^{3\times H \times W}$ 和指定pose $P_f$ 一起生成具有指定pose $P_f$ 的图像 $I_{P_f}\in R^{3\times H \times W}$ 。而pose是由 $N = 18$ 个关键点 $\vec p=(\vec u_1,\vec u_2,...\vec u_N)$ 组成的2D骨骼图像，其中 $\vec u_i=(u_i,v_i)$ 是第 i 个关键点在图像上的像素位置(坐标)，整个模型基于无监督训练，因此只有训练样本 ${I_{P_o}^i,P_o^i,p_f^i\}_{i=1}^N$ 而没有GT标签。

2.1 整体框架

如图2所示：
在这里插入图片描述
主要由四个组件组成：

生成器 $G (I ∣ p)$ ：棕色
用两次，第一次进行 $I_{P_o}\rightarrow I_{P_f}$ 的映射，第二次进行 $I_{P_f}\rightarrow I_{P_o}$ 的映射(CycleGAN)。
回归器 $\Phi$ ：蓝色
估计输入图像的2D关键点位置
鉴别器 $D_I(I)$ ：粉色
鉴别生成图像和真实图像
损失函数 $\psi$ ：绿色
在没有GT标签的情况下致力于保持id信息不变，其强制给定图像 $I_{P_o}$ 和(经过两次生成的)生成图像 $\hat{I}_{P_o}$ 的语义内容信息一致，而强制给定图像 $I_{P_o}$ 和(经过一次生成的)生成图像 $\hat{I}_{P_f}$ 的风格(纹理)相似。

2.2. 网络结构

生成器：
两次图像生成的过程均是将图像I和姿态图像 $\vec p$ 进行concat之后的shape为 $R^{(N+3)*H*W}$ 的结果输入生成器，生成具有 $\vec p$ 中姿态的图像，shape为 $R^{3*H*W}$ 。
鉴别器：
采样PatchGAN实现，将图像分成26*26个重叠的Patch进行真伪辨别，这种实现的参数更少，而反复重叠的校正导致生成图像减少模糊。
姿态估计：
每一个关节点 $\vec u_i$ 的位置可以用图像计算的概率密度图 $B_i\in R^{H*W}$ 表示，即：
其中U是图像I中所有像素位置(u,v)的集合。对于每个关键点 $\vec u_i$ ，作者在置信图 $B_i$ 的位置( $u_i$ ， $v_i$ )处引入方差为0.03的高斯峰值(关键点位置更突出，热图显示时就是attention区域)。整个人的pose可以表示为所有置信图的concat，即 $\vec p=(B_1,...,B_N)\in R^{N*H*W}$ 。
损失函数：
** 图像对抗损失：让生成图像的分布和训练图像的分布尽量一致
就是普通的对抗损失，进行min-max博弈：
** 条件姿态损失：强制生成器生成图像的pose和指定pose尽量一致
** ID损失：维持图像生成过程中ID不变
分为内容不变和纹理不变两项。内容损失指的是生成器要能够将生成具有指定pose的图像变为原始图像，即第二次生成的结果尽量和原始结果在内容上一致，即保证 $\hat{I}_o\approx I_{P_o}$ ，具体为 $\hat{I}_o= G(G(I_{P_o}|P_f)|{P_o})$ ，而在像素级比较生成图像的差异就会导致类似于SRGAN中提到了“MSE损失导致生成图像过于平滑，模糊，丢失高频细节” 这一特点，因此这里也同样使用SRGAN中那样的特征级重建损失，SRGAN那里是vgg-loss，这里是：

忽略细节的话，可以说和SRGAN一模一样，类似的认为重建像素级一致图像不好而提倡重建特征级一致图像的文章还有reid中的DPIG，无监督域适应中的DAL，以及上面提到的超分中的SRGAN。风格损失指的是 $I_{P_o}$ 和 $I_{P_f}$ 在关节点附近的纹理要一致。具体地，条件姿态patch可由 $I_{P_o}$ 的语义特征 $\psi_z(I_{P_o})\in R^{C*H'*W'}$ 和pose $P_o$ 的概率图经过avg pool下采样结果 $B_{P_o}\in R^{N*H'*W'}$ 的乘积表示，即：

然后patch style就可以表示为 $X_{{P_o},i}$ 的不同通道之间的相关性，具体实现可以是计算每一个patch i 的Gram矩阵

其定义为 $X_{{P_o},i}$ 经过向量化后的特征图之间的内积。最后，patch style损失就可以计算为图像 $I_{P_o}$ 和 $I_{P_f}$ 的同一个关节点的Gram矩阵对之间的均方差误差，即：
最终ID损失为：

整个网络的最终损失为：

注意：有人会说 $L_I$ 和 $L_p$ 是用来重建图像 $\hat{I}_{P_o}$ 的，而 $L_{Content}$ 也是这个作用，岂不是重复了。作者说加了前两个损失能让网络训练时更鲁棒，更容易收敛。