【论文笔记】Joint Discriminative and Generative Learning for Person Re-identification

最新推荐文章于 2020-08-05 17:03:25 发布

Yo3ngLau

最新推荐文章于 2020-08-05 17:03:25 发布

阅读量1.3k

点赞数 2

分类专栏： AI&ML 文章标签：计算机视觉 DG-Net 有监督 Re-ID

本文链接：https://blog.csdn.net/weixin_43359312/article/details/104413014

版权

AI&ML 专栏收录该内容

15 篇文章 2 订阅

订阅专栏

笔记目录

Joint Discriminative and Generative Learning for Person Re-identification
arXiv:1904.07223v2 [cs.CV] 22 May 2019
行人重识别的联合判别与生成学习
注：限于作者水平，本笔记难免存在不妥之处，欢迎批评指正

摘要

以往的方法生成数据流程与判别性re-id学习阶段保持相对分离
本文则通过更好地利用生成的数据来寻求改进学习的re-id特征
提出了一个将re-id学习和数据生成端到端地结合在一起的联合学习框架

本文模型：
一个将每个人分别编码为特征代码和结构代码的生成模块
一个与生成模块共享外观编码器的判别模块

优点：
提出的联合学习框架在不使用生成数据的情况下显著改善了基准，从而在几个基准数据集上实现了最先进的性能

1.简介

行人重识别(re-id)旨在建立不同摄像机之间的身份对应
设计或学习对于类内变化具有鲁棒性的特征，一直是行人重识别的主要目标之一
卷积神经网络(CNNs)最近成为人们重要的选择，因为它们具有强大的表现力和学习不变深度特征的能力
随着生成对抗网络(GANs)的最新进展，生成模型已成为免费引入额外增强数据的有吸引力的选择
以往方法背后的一个常见问题是它们的生成流程通常作为独立模型呈现，与判别的re-id模型相对独立，生成模块的优化目标可能与re-id任务不完全一致，从而限制了生成数据的增益
提出框架：将辨别性和生成性学习联合的DG-Net

策略：

引入一个生成模块，编码器将每个行人图像分解为两个潜在空间：
一个外观空间，主要编码外观和其他身份相关的语义
一个结构空间，包含几何和位置相关结构信息以及其他附加变化
外观空间编码器还与判别模块共享，用作re-ID学习基础网络

由两个潜在空间捕获的属性：
在这里插入图片描述

生成和判别模块之间的相互作用：

生成模块产生合成图像，用于在线改进外观编码器
编码器，影响生成模块，改进外观编码
在共享外观编码器的情况下，两个模块共同优化

对于一个行人图像

通过保持其外观代码并结合不同的结构代码，我们可以生成多个图像，这些图像保持衣服和鞋子不变但改变姿势，视角，背景等
为了更好地捕获这些组合的交叉id信息，通过动态软标签策略引入“主要特征学习”
通过保持结构代码并结合不同的外观代码来产生各种图像，这些图像保持姿势，背景和一些身份相关的细节但改变衣服和鞋子
为进一步挖掘独立于服装的微妙身份属性创造了机会，通过“细粒度特征挖掘”，学习其他微妙的身份属性

优点：

提供了第一个能够端到端地将判别和生成学习整合到一个统一的行人重识别网络中的框架
图像生成优于现有图像生成
re-id 精确度在几个基准测试中始终优于其他竞争算法

2.相关工作

行人重识别的大部分研究的重点是度量学习损失
DG-Net仅依赖于re-id学习的简单识别丢失，并且不需要额外的辅助信息，例如姿势或用于图像生成的人工解析
另一个活跃的研究方向是利用GAN来增加训练数据
所有方法都将图像生成和re-id学习设置为两个脱节步骤，而DG-Net端到端将两个任务集成到一个统一的网络中
最近的一些研究还利用合成数据进行行人图像的样式转换，以补偿源域和目标域之间的差异
与全球风格转移相比，本文目标是操纵外观和结构细节，以促进更强大的re-id学习

3.方法

在这里插入图片描述
DG-Net将用于图像生成的生成模块与用于re-id学习的判别模块紧密耦合
引入两个图像映射：同一身份生成和跨身份生成，以合成高质量的图像，这些图像在线用于re-id学习
判别模块涉及主要特征学习和细粒度特征挖掘，它们使用生成模块进行编码以更好地利用生成的数据

3.1生成器模块

公式符号解释
在这里插入图片描述
真实图像

身份标签

外观编码器

结构编码器

解码器

判别器（真实图像/生成图像）

重构图像x_i

通过具有相同身份即y_i=y_t的图像x_t重构图像x_i

使用识别损失区分不同的身份
p(y_i|x_i)是x_i基于其外观编码属于真实类y_i的预测概率
在这里插入图片描述
对生成的图像进行编码后重构两个潜在编码

基于其外观编码对生成的图像强制执行识别损失，以保持身份一致性
p(y_i|xⁱ_j)是xⁱ_j属于x_i的真实类别y_i的预测概率

采用对抗性损失将生成的图像分布与实际数据分布相匹配

优点：
生成模块能够以明确和互补的含义学习外观和结构编码，并基于潜在编码生成高质量的行人图像
可以通过对各种图像对进行采样来生成O(N×N)个不同的图像

3.2判别模块

主要特征学习：采用具有动态软标签的teacher-student型监督
使用teacher模型为xⁱ_j动态分配软标签，具体取决于x_i和x_j的复合外观和结构
在这里插入图片描述
为了训练主要特征学习的判别模块，我们最小化由判别模块预测的概率分布p(xⁱ_j)与teacher模型预测的概率分布q(xⁱ_j)之间的KL差异
细粒度特征挖掘：将由一个结构编码生成的图像与不同的外观编码组合在一起作为与提供结构编码的真实图像相同的类
在这里插入图片描述
为了训练用于细粒度特征挖掘的判别模块，我们对此特定分类强制执行分类损失

3.3优化

在这里插入图片描述
λ_img、λ_id、λ_prim、λ_fine是控制相关损失的比重
由于交叉id生成的图像的质量在开始时并不好，因此识别损失L^c_id可能使训练不稳定，因此我们设置小权重λ_id=0.5
在生成质量稳定之前，我们不涉及判别特征学习损失L_prim和L_fine
交叉身份生成中，交替地在生成的图像之前训练E_a、E_s和G，在生成的图像之后训练E_a、E_s和D

4.实验

DG-Net可以产生更逼真和多样化的图像，在所有基准的re-id准确性上大幅度地优于最新的竞争算法

4.1实验实现细节

使用通道×高度×宽度来指示特征图的大小

(i)E_a基于在ImageNet上预训练的ResNet50，删除其全局平均池化层和全连接层，然后附加自适应最大池化层以输出2048×4的外观编码a
它通过两个全连接层映射到主要特征f_prim和细粒度特征f_fine，两者都是512维向量
(ii)E_s是输出128×64×32结构编码的浅网络，它由四个卷积层和四个残差块组成
(iii)G通过四个残差块和四个卷积层生成s，每个残差块包含两个自适应实例归一化层，它们集成为尺度和偏置参数在a中
(iv)D遵循多尺度PatchGAN，在三个不同的输入图像尺度上使用判别器：64×32、128×64和256×128
在更新D时应用梯度惩罚以稳定训练
(v)对于训练，所有输入图像的大小调整为256×128，SGD用于训练E_a，学习率为0.002，动量为0.9，应用Adam来优化E_s、G和D，并将学习率设置为0.0001，(β₁，β₂)=(0,0.999)
(vi)在测试时，re-id模型仅涉及E_a以及两个轻量级头，将f_prim和f_fine连接成1024维向量作为最终的行人表示

4.2生成评估

定性评估：
LS-GAN生成的图像具有严重的伪像和重复的模式
FD-GAN易于产生非常模糊的图像，这在很大程度上会虚弱了真实性
PG²-GAN和PN-GAN均以姿势为条件，产生相对良好的视觉效果，但仍含有可见的模糊和伪影，尤其是在背景中
本文DG-Net生成的图像更逼真，并且在前景和背景中都接近真实
定量评估：
使用两个度量：Frechet初始距离(FID)和结构相似度(SSIM)来分别测量生成图像的真实性和多样性
局限性：生成模块倾向于学习常规纹理例如条纹和点，忽略了一些罕见的部分例如衬衫上的徽标

4.3判别评估

消融研究：
研究主要特征和细粒度特征的贡献
在这里插入图片描述
超参影响：
α：λ_fine和λ_prim之间的比率，控制L_fine和L_prim在训练中的重要性
β：权衡f_fine当其结合f_prim在测试中作为最终的行人代表
与最先进的方法进行比较：
只使用一个训练阶段进行联合图像生成和re-id学习，其他方法则需要两个训练阶段来依次训练生成模型和re-id模型
在这里插入图片描述

5.结论

提出了一个联合学习框架，端到端的组合在统一网络中进行re-id学习和图像生成
判别模式和生成模块之间存在一个在线交互循环，以使两个任务互利
三个基准测试的实验表明，此方法始终如为图像生成质量和re-id准确性带来了实质性的改进

论文部分英文解释

注：解释由作者使用Google翻译结合上下文做出，如有不妥欢迎指正

discriminative 判别的
generative 生成的
intra-class 类内的
correspondence 对应
retrieve 恢复
formulate 制定
proxy 代理的
align 对齐
domain 域
scenario 情景
combinatorial 组合的
benchmark 基准
metric 度量
spatial 空间的
utilize 利用
exploit 利用
semantic segmentation 语义分割
ground-truth 标准答案
机器学习里面的Ground Truth是什么意思
proposed 提出的
explicit 精确的
complementary 补充的
inevitably 不可避免地
artifact 人工品
latent 潜在的
constrained 受约束的
embed 嵌入
backbone 骨干
branch 分枝
compound 合成的
divergence 差异
smoothing 平滑的
baseline 基线
pipeline 流水线
simulate 模拟
supervision 监督
manually 手动地
leverage 影响
synthetic 合成的
sampling 采样
manipulate 操纵
variant 变种的
invariant 不变的
protocol 协议
diverse 多样的
margin 幅度
map 映射
shallow 浅层的
residual 残差的
adaptive 自适应的
integrate 整合
concatenate 级联
feeding 反馈
blurry 模糊的
texture 组成
duplicated 重复的
prone 易于
deteriorate 恶化
interpolation 插补
verify 校验
trivial 不重要的
intact 完整的
stripe 条纹
dot 点
ablation 消融
substantially 实质上
offline 离线
ratio 比例
fusion 融合
rationale 基本原理

论文翻译参考

注：此翻译绝大部分具有可参考性，极个别地方有所不妥
【论文翻译】Joint Discriminative and Generative Learning for Person Re-identification

Yo3ngLau

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
【论文笔记】Joint Discriminative and Generative Learning for Person Re-identification

笔记目录摘要1.简介2.相关工作3.方法3.1生成器模块3.2判别模块3.3优化4.实验4.1实验实现细节4.2生成评估4.3判别评估5.结论Joint Discriminative and Generative Learning for Person Re-identificationarXiv:1904.07223v2 [cs.CV] 22 May 2019注：限于作者水平，本笔记难免存...
复制链接

扫一扫

专栏目录