前几天英伟达开源了DG-Net的源码。让我们来回顾一下这篇CVPR19 Oral的论文。
论文是英伟达(NVIDIA), 悉尼科技大学(UTS), 澳大利亚国立大学(ANU)的研究人员 在CVPR19上口头报告的文章《 Joint Discriminative and Generative Learning for Person Re-identification》。 深度学习模型训练时往往需要大量的标注数据,但收集和标注大量的数据往往比较困难。作者在行人重识别这个任务上探索了 利用生成数据来辅助训练的方法。通过生成高质量的行人图像,将其与行人重识别模型融合,同时提升行人生成的质量和行人重识别的精度。
论文链接:https://arxiv.org/abs/1904.07223
B 站视频: https://www.bilibili.com/video/av51439240/
腾讯视频: https://v.qq.com/x/page/t0867x53ady.html
代码:https://github.com/NVlabs/DG-Net
Why: (之前论文的痛点有哪些?)
- 生成高质量的行人图像有一定难度。之前一些工作生成的行人图像质量相对低(如上图)。主要体现在两个方面:1.生成的真实度:行人不够真实, 图像模糊, 背景不真实; 2. 需要额外的标注来辅助生成:需要额外的人体骨架或者属性标注。
- 若使用这些低质量的行人生成图像来训练行人重识别模型,会引入与原始数据集之间的差异(bias)。故之前的工作,要么仅仅把所有生成的行人图像看成outlier来正则网络; 要么额外- 训练一个生成图像的模型,和原始模型做融合; 要么就是完全不用生成的图像去训练。<