人生活在三维空间中。但已有的行人重识别(person re-ID)工作往往只关注 2D 空间中的图像匹配,忽略了3D的人体先验信息。在本篇文章中,我们做了一个微小的尝试,即在三维空间中通过生成的点云数据 来执行人体的匹配。
文章链接:https://arxiv.org/abs/2006.04569
代码链接:https://github.com/layumi/person-reid-3d
What (我们想去学到什么):
- 如下图,当我们人看到一张2D 行人图像的时候,实际上会自然的与3D人体做一个结合,我们在这个工作中希望能使用了这种结构化的信息。弥补现有基于2D图像工作的信息缺失。
2.具体来说,我们需要利用三维空间的人体结构化信息,和2D 的外观RGB信息,结合来学习 行人的匹配。我们希望这样学到的模型更鲁棒,能适应更多情况。因为它是“以人为本”的。
How (怎么学):
- 首先,我们没有3D点云数据。故本文采用2D图像建模, 将2D图像映射到3维模型上。具体来说,我们先估计了三维的pose,然后与2D RGB信息做匹配。如下图,我们也可以旋转模型,透明的地方就是背后没有RGB颜色的区域。
2. 将原始图像数据集完全转换成 点云数据后,我们进一步需要设计网络去学习这样的信息。每个点云数据除了 rgb信息外,还有坐标xyz信息。所以如果每个人都检测到m个点,事实上,我们的输入为 m x 6 这样一个矩阵。
3. 我们设计了一个图卷积神经网络 OG-Net 来学习这样的数据,参考了 PointNet++ 和 DGCNN中的模块。类似传统CNN,我们逐步收缩点的数量,集中语义信息。最后和传统CNN一样,我们映射到一个512维的特征,做行人的身份loss L_{id}.
4. 每一个 Omni-scale Module ,如果不需要将采样点云,则如下左图,就是一个基本的GCN,传播一下最近邻的信息。而对于需要降采样的情况,则如下右图,我们包含了更多跨点的信息传播的function。
Discussion :
- 与传统方法的一些差异,简要来说:(1)我们抽取了多尺度的信息,同时采用了residual的形式,结合了不同层的点云特征。(2)我们对RGB 和 XYZ坐标信息,分别处理。XYZ信息主要用来建Graph,而RGB信息则主要是用来运算特征;(注:在最后一个block,红色标注处,我们尝试结合RGB特征和XYZ来获得一个non-local效果的Graph。) (3)由于点云的数量多,相比DGCNN,我们的模型更高效;而相比PointNet和 PointNet++, OGNet 包含更多的跨点的信息传播,丰富了最后特征的表达能力。
- 一些数据上的限制。(1)不得不说,做实验的时候,我们也遇到了数据上的限制,很多数据集比如Market-1501,已经把图像都resize好了 到 128x64,会丢失行人的身高 胖瘦等信息,所以导致我们的模型不能用上更多行人身高的信息(这也是现有工作都缺失的)。(2)同时,我们也发现使用的3D模型,不能刻画 比如 头发,裙摆,背包等信息,也导致了一些信息的流失。所以在实际的实验中,我们还是引入了背景。
实验:
- 与2D数据对比,就是抹去z的深度信息。我们发现结果下降。说明3D的点云,确实在信息匹配上有优势,学到了更好的信息。
2. 与其他2D CNN baseline相比。有一点需要说明,因为我们的网络没有在ImagNet上pretrain,所以我们比较的方法也是train from scratch来比较。我们可以看到,OGNet 只使用了 ResNet-50 差不多十分之一的参数量,但是达到了更好的效果。同时 OG-Net-Small 使用了1.2M的参数量,也比很多轻量级的网络好。
3.OGNet 使用了3D人体结构化信息,所以泛化能力也相对强。我们的模型直接迁移到其他数据集上也获得了比较好的结果。
4, 可视化结果。可以看到,对于正常的检索样本 和 部分遮挡的检索行人,OGNet 都可以得到比较好的检索结果。
5. 进一步,我们对网络中的模块做了分析。我们分析了如short-cut等 可选的功能,Graph中不同的邻居数量等。
6. 同时我们也分析了网络的敏感性。在实际场景中,扫描到的点云的密度可能有变化,不过OG-Net对此还是相对鲁棒的。
7. 最后,虽然我们不研究点云分类。我们也尝试了点云分类数据集 ModelNet40,实际运行中将RGB信息也替换成XYZ坐标。也可以得到相对不错的结果,同时参数量更少。
代码链接:https://github.com/layumi/person-reid-3d
最后感谢大家看完~欢迎关注分享点赞~
也可以check我的一些其他文章 和关注我们实验室的知乎主页 悉尼科技大学ReLER实验室
郑哲东:2020年 行人重识别的挑战 与 最新进展 (35页PPT整理)zhuanlan.zhihu.com