.net bitmap rgb数据_在3D空间，用点云数据学行人重识别特征

最新推荐文章于 2021-12-21 11:15:54 发布

weixin_39983051

最新推荐文章于 2021-12-21 11:15:54 发布

阅读量146

点赞数

文章标签： .net bitmap rgb数据

本文链接：https://blog.csdn.net/weixin_39983051/article/details/112762823

版权

该文章提出了一种新的行人重识别方法，利用3D人体结构化信息增强2D图像匹配。通过将2D图像映射到3D点云，构建图卷积神经网络(OG-Net)学习这种信息。实验表明，这种方法在信息匹配和模型鲁棒性方面优于传统的2D方法，并且在参数效率和泛化能力上表现出色。尽管存在数据限制，如图像尺寸标准化导致的身高信息丢失，但模型仍能在部分遮挡的情况下提供良好的检索结果。

摘要由CSDN通过智能技术生成

人生活在三维空间中。但已有的行人重识别(person re-ID)工作往往只关注 2D 空间中的图像匹配，忽略了3D的人体先验信息。在本篇文章中，我们做了一个微小的尝试，即在三维空间中通过生成的点云数据来执行人体的匹配。

文章链接：https://arxiv.org/abs/2006.04569

代码链接：https://github.com/layumi/person-reid-3d

What （我们想去学到什么）:

如下图，当我们人看到一张2D 行人图像的时候，实际上会自然的与3D人体做一个结合，我们在这个工作中希望能使用了这种结构化的信息。弥补现有基于2D图像工作的信息缺失。

2.具体来说，我们需要利用三维空间的人体结构化信息，和2D 的外观RGB信息，结合来学习行人的匹配。我们希望这样学到的模型更鲁棒，能适应更多情况。因为它是“以人为本”的。

How （怎么学）:

首先，我们没有3D点云数据。故本文采用2D图像建模，将2D图像映射到3维模型上。具体来说，我们先估计了三维的pose，然后与2D RGB信息做匹配。如下图，我们也可以旋转模型，透明的地方就是背后没有RGB颜色的区域。

2. 将原始图像数据集完全转换成点云数据后，我们进一步需要设计网络去学习这样的信息。每个点云数据除了 rgb信息外，还有坐标xyz信息。所以如果每个人都检测到m个点，事实上，我们的输入为 m x 6 这样一个矩阵。

3. 我们设计了一个图卷积神经网络 OG-Net 来学习这样的数据，参考了 PointNet++ 和 DGCNN中的模块。类似传统CNN，我们逐步收缩点的数量，集中语义信息。最后和传统CNN一样，我们映射到一个512维的特征，做行人的身份loss L_{id}.

4. 每一个 Omni-scale Module ，如果不需要将采样点云，则如下左图，就是一个基本的GCN，传播一下最近邻的信息。而对于需要降采样的情况，则如下右图，我们包含了更多跨点的信息传播的function。

Discussion ：

与传统方法的一些差异，简要来说：（1）我们抽取了多尺度的信息，同时采用了residual的形式，结合了不同层的点云特征。（2）我们对RGB 和 XYZ坐标信息，分别处理。XYZ信息主要用来建Graph，而RGB信息则主要是用来运算特征；（注：在最后一个block，红色标注处，我们尝试结合RGB特征和XYZ来获得一个non-local效果的Graph。）（3）由于点云的数量多，相比DGCNN，我们的模型更高效；而相比PointNet和 PointNet++, OGNet 包含更多的跨点的信息传播，丰富了最后特征的表达能力。
一些数据上的限制。（1）不得不说，做实验的时候，我们也遇到了数据上的限制，很多数据集比如Market-1501，已经把图像都resize好了到 128x64，会丢失行人的身高胖瘦等信息，所以导致我们的模型不能用上更多行人身高的信息（这也是现有工作都缺失的）。（2）同时，我们也发现使用的3D模型，不能刻画比如头发，裙摆，背包等信息，也导致了一些信息的流失。所以在实际的实验中，我们还是引入了背景。

实验：

与2D数据对比，就是抹去z的深度信息。我们发现结果下降。说明3D的点云，确实在信息匹配上有优势，学到了更好的信息。

2. 与其他2D CNN baseline相比。有一点需要说明，因为我们的网络没有在ImagNet上pretrain，所以我们比较的方法也是train from scratch来比较。我们可以看到，OGNet 只使用了 ResNet-50 差不多十分之一的参数量，但是达到了更好的效果。同时 OG-Net-Small 使用了1.2M的参数量，也比很多轻量级的网络好。

3.OGNet 使用了3D人体结构化信息，所以泛化能力也相对强。我们的模型直接迁移到其他数据集上也获得了比较好的结果。

4, 可视化结果。可以看到，对于正常的检索样本和部分遮挡的检索行人，OGNet 都可以得到比较好的检索结果。

5. 进一步，我们对网络中的模块做了分析。我们分析了如short-cut等可选的功能，Graph中不同的邻居数量等。

6. 同时我们也分析了网络的敏感性。在实际场景中，扫描到的点云的密度可能有变化，不过OG-Net对此还是相对鲁棒的。

7. 最后，虽然我们不研究点云分类。我们也尝试了点云分类数据集 ModelNet40，实际运行中将RGB信息也替换成XYZ坐标。也可以得到相对不错的结果，同时参数量更少。

代码链接：https://github.com/layumi/person-reid-3d

最后感谢大家看完～欢迎关注分享点赞～

也可以check我的一些其他文章和关注我们实验室的知乎主页悉尼科技大学ReLER实验室

郑哲东：2020年行人重识别的挑战与最新进展（35页PPT整理）zhuanlan.zhihu.com

郑哲东：IJCV | 利用Uncertainty修正Domain Adaptation中的伪标签zhuanlan.zhihu.com

郑哲东：TMM｜车辆重识别的一些实践zhuanlan.zhihu.com

weixin_39983051

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
.net bitmap rgb数据_在3D空间，用点云数据学行人重识别特征

人生活在三维空间中。但已有的行人重识别(person re-ID)工作往往只关注 2D 空间中的图像匹配，忽略了3D的人体先验信息。在本篇文章中，我们做了一个微小的尝试，即在三维空间中通过生成的点云数据来执行人体的匹配。文章链接：https://arxiv.org/abs/2006.04569代码链接：https://github.com/layumi/person-reid-3d What （...
复制链接

扫一扫