开源！MMVRAC顶尖方案！中山大学超强HDBN准确识别3D姿势！

最新推荐文章于 2024-06-03 14:38:01 发布

3Ｄ视觉工坊

最新推荐文章于 2024-06-03 14:38:01 发布

阅读量17

点赞数

文章标签： 3d

原文链接：https://mp.weixin.qq.com/s?__biz=MzU1MjY4MTA1MQ==&mid=2247676548&idx=3&sn=32b76b363d50bef9f61f509edf709594&chksm=faf38ce789b2e7ee3c6501193788b9411d14abe316f8dfb2297d1d4aae505d8ca277788cd5fd&scene=126&sessionid=0

版权

点击下方卡片，关注「3D视觉工坊」公众号
选择星标，干货第一时间送达

来源：3D视觉工坊

添加小助理：dddvision，备注：方向+学校/公司+昵称，拉你入群。文末附行业细分群

扫描下方二维码，加入3D视觉知识星球，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门视频课程（星球成员免费学习）、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0.这篇文章干了啥？

这篇文章提出了一种新的混合双分支网络（HDBN），旨在提高基于骨架的动作识别的性能。具体来说，该网络结合了Transformer和GCN这两种不同的网络结构，用于处理2D和3D骨架数据。与以往使用单一主干或使用不同主干处理不同模态的方法不同，HDBN旨在充分利用Transformer和GCN的优势，实现更加鲁棒的基于骨架的动作识别。实验结果表明，在UAV-Human数据集上，HDBN的性能优于大多数现有方法，验证了该方法的有效性。

下面一起来阅读一下这项工作~

1. 论文信息

论文题目：SPVLoc: Semantic Panoramic Viewport Matching for 6D Camera Localization in Unseen Environments

作者：Jinfu Liu, Baiqiao Yin等

作者机构：School of Intelligent Systems Engineering, Sun Yat-sen University等

论文链接：https://arxiv.org/pdf/2404.15719.pdf

代码链接：https://github.com/liujf69/ICMEW2024-Track10

2. 摘要

基于骨架的动作识别凭借简洁而强大的骨架表示方法已经获得了相当大的关注。然而，当前的方法往往倾向于利用单一的主干网络来建模骨架模态，这可能受制于网络主干的固有缺陷。为了解决这一问题并充分利用各种网络架构的互补特性，我们提出了一种新颖的混合双分支网络（HDBN）用于鲁棒的基于骨架的动作识别，该网络利用图卷积网络处理图结构数据的能力和Transformer对全局信息进行强大建模的能力。具体而言，我们提出的HDBN分为两个主干分支：MixGCN和MixFormer。这两个分支分别利用GCN和Transformer来分别建模2D和3D骨架模态。我们提出的HDBN在2024年ICME大挑战赛的多模态视频推理与分析竞赛（MMVRAC）中成为顶尖解决方案之一，在UAV-Human数据集的两个基准测试中，准确率分别达到了47.95%和75.36%，优于大多数现有方法。我们的代码将公开在：https://github.com/liujf69/ICMEW2024-Track10。

3. 效果展示

无人机-人的混淆矩阵。对角线上的方块越黄，识别越准确。(a)基于CSv 1基准的无人机-人类数据集。(b)CSv 2基准上的无人机-人类数据集

4. 主要贡献

我们主张利用不同的网络结构来实现鲁棒的基于骨架的动作识别，充分利用不同主干之间的结构互补性。
我们提出了一种名为混合双分支网络（HDBN）的新双分支框架，有效地结合了GCNs和Transformers。具体而言，骨架数据被输入到GCN和Transformer主干中以建模高级特征，然后通过后期融合策略有效地结合，以实现更鲁棒的基于骨架的动作识别。
对基准UAV-Human数据集的大量实验验证了我们HDBN的有效性。在这些大规模动作识别数据集中，我们的模型胜过了大多数现有的动作识别方法。

5. 基本原理是啥？

这篇论文提出了一种用于骨架动作识别的新型混合双分支网络（HDBN），旨在提高骨架动作识别的性能。主要思想是利用不同的网络结构来处理2D和3D骨架数据，并通过后期融合策略将它们的分类结果结合起来。

在HDBN中，包括两个主要分支：MixGCN分支和MixFormer分支。MixGCN分支使用图卷积网络（GCN）来处理骨架数据。GCN是一种擅长处理图结构数据的网络，可以有效地捕捉骨架中关节之间的关系。MixGCN分支包括三种不同的动态邻接矩阵，用于处理2D和3D骨架数据，并充分利用这些不同GCNs之间的互补性。

另一方面，MixFormer分支利用Transformer来处理骨架数据。Transformer是一种强大的模型，具有很好的全局信息建模和抽象能力，适合处理骨架数据。MixFormer分支利用Transformer的自注意机制来编码骨架数据，并将编码后的特征用于动作识别。

最后，HDBN使用了一种后期融合策略来结合MixGCN分支和MixFormer分支的分类结果。这种策略通过一组权重参数来线性组合两个分支的分类结果，最终输出鲁棒的动作识别结果。

通过结合GCN和Transformer两种不同的网络结构，HDBN能够充分利用它们的优势，并通过后期融合策略将它们的分类结果结合起来，从而提高骨架动作识别的性能。

6. 实验结果

这篇论文主要介绍了一种用于骨架动作识别的新型混合双分支网络（HDBN），并通过在UAV-Human数据集上的实验验证了该方法的有效性。

数据集和实现细节：使用了UAV-Human数据集，该数据集包含了22,476个视频片段，涵盖了155个不同类别的人类活动。实验使用了GeForce RTX 3090 GPU，并在MixGCN分支中采用了TD-GCN、CTR-GCN和MST-GCN作为基础组件，在MixFormer分支中集成了Skeleton MixFormer作为核心框架。
结果比较：在UAV-Human数据集上，HDBN的分类准确率分别为47.95%和75.36%。与CTR-GCN相比，HDBN在基准CSv1和CSv2上分别提高了2.35%和2.86%，表明HDBN在动作识别方面取得了较好的性能。
消融研究：进行了多项消融研究，比如使用不同的骨架模态（joint、bone、joint motion、bone motion）、评估2D姿势估计3D姿势的准确率以及使用不同GCN（TD-GCN、MST-GCN）和MixFormer作为主干时的识别准确率。这些研究结果进一步验证了HDBN方法的有效性。

7. 总结 & 未来工作

我们提出了一种新颖的双分支框架，称为混合双分支网络（HDBN），用于鲁棒的基于骨架的动作识别，引入了Transformer和GCN来建模2D和3D骨架数据。与先前使用单一主干或使用不同主干处理各种模态的方法不同，我们的HDBN旨在利用Transformer和GCN，以实现鲁棒的基于骨架的动作识别。HDBN的有效性在UAV-Human数据集上得到了验证，其中我们的HDBN优于大多数现有方法。

本文仅做学术分享，如有侵权，请联系删文。

3D视觉工坊交流群

目前我们已经建立了3D视觉方向多个社群，包括2D计算机视觉、大模型、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向，细分群包括：

2D计算机视觉：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

大模型：NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等

工业3D视觉：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机：四旋翼建模、无人机飞控等

除了这些，还有求职、硬件选型、视觉产品落地、最新论文、3D视觉最新产品、3D视觉行业新闻等交流群

添加小助理: dddvision，备注：研究方向+学校/公司+昵称（如3D点云+清华+小草莓）, 拉你入群。

▲长按扫码添加助理

3D视觉工坊知识星球

3D视觉从入门到精通知识星球、国内成立最早、6000+成员交流学习。包括：星球视频课程近20门（价值超6000）、项目对接、3D视觉学习路线总结、最新顶会论文&代码、3D视觉行业最新模组、3D视觉优质源码汇总、书籍推荐、编程基础&学习工具、实战项目&作业、求职招聘&面经&面试题等等。欢迎加入3D视觉从入门到精通知识星球，一起学习进步。

▲长按扫码加入星球

3D视觉工坊官网：www.3dcver.com

3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪，无人机等。

▲长按扫码学习3D视觉精品课程

3D视觉相关硬件

图片	说明	名称
	硬件+源码+视频教程	精迅V1(科研级)）单目/双目3D结构光扫描仪
	硬件+源码+视频教程	深迅V13D线结构光三维扫描仪
	硬件+源码+视频教程	御风250无人机(基于PX4)
	硬件+源码	工坊智能ROS小车
	配套标定源码	高精度标定板(玻璃or大理石)
添加微信:cv3d007或者QYong2014 咨询更多

— 完 —

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

3D视觉科技前沿进展日日相见 ~

3Ｄ视觉工坊

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
开源！MMVRAC顶尖方案！中山大学超强HDBN准确识别3D姿势！

点击下方卡片，关注「3D视觉工坊」公众号选择星标，干货第一时间送达来源：3D视觉工坊添加小助理：dddvision，备注：方向+学校/公司+昵称，拉你入群。文末附行业细分群扫描下方二维码，加入3D视觉知识星球，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门视频课程（星球成员免费学习）、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫...
复制链接

扫一扫