OpenMMLab AI实战营笔记2

最新推荐文章于 2024-08-09 22:24:25 发布

yyfan981024

最新推荐文章于 2024-08-09 22:24:25 发布

阅读量75

点赞数

分类专栏： OpenMMLab 文章标签：人工智能笔记计算机视觉

本文链接：https://blog.csdn.net/qq_42815746/article/details/131027210

版权

OpenMMLab 专栏收录该内容

10 篇文章 0 订阅

订阅专栏

姿态估计是计算机视觉中的关键技术，涉及2D和3D场景。2D姿态估计常用方法包括基于回归和热力图预测，其中热力图预测因降低任务难度而更受欢迎。3D姿态估计则增加了额外的维度。自顶向下与自底向上的多人姿态估计策略各有优劣，而Transformer在姿态估计中的应用展现了新的可能性。

摘要由CSDN通过智能技术生成

姿态估计

overview

这节课是卢老师给我们带来的一节关于姿态估计的额课程。课程通过以下几个方面给我普及了一些姿态估计的知识：

姿态估计概述
2D姿态估计
3D姿态估计
评估指标
人体参数化（没有很听懂，不做重点总结啦）

姿态估计概述

在这里插入图片描述
首先我们需要给出姿态估计的定义，在不同的情况下。我们对其定义是不同的。例如对人脸识别中，手势识别中，和人体中。分别有不同个数的关键点定义，但总而言之，关键点就是人体中关键位置的点。我们通过这些关键位置的点，就可以建模各种下游任务。比如动作理解，姿态跟踪等等。

下游任务之一：行为识别

在这里插入图片描述

下游任务之二：CG

在这里插入图片描述

2D人体姿态估计

2D人体姿态估计是指从一张2D图像中推断出人体的姿态信息。该技术在计算机视觉领域中有着广泛的应用，例如动作捕捉、人机交互、虚拟现实、视频监控等。2D人体姿态估计的目标就是在图像上定位人体关键点的坐标。
方法如下：

基于回归的方法：将关键点检测问题建模成回归问题，让模型直接回归关键点坐标。

基于回归的方法核心就是通过卷积层抽取到特征之后，我通过一个能覆盖整体图像的FC层或者Dence层来预测关键点坐标在什么位置。通常而言，这种连接很多全连接层的工作其网络都会较不精准，因为这相当于是一个4096类的分类问题，如果卷积层没有够好的特征提取能力，是无法回归这么复杂的问题的。（但是老师说他们组有工作已经能cover这个问题）
基于热力图的方法：并不直接回归关键点的坐标，而是预测关键点位于每个位置的概率。
热力图是现在流行的姿态检测任务，其原因是：1.热力图能基于原始坐标进行生成。2.预测后的热力图也能通过一系列数学方法获得关键点坐标。更加关键的一点就是，预测热力图会比做回归坐标精度更高，这是很好理解的，因为我们把一个预测点坐标的任务扩大成预测区域的任务。这样降低的任务的难度。
热力图使用&训练pipeline
1. 从数据标注生成热力图：

2. 使用热力图训练模型

3. 从热力图还原关键点
基于多人的姿态估计：基于多人姿态估计分为两大方法。一种是自顶向下，一种是自底向上。后续我们将更加细致的讨论这两点。
1. TopDown（自顶向下）
  
  老师对这个工作的讲解十分细致，不知道是不是这项工作是老师组的工作。这个方法是通过不停的进行回归关键点的坐标，进行精度提升的工作。这篇工作给我的感觉其实和后边用Transformer的工作很像，都是先找到一个粗粒度的位置，然后继续调优找到最优解。
  优点：回归模型，理论精度是无线，只要级联足够多。
  缺点：回归坐标的方法天生具有劣势。
2. BottomUp（自底向上）
  
  主要思路就是通过先进行预测，然后使用一些图或者聚类的方法来判断关键点的归属。
  
  亲和点计算方法。
基于Transformer的方法：

这个文章和之前使用级联思路的卷积神经网络很像。如果不清楚DETR的朋友，可以简单的理解成一个不使用NMS等后处理方法的简单的端到端的目标检测方法。那没有NMS它是怎么出框的呢，方法就出在Transformer Decoder上，Transformer中输入的query，我们让它是一个可学习的，框位置的query。这样我们通过query的学习。就能在最后做目标检测，那PRTR同理，我们把可学习的目标从框换成点。也能得到一样的效果。

2D summary

在这里插入图片描述

3D姿态估计

任务定义

这里和2D的区别是，我们的坐标多了一个维度。
方法

评测指标

PCP、PDJ、PCK、OKS mAP
个人不关心故略过。

yyfan981024

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
OpenMMLab AI实战营笔记2

首先我们需要给出姿态估计的定义，在不同的情况下。我们对其定义是不同的。例如对人脸识别中，手势识别中，和人体中。分别有不同个数的关键点定义，但总而言之，关键点就是人体中关键位置的点。我们通过这些关键位置的点，就可以建模各种下游任务。比如动作理解，姿态跟踪等等。
复制链接

扫一扫