tf-openpose人体姿态估计标签生成--heatmap--vectormap

项目地址:https://github.com/ildoonet/tf-pose-estimation

人体姿态估计部分代码解读

前言

openpose是自下而上的人体姿态估计方法,此处我们讨论的是tensorflow的版本。
coco keypoints 标注 以及tf-openpose的标注调整如下图所示(调整顺序为了适应PAF阶段的预测):

序号coco oriopenpose
1鼻子鼻子
2左眼脖颈
3右眼右肩
4左耳右肘
5右耳右手
6左肩左肩
7右肩左肘
8左肘左手
9右肘右髋
10左手右膝
11右手右脚
12左髋左髋
13右髋左膝
14左膝左脚
15右膝右眼
16左脚左眼
17右脚右耳
18左耳

其中脖颈为左肩和右肩的中点!

heatmap高斯分布生成代码(pose_dataset.py)

函数get_heatmap生成关键点热力图,未在图内且未标注的关键点生成的heatmap所有值都为0。一共19个heatmap,其中最后一个代表背景

def get_heatmap(self, target_size):
    heatmap = np.zeros((CocoMetadata.__coco_parts, self.height, self.width), dtype=np.float32)
    ##全部heatmap都初始化为0
    for joints in self.joint_list:
        for idx, point in enumerate(joints):
            if point[0] < 0 or point[1] < 0: 
                continue
            CocoMetadata.put_heatmap(heatmap, idx, point, self.sigma)
    heatmap = heatmap.transpose((1, 2, 0)) ##self.height, self.width, CocoMetadata.__coco_parts,
    # background
    heatmap[:, :, -1] = np.clip(1 - np.amax(heatmap, axis=2), 0.0, 1.0)  
    if target_size:
        heatmap = cv2.resize(heatmap, target_size, interpolation=cv2.INTER_AREA) #插值resize
    return heatmap.astype(np.float16)

注:
1. numpy.clip(a, a_min, a_max, out=None) :clip这个函数将将数组中的元素限制在a_min,
a_max之间,大于a_max的就使得它等于 a_max,小于a_min,的就使得它等于a_min。

函数put_heatmap单个关键点keypoints热力图生成

def put_heatmap(heatmap, plane_idx, center, sigma):
    center_x, center_y = center
    _, height, width = heatmap.shape[:3]
    th = 4.6052
    delta = math.sqrt(th * 2)

    x0 = int(max(0, center_x - delta * sigma))
    y0 = int(max(0, center_y - delta * sigma))

    x1 = int(min(width, center_x + delta * sigma))
    y1 = int(min(height, center_y + delta * sigma))

    for y in range(y0, y1):
        for x in range(x0, x1):
            d = (x - center_x) ** 2 + (y - center_y) ** 2  ###高斯!!
            exp = d / 2.0 / sigma / sigma  ##高斯!!
            if exp > th:
                continue
            heatmap[plane_idx][y][x] = max(heatmap[plane_idx][y][x], math.exp(-exp))
            heatmap[plane_idx][y][x] = min(heatmap[plane_idx][y][x], 1.0)
一个关键点的测试效果(高斯分布):

这里写图片描述

vectormap 向量叉乘生成代码(pose_dataset.py)

函数get_vetormap得到PAF标签,vectormap是heatmap的两倍为38个(19*2),因为有19条的关键点连接线,每一条线使用向量表示,分别有x维度的map,以及y轴的map。
此处map上的区域赋值,要限定区域使用的是向量的叉乘:

    def get_vectormap(self, target_size):
        vectormap = np.zeros((CocoMetadata.__coco_parts*2, self.height, self.width), dtype=np.float32)
        countmap = np.zeros((CocoMetadata.__coco_parts, self.height, self.width), dtype=np.int16)
        for joints in self.joint_list:
            for plane_idx, (j_idx1, j_idx2) in enumerate(CocoMetadata.__coco_vecs):
                j_idx1 -= 1
                j_idx2 -= 1
                center_from = joints[j_idx1]
                center_to = joints[j_idx2]

                if center_from[0] < -100 or center_from[1] < -100 or center_to[0] < -100 or center_to[1] < -100:
                    continue
                CocoMetadata.put_vectormap(vectormap, countmap, plane_idx, center_from, center_to)
        vectormap = vectormap.transpose((1, 2, 0))
        nonzeros = np.nonzero(countmap)
        for p, y, x in zip(nonzeros[0], nonzeros[1], nonzeros[2]):
            if countmap[p][y][x] <= 0:
                continue
            vectormap[y][x][p*2+0] /= countmap[p][y][x]
            vectormap[y][x][p*2+1] /= countmap[p][y][x]

        if target_size:
            vectormap = cv2.resize(vectormap, target_size, interpolation=cv2.INTER_AREA)

        return vectormap.astype(np.float16)

函数put_vectormap得到单个向量的map(2个)表示。

  def put_vectormap(vectormap, countmap, plane_idx, center_from, center_to, threshold=8):
        _, height, width = vectormap.shape[:3]

        vec_x = center_to[0] - center_from[0]
        vec_y = center_to[1] - center_from[1]
        min_x = max(0, int(min(center_from[0], center_to[0]) - threshold))
        min_y = max(0, int(min(center_from[1], center_to[1]) - threshold))

        max_x = min(width, int(max(center_from[0], center_to[0]) + threshold))
        max_y = min(height, int(max(center_from[1], center_to[1]) + threshold))
        norm = math.sqrt(vec_x ** 2 + vec_y ** 2)
        if norm == 0:
            return

        vec_x /= norm
        vec_y /= norm

        for y in range(min_y, max_y):
            for x in range(min_x, max_x):
                bec_x = x - center_from[0]
                bec_y = y - center_from[1]
                dist = abs(bec_x * vec_y - bec_y * vec_x)  ##向量叉乘根据阈值选择赋值区域
                if dist > threshold:
                    continue

                countmap[plane_idx][y][x] += 1

                vectormap[plane_idx*2+0][y][x] = vec_x
                vectormap[plane_idx*2+1][y][x] = vec_y

vec_x 以及 vec_y为单位向量,任何向量与单位向量的叉乘即为四边形的面积

两个点的vectmap标注示意:

vec x
这里写图片描述

vex y
这里写图片描述

向量叉乘

首先简单讲讲向量:向量是一种既有方向、又有大小的量(如一个箭头表示就很形象),在平面直角坐标系中,若A的坐标为(x,y),B的坐标为

(x0,y0) ( x 0 , y 0 )
,则向量AB的方向由A指向B,用
(x0x,y0y) ( x 0 − x , y 0 − y )
表示。
定义:叉乘是向量间的一种运算,设两个向量分别为
(x1,y1),(x2,y2) ( x 1 , y 1 ) , ( x 2 , y 2 )
,那么它们的叉乘就为 (x1y2x2y1) ( x 1 ∗ y 2 − x 2 ∗ y 1 ) ,它也是一个向量,但在本文中,我们不讨论它的方向。
几何意义:
叉乘的几何意义是以两向量为邻边的平行四边形的有向面积!!

这里写图片描述
由上图所示,向量由一条起点出发到达另一条平行线(角度小于90度),此向量与其中一条的平行线单位向量进行叉乘,得到的四边形面积保持不变!!从而限定了向量赋值的区域!最后得到的限定区域为下图的六边形。

参考资料:
1.数学基础 —— 向量运算(叉乘)

  • 19
    点赞
  • 84
    收藏
    觉得还不错? 一键收藏
  • 22
    评论
### 回答1: tf-pose-estimation是一种基于TensorFlow框架的姿势估计算法,用于从图像或视频中提取人体关节点的位置。下面是对tf-pose-estimation的代码解析。 首先,该代码库使用了一个经过预训练的深度学习模型,该模型是通过大量的人体姿势数据进行训练得到的。该模型使用CNN(卷积神经网络)来提取图像特征,并使用模型的输出来预测每个关节点的位置。 代码库的主要文件是pose_estimation.py。在这个文件中,首先加载了预训练模型,并对输入图像进行预处理。然后,将预处理后的图像输入到模型中进行前向传播,得到每个关节点的位置估计结果。 在pose_estimation.py中,还定义了一些辅助函数来处理图像、绘制关节点、计算姿势距离等操作。这些函数包括骨骼连线、关节点索引等。 此外,tf-pose-estimation还提供了一个命令行接口,允许用户从图像或视频中运行姿势估计算法。通过命令行接口,用户可以指定输入图像/视频的路径,并选择是否将结果可视化或保存到文件中。 代码中还包含了一些示例文件,用于演示如何使用tf-pose-estimation进行人体姿势估计,例如video.py、webcam.py等。 总的来说,tf-pose-estimation是一个基于TensorFlow的代码库,用于姿势估计,它使用预训练的深度学习模型从图像或视频中提取人体关节点的位置。通过提供的命令行接口和示例文件,用户可以方便地使用此代码库进行人体姿势估计任务。 ### 回答2: tf-pose-estimation是一个基于TensorFlow的开源姿势估计项目。它可以通过分析图像或视频中的人体关键点来估计人体的姿势。 这个代码库提供了一些基本的功能,包括加载预训练的姿势估计模型,使用模型对输入图像进行预测,以及绘制预测结果。它使用了OpenPose方法,该方法通过将人体姿势估计问题转化为一个人体关键点检测问题来解决。 在代码解析中,首先会加载预训练模型,这个模型通常是由大量标记好的人体关键点图像数据训练得到的。然后,代码会读取输入图像或视频,并使用加载的模型对其进行预测。预测结果包括人体关键点的坐标和置信度。最后,代码会根据预测结果将人体关键点绘制在图像上,以便用户可以直观地看到估计的人体姿势。 该代码库在计算机视觉、机器学习和姿势估计等领域具有广泛应用。它可以用于人体动作分析、虚拟现实、人机交互等应用场景。用户可以根据自己的需求进行调整和扩展,以实现更复杂的功能。 总之,tf-pose-estimation是一个基于TensorFlow的开源姿势估计项目,通过使用预训练模型和OpenPose方法,能够对输入的图像或视频进行人体姿势估计,并绘制出人体关键点。它在多个领域都有广泛的应用潜力。 ### 回答3: tf-pose-estimation 是一个基于 TensorFlow 开发的人体姿态估计库。它使用深度学习技术,通过输入一张包含人体的图像,能够输出图像中人体的姿态信息,包括各个关节点的位置、关节之间的关系以及姿态的可见性。 tf-pose-estimation 的代码结构主要涉及以下几个部分: 1. 数据预处理:输入图像首先经过预处理,包括图像的缩放、色彩空间的转换等。这一步骤的目的是将图像转换为神经网络模型能够处理的格式。 2. 网络模型搭建:tf-pose-estimation 使用了一种称为 OpenPose 的网络模型来进行姿态估计。这个网络模型由卷积层、池化层、上采样层、残差模块等组成。通过这些层的堆叠和连接,网络能够从输入图像中提取出关键点的位置信息。 3. 损失函数定义:在训练阶段,需要定义一个损失函数来评估网络模型输出的姿态和真实姿态之间的差距。tf-pose-estimation 使用了一个多通道的 Heatmap 来表示关键点的位置,通过计算预测 Heatmap 和真实 Heatmap 之间的均方误差作为损失函数。 4. 训练和推理:在训练阶段,根据预先标注好的姿态数据,通过反向传播算法不断调整网络参数,使得模型输出的姿态与真实姿态更加接近。在推理阶段,给定一张图像,通过前向传播算法,将图像输入网络模型,得到关键点的位置信息。 5. 后处理:推理得到的关键点位置信息会经过一定的后处理,用于提取骨骼连接关系并进行姿态的可视化。这个后处理过程可以根据应用需求进行自定义调整。 总的来说,tf-pose-estimation 的代码解析主要包括数据预处理、网络模型搭建、损失函数定义、训练和推理以及后处理等步骤。通过这些步骤,tf-pose-estimation 能够准确地估计图像中人体的姿态信息,具有广泛的应用前景。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 22
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值