Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields论文阅读笔记-2

Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields论文阅读笔记-2

针对原论文2.1Simultaneous Detection and Association部分介绍的网络结构部分作一简要笔记

网络结构如下图所示

在这里插入图片描述

  1. 输入原始彩色人体图片
  2. 原始图片经过VGG-19网络的前10层(微调)进行处理,得到特征图F
  3. 网络由连续的多个阶段组成,每个阶段都有两个可反复迭代的CNN分支构成,两个CNN分支同时进行。
  4. 第一个分支网络ρ(上方米黄色)用来预测Part Confidence Map(CPM,部位置信图),输出一个集合S =(S1 , S2 , …, Sn) ,n表示人身上的第n个部位。S用来完成对身体部位的预测
  5. 第二个分支网络φ(下方浅蓝色)用来预测part affiity fields(PAF,部位亲和场),输出一个集合L= (L1 , L2 , …, Ln ), n表示人身体的第n个肢体。L结合S结合二部图匹配,用来完成对肢体的预测
  6. 在第一个阶段,两个分支CNN均接受特征图F作为输入,将S11(F)和L11(F)作为本阶段的输出。
  7. 在第t(t>2)个阶段,两个分支均接受特征图F和前一阶段两个网络的输出St-1,Lt-1作为输入,并输出相应的St和Lt。

在这里插入图片描述

  1. 每一阶段每个分支网络都有其损失函数,损失函数采用L2损失函数加权的表示。权重W(p)的作用:是在某些情况下,数据集中可能存在对部位的标注不完全的情况,此时的S*j(p)和L*c(p)的值为0,从而导致损失函数的值特别大,在这种情况下,令W(p)=0,从而避免这种情况的发生。

在这里插入图片描述

  1. 而网络的总体损失函数被定义为各阶段每个分支网络损失函数的和。网络的目标是不断降低这个损失函数的值

在这里插入图片描述

  1. 经过多个阶段的迭代,输出结果St和Lt相比初始结果S1,L1会有明显的优化
  2. 为了计算损失函数,需要得到S*j(p)和L*c(p),即身体部位和部位亲和场PAF的GroundTruth,这也是本篇论文之后重点介绍的部分
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值