![](https://img-blog.csdnimg.cn/20190918140213434.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
姿态检测
文章平均质量分 82
人体姿态检测 论文阅读笔记
时光机゚
为了我的名字~。~
展开
-
调用百度人体关键点识别API
首先在百度智能云上建立对应的应用,生成AppID、API Key和Secret Key。单张调用生成结果如下:import cv2from aip import AipBodyAnalysisclass BaiduAIP(object): def __init__(self): APP_ID = '' API_KEY = '' SECRET_KEY = '' self.client = AipBodyAnalysis(AP.原创 2021-06-04 10:21:12 · 628 阅读 · 0 评论 -
【论文阅读笔记】Rethinking the Heatmap Regression for Bottom-up Human Pose Estimation
论文地址:https://arxiv.org/abs/2012.15175代码地址:https://github.com/greatlog/SWAHR-HumanPose论文总结 本文所针对的问题,是Bottom-up方法中的不同对象尺度会造成的问题。同一张图的不同尺度对象所对应的感受野不同,因此也应该有不同kernel size的高斯核heatmap。所以对于bottom-up方法,尺度适应的heatmap回归方法自适应每个keypoint的标准差,与此同时,提出自适应权重heatmap回归的损失原创 2021-04-19 20:15:08 · 2936 阅读 · 0 评论 -
【论文阅读笔记】Simple and Lightweight Human Pose Estimation
论文地址:https://arxiv.org/abs/1911.10346代码地址:https://github.com/zhang943/lpn-pytorch论文总结 本文网络名叫LPN。本文的核心目的,其实也就是实现轻量级的姿态检测网络。其做法方式也相对比较传统和简单,实际上就是对backbone进行轻量级设计。网络架构如下图所示:在Downsample的部分,样式和ResNet-18是一样的,但实际上采用的是ResNet-50的结构(bottleneck block),只是将expansio原创 2021-03-11 15:19:03 · 1501 阅读 · 0 评论 -
【论文阅读笔记】Occlusion-Aware Siamese Network for Human Pose Estimation
论文地址:Occlusion-Aware Siamese Network for Human Pose Estimation论文总结 本文的网络名,作者命名为OASNet。本文的出发点就如名字所说的一般,设计方法的思路是朝着姿态检测中遮挡问题做的。其主要做法就是通过人工制作遮挡,使用attention机制将遮挡部分的信息擦除,然后使用领域信息重构回丢失的有用信息,这部分也就是信息擦除和重构模块。这个attention分支得到的东西是通过中间监督来保证遮挡部分的信息擦除。 特征重构部分是想要将特征擦原创 2021-02-24 12:10:50 · 1497 阅读 · 4 评论 -
【论文阅读笔记】Associative Embedding:End-to-End Learning for Joint Detection and Grouping
论文地址:https://arxiv.org/abs/1611.05424论文总结 这是16年的老论文了,该方法可以产生pixel-wise的预测,得到检测结果和grouping,所以理论上可以适用于任何pixel-wise的任务,比如多人姿态检测、实力分割等。 在姿态检测任务上,除了传统的heatmap预测,还有一个grouping分支,用来预测一组数字,数字接近的为同一个目标。数字的本身并不重要,重要的是用来相互区分的意义。论文介绍 模型预测两个分支,一个是pixel detection原创 2021-02-02 19:32:52 · 496 阅读 · 0 评论 -
【论文阅读笔记】Cascade Feature Aggregation for Human Pose Estimation
论文地址:https://arxiv.org/abs/1902.07837论文总结 本文的方法名为CFA,大意就是级联特征融合,其论文中的主题思想实际上也是不断对特征的输出进行refine。与很多直接将网络进行串联或并联的方法类似,文中将多个网络进行了连接。比较不同的一点就在于这个连接上,其上一个网络结构传入下一个网络结构的输入一共有三个:某个blocks的输出,网络结构的输出,以及该网络结构上heatmap的预测,在经过处理(卷积到相同的channel)后将三者进行element-add操作。连接结原创 2021-01-25 11:02:11 · 624 阅读 · 0 评论 -
【论文阅读笔记】Deep High-Resolution Representation Learning for Human Pose Estimation
论文地址:https://arxiv.org/abs/1902.09212代码地址:https://github.com/leoxiaobin/deep-high-resolution-net.pytorch论文总结 论文总得来说是提出了一种网络架构的思想:以前的模型都是下采样后再上采样,从而达到预期的分辨率。而本文的网络HRNet则一直维持高分辨率分支,通过融合低分辨率分支上采样带来的high level信息,达到重复多尺度信息的融合。网络结构入下图所示:由一个高分辨率的子网开始,后面逐渐维持多个原创 2021-01-14 15:31:13 · 1298 阅读 · 0 评论 -
【论文阅读笔记】AID: Pushing the Performance Boundary of Human Pose Estimation with Information Dropping Aug
论文地址:AID: Pushing the Performance Boundary of Human Pose Estimationwith Information Dropping Augmentation论文总结原创 2021-01-14 11:35:57 · 1028 阅读 · 2 评论 -
【论文阅读笔记】Stacked HOurglass Networks for Human Pose Estimation
论文地址:https://arxiv.org/abs/1603.06937论文总结 本文方法名为Hourglass,是16年的老论文了。其论文中的思想,主要是发现了重复的上采样和下采样这种结构(重复的encoder-decoder)的重要性,而且在模型训练的时候添加中间监督,其认为这两点很重要。论文结构入下图所示,每一个“沙漏”就是一个hourglass,多个就是stacked hourglass论文介绍Hourglass 设计 重复编解码的灵感是来自于作者认为:识别脸和手是需要局部信原创 2021-01-12 15:32:18 · 727 阅读 · 0 评论 -
【论文阅读笔记】UniPose: Unified Human Pose Estimation in Single Images and Videos
论文地址:https://arxiv.org/abs/2001.08095论文总结 本文比较不同的地方就是将ASPP(Atrous Spatial Pyramid Pooling)应用在了pose检测中,通过并行化的不同空洞率的空洞率扩大感受野,最终下采样只在stride=8的地方开始上采样。虽然下采样最大只到了8,但只是ResNet101后两个blocks中的stride=1,这并没有减少卷积的操作,也没有增加运算量(虽然feature map变大了,但channel变少了)在论文展示的网络中,上采原创 2021-01-12 11:20:37 · 650 阅读 · 0 评论 -
【论文阅读笔记】Multi-Scale Structure-Aware Network for Human Pose Estimation
论文地址:https://arxiv.org/abs/1803.09894论文总结 本文的主要贡献是提出了一种结构损失的损失函数,将几个物理相连的肢体关键点连接起来,用于人体姿态估计。肢体是我们所认知的人体结构先验,本文将其利用了起来。可以利用身体结构先验,从可见关键点得到不可见关键点的线索。 本论文的改进了目前的深层conv-deconv的 hourglass 模型,有四点改进:(1)多尺度监督想法的实践,通过结合跨尺度的特征heatmaps来加强身体关键点的上下文信息;(2)多尺度回归网络,对原创 2020-12-29 21:53:41 · 532 阅读 · 2 评论 -
【论文阅读笔记】Temporal Keypoint Matching and Refinement Network for Pose Estimation and Tracking
论文地址:http://web.cs.ucla.edu/~zhou.ren/ECCV2020_poseTracking.pdf论文总结 本文实际上就是在top-down结构的基础下,在姿态检测器的backbone上增加了两个模块:时序关键点匹配模块(用以联系两帧之间的实例,维系ID的存在)和时序校正模块(用多帧的姿态检测器产生的heatmap,来加权平均当前的heatmap,从而避免错误的局部最小值响应过大的问题)。两个模块都整合到了单人的姿态检测网络中,训练的时候分两步训练,先训练正常的backbo原创 2020-12-18 12:12:21 · 529 阅读 · 0 评论 -
【论文阅读笔记】3D human pose estimation in video with temporal convolutions and semi-supervised training
论文地址:3D human pose estimation in video with temporal convolutions and semi-supervised training代码地址:VideoPose3D论文总结 本文方法名为VideoPose3D,使用2D关键点序列(xi,yix_i, y_ixi,yi)预测某个时间点的3D关键点,大致就是使用一段2D序列动作去拟合某个带深度的点。在训练的时候,本文也提出一种简单但有效的半监督方法去利用没有未标注的视频数据。半监督方法,大致就是原创 2020-12-16 12:36:49 · 3638 阅读 · 0 评论 -
【论文阅读笔记】BlazePose: On-device Real-time Body Pose tracking
论文地址:https://arxiv.org/abs/2006.10204论文总结: 本文的方法能在移动手机的cpu上跑到实时的效果,在pixel2手机上,超过30fps。 BlazePose,其网络结构借鉴了hourglass这样的堆叠网络,其认为encoder-decoder这样的结构能很好地学习。网络结构如下图所示:在经历了一个encoder之后,使用decoder产生heatmap和offset预测分支进行监督,再通过一个encoder进行坐标回归。在训练的时候,使用heatmap和坐标回原创 2020-12-15 20:32:06 · 4363 阅读 · 0 评论 -
【论文阅读笔记】Integral Human Pose Regression
论文地址:https://arxiv.org/abs/1711.08229代码地址:https://github.com/JimmySuen/integral-human-pose论文总结 本文并没有提出什么新的东西,但做了大量的实验,主要是关于通过网络生成关节坐标,而不是heatmap,证明了产生关节坐标的重要性。其做法与DSNT没啥区别,都是对heatmap使用softmax归一化,然后进行概率积分的回归。 比较特别的一点,是将3D和2D进行联合训练。本文的集成回归方法,也改善了3D姿态估原创 2020-12-15 10:12:34 · 2284 阅读 · 0 评论 -
【论文阅读笔记】Estimating Human Pose from Occluded Images
论文地址:Estimating Human Pose from Occluded Images论文总结: 本文是3D姿态检测的方法。其从图片中直接回归3D关节点的位置。之前未解决的问题是如何估计一个被部分/眼中这单个的人的3D姿态。 本文中,作者提出一个方法解决遮挡问题:利用稀疏信号表示,这样测试的样本可以被看做是训练样本的紧凑线性表示。稀疏解可以通过一些确定的正则项(比如L1L_1L1)求解凸优化获得。通过对未遮挡训练图片的线性组合,可正确恢复被遮挡(破坏)的测试图片。然后将其用于正确地估计被原创 2020-12-09 10:28:08 · 184 阅读 · 0 评论 -
【论文阅读笔记】Camera Distance-aware Top-down Approach for 3D Multi-person Pose Estimation from Single RGB
论文地址:Camera Distance-aware Top-down Approach for 3D Multi-person PoseEstimation from a Single RGB Image代码地址:RootNet_3D,PoseNet_3D论文总结 本文的方法,是在一张图片上预测两个目标:(1)3D人体位置的根节点定位;(2)相对根节点的单人3D姿态估计。和很多方法不同的是,本文在两者的实验中进行了探索,最终决定采用两个网络进行分别训练,而不是单独训练。本文的方法是多人3D姿态检原创 2020-12-08 22:17:38 · 2097 阅读 · 1 评论 -
【论文阅读笔记】Numerical Coordinate Regression with Convolutional Neural Networks
论文地址:Numerical Coordinate Regression with Convolutional Neural Networks代码地址:https://github.com/anibali/dsntnn论文总结 本文提供了一种从图像中直接学习到坐标的一种思路。现在主流的方法都是基于高斯核处理的heatmap作为监督,但这种方法学习到的heatmap,在后处理得到坐标的过程中,存在量化误差(比如4倍下采样的heatmap,量化误差的期望是2)。 本文提出一种新的处理方法,称为DSN原创 2020-12-07 16:52:42 · 2847 阅读 · 3 评论 -
【论文阅读笔记】Simple Baselines for Human Pose Estimation and Tracking
论文地址:Simple Baselines for Human Pose Estimation and Tracking代码地址:https://github.com/leoxiaobin/pose.pytorch论文总结 本文的方法和内容如文章名一般,是为了提供一个人体姿态检测和跟踪的Baseline,且易于实现。本文在网络结构上没有多的花哨的思想,只是在backbone后添加了几个deconv层,没有skip connection传递特征。通过实验得到对应的超参数。在论文实验上,也没有中间监督原创 2020-11-25 16:22:16 · 1799 阅读 · 0 评论 -
【论文阅读笔记】Towards Accurate Multi-person Pose Estimation in the Wild
论文地址:https://arxiv.org/abs/1701.01779论文总结 本文是top-down的姿态检测模型,其人体检测器采用Faster RCNN,Faster RCNN 以 ResNet-101 姿态检测器以Res101作为backbone,预测两个分支:Heamtap(KKK个channel)和Offset(2∗K2*K2∗K个channel)。同时,在对人体检测器采用的 NMS 方案,作者提出了一种新的 NMS 方案:使用0.60.60.6的 IoU 阈值执行 NMS,过滤掉过于原创 2020-10-14 15:31:16 · 1045 阅读 · 0 评论 -
【论文阅读笔记】How Robust is 3D Human Pose Estimation to Occlusion?
论文地址:https://arxiv.org/abs/1808.09316论文总结 本文主要在生成遮挡策略的方向上进行实验,得到实验结果和对比。但由于当时的精度不是特别高,所以其中的一些结论现如今不一定完全适用。 实验了几种策略,单个矩形框、多个矩形框、多个条状、多个圆形、VOC对象嵌入等方式,如下图所示。 论文的结论是,VOC的嵌入式遮挡策略,对于多重遮挡情况的泛化能力较好。论文介绍 本文自己实现了一个全卷积网络,预测3D的heatmap,目标是图片空间的x,y以及相对根节原创 2020-10-12 18:09:33 · 300 阅读 · 0 评论 -
【论文阅读笔记】Bottom-Up Human Pose Estimation by Ranking Heatmap-Guided Adaptive Keypoint Estimates
论文地址:https://paperswithcode.com/paper/bottom-up-human-pose-estimation-by-ranking代码地址:https://github.com/HRNet/HRNet-Bottom-up-Pose-Estimation论文总结 本文方法是Bottom-Up方法的一员,其主要研究方向就是在将离散点Grouping成候选姿态的人,同时训练一个较小的OKS评分网络,对候选姿态进行评分。 即论文方法有两个分支:Point Heatmap预测原创 2020-10-10 16:35:50 · 1898 阅读 · 1 评论 -
【论文阅读笔记】VNect: Real-time 3D human Pose Estimation with a Single RGB
论文总结: 文中方法比较简单,通过全卷积CNN预测一个heatmap及location map。location map实际上就是X, Y, Z三个方向的坐标图,找到关键点的过程为heatmap 中寻找照最大值(x, y),则在对应的X, Y, Z找到对应位置的点,组成相对根节点的3D坐标。 由于这种3D pose估计是通过单帧进行的,无法考虑前后信息,无法在视频时间上保持动作的一致性,所以需要一系列的后处理。论文介绍: 论文提到,如果将3D pose 视为2D pose的隐藏变量,则会产生原创 2020-09-01 21:45:11 · 3085 阅读 · 2 评论 -
【论文阅读笔记】Cascaded Pyramid Network for Multi-Person Pose Estimation
论文地址:CPN论文总结 本文方法名为CPN,是个top-down的检测方法,即先用检测器得到人类的bounding box,再使用CPN来检测关键点。CPN是2017年COCO关键点检测的冠军算法。 如名字所言,是一个级联的金字塔网络。CPN由三个子网络组成:Backbone、GlobalNet、RefineNet。其中Backbone用于提取特征,GlobalNet用于融合不同尺度的特征(金字塔),RefineNet用于得到精细的输出。文中Backbone使用的是ResNet。 在训练时,原创 2020-07-10 11:04:40 · 1037 阅读 · 1 评论 -
【论文阅读笔记】Distribution-Aware Coordinate Representationfor Human PoseEstimation
项目地址:https://ilovepose.github.io/coco/论文总结 本文方法名为DARK,其提出一种编码和解码的方法,使得坐标到heatmap(用于训练)和heatmap到坐标(用于测试)能更加准确的表达。 论文中表达DARK可以减轻网络输入分辨率变小的损失(从384288到256192到128*96);论文内容坐标解码 如果训练的模型效果好的话,网络预测的heatmap会与label同分布,即heatmap会如下公式所示,其中xxx是heatmap中的预测元素坐标;μ\原创 2020-07-03 20:44:42 · 749 阅读 · 0 评论 -
【论文阅读笔记】Fast Human PoseEstimation
论文地址:https://arxiv.org/abs/1811.05419v1github网址:https://github.com/ilovepose/fast-human-pose-estimation.pytorch全文总结 该论文并未提出啥有意思的东西,总体就是知识蒸馏和**“自定义模型压缩”**的应用,提供一个思路。 该方法名为 FTD,Fast Pose Distillation,也就是知识蒸馏应用在pose检测上的意思。文章内容介绍 文中的方法应用对象为Hourglass网络原创 2020-07-02 14:31:14 · 688 阅读 · 0 评论 -
姿态检测前提知识
姿态检测的挑战:每张图片中人的数量是未知的;人与人之间的交互复杂(接触、遮挡等),使得部分关键点检测变得困难;图像中人越多,time cost越大,使得real time应用变得困难;检测指标PCK,Percentage of Correct Keypoints,关键点正确估计的比例。计算检测关键点与对应的 ground-truth 间的归一化距离小于设定阈值的比例。FLIC数据集,是以躯干直径(torso size)作为归一化参考;MPII数据集,是以头部长度(head length原创 2020-05-27 01:41:45 · 426 阅读 · 0 评论