姿态估计 - Deep High-Resolution Representation Learning for Human Pose Estimation

0. 前言

  • 相关资料:
  • 论文基本信息
    • 领域:姿态估计
    • 作者单位:中国科学技术大学&微软亚洲研究院
    • 发表时间:CVPR 2019
  • 一句话总结:提出一种新的backbone设计思路,即不同尺寸的特征图之间进行多次信息融合。

1. 要解决什么问题

  • 为了获取图像中的位置信息(如目标检测、姿态估计、图像分割任务),一种常见的解决方案是增加特征图的尺寸,一般网络就是先下采样再上采样,且下采样、上采样过程中相同尺寸的特征图之间可能有skip connection。
  • 现有的方法如下图
    • a是hourglass结构
    • b是cascade pyramid结构
    • c是simplebaseline结构
    • d中使用了空洞卷积
    • image-20210113103225458

2. 用了什么方法

  • 说白了,就是不同尺寸间特征图相互连接(有FPN的感觉,但也不完全是,毕竟1x的通道从头到尾都有)

    image-20210113103128774

  • 不同尺寸间特征图应该如何融合呢

image-20210113110112333

  • 最终结果预测好像用的就是最高尺寸的特征图,其他的没用上。

3. 效果如何

  • 横扫COCO/MPII/PoseTracking
    • image-20210113095654022
    • image-20210113095702339
    • image-20210113095715049

4. 还存在什么问题&可借鉴之处

  • 这种结构应该非常消耗算力和显存吧。毕竟连了这么多。
深度高分辨率表示学习是一种用于视觉识别的技术,旨在从图像中学习到更高质量和更具表达力的特征表示。在传统的视觉识别任务中,如图像分类、目标检测和语义分割,传统的特征表示方法通常提取低级或中级特征,这些特征可能无法有效地捕捉到图像的复杂信息。而深度高分辨率表示学习通过多层神经网络的结构和大规模训练数据来学习更深层次、更富有语义的图像特征。 深度高分辨率表示学习方法通常包含以下几个关键步骤:首先,通过使用深度卷积神经网络(DCNN)架构来学习特征表示。DCNN是一种层次结构复杂、能够从原始像素数据中自动学习特征的神经网络。其次,利用大规模的标注数据进行训练,通过反向传播算法来更新网络的权重和偏置参数,从而最小化预测误差。最后,在训练过程中采用一些优化策略,如数据增强、正则化和优化器选择等,以提高网络的泛化能力和识别性能。 深度高分辨率表示学习在计算机视觉领域有着广泛的应用。一方面,它可以用于图像分类,通过学习到的高质量特征表示,可以在分类任务中获得更高的准确性和鲁棒性。另一方面,它也可以用于目标检测和语义分割任务,通过学习到的特征表示,可以更准确地定位和分割图像中的对象。此外,深度高分辨率表示学习还可以用于识别特定的物体、场景或人脸,从而应用于人脸识别、目标跟踪和智能安防等领域。 总之,深度高分辨率表示学习是一种能够有效提高视觉识别任务准确性和鲁棒性的技术。它通过学习到更深层次、更富有语义的图像特征表示,提供了更强大的图像分析和理解能力,为计算机视觉领域的各种应用提供了重要的支持。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值