论文阅读理解 - Multi-Context Attention for Human Pose Estimation

最新推荐文章于 2022-06-13 09:50:16 发布

AIHGF

最新推荐文章于 2022-06-13 09:50:16 发布

阅读量7.1k

点赞数 2

分类专栏： Torch 论文阅读姿态估计文章标签：论文阅读人体估计

本文链接：https://blog.csdn.net/zziahgf/article/details/77897060

版权

本文探讨Multi-Context Attention在人体姿态估计中的应用，通过Nested Hourglass网络生成多分辨率特征注意力图，结合整体与部分注意力模型，增强网络对复杂场景的理解。通过分层注意力机制处理自遮挡等问题，提升预测准确性。使用CRF增强相邻区域关联性，并通过数据增强优化模型训练。

摘要由CSDN通过智能技术生成

Multi-Context Attention for Human Pose Estimation

[Paper]

[Torch-Code]

[valse2017/ppt]

整合多内容信息注意力机制(multi-context attention mechanism)到CNN网络，得到人体姿态估计 end-to-end 框架.

采用堆积沙漏网络(stacked hourglass networks) 生成不同分辨率特征的注意力图(attention maps)，不同分辨率特征对应着不同的语义.

利用CRF(Conditional Random Field)对注意力图中相邻区域的关联性进行建模.

并同时结合了整体注意力模型和肢体部分注意力模型，整体注意力模型针对的是整体人体的全局一致性，部分注意力模型针对不同身体部分的详细描述. 因此，能够处理从局部显著区域到全局语义空间的不同粒度内容.

另外，设计了新颖的沙漏残差单元(Hourglass Residual Units, HRUs)，增加网络的接受野. HRUs 扩展了带分支的残差单元，分支的 filters 具有较大接受野；利用 HRUs 可以学习得到不同尺度的特征.

1. Introduction

人体姿态估计面临的问题：肢体关联性、自遮挡、服装影响、透视(foreshortening)因素、复杂物体背景(尤其与肢体比较相似)及人体的严重遮挡.
这里写图片描述
Figure1. 第一行分别是，输入图片、整体注意力图、部分注意力图.

第二行是关节点位置的heatmaps，不同颜色对应不同的关节点.

第三行是预测的姿态可视化结果.

(a)由于背景复杂和自遮挡问题，ConvNets可能得到错误的估计结果.

(b)视觉注意力图对人体关节点的空间关系进行建模，鲁棒性好.

(c)关节点注意力图解决重复计算问题(double counting problem)，进一步提高关节点估计结果.

视觉注意力是一种人脑有效理解场景的机制. 不同于采用一系列的矩形边界框集合来定义ROI(regions

of interest)，采用注意力模型生成注意力图，只依赖图像特征，提供了更有效的方式来关注不同形状的目标区域.

采用堆积沙漏网络结构(stacked hourglass network)来建立multi-context 注意力模型. 每个沙漏单元，特征被降低到非常低的分辨率，然后再上采样并与高分辨率特征相结合. 多次重复该沙漏网络单元，以逐渐捕捉更全局化的特征表示.

利用多个 hourglass stacks 得到的注意力图，能够表示不同语义层次的多语义信息.

2. 方法

这里写图片描述
Figure2. 8-stack hourglass网络的基本结构. 各hourglass stack 分别得到多分辨率注意力图. 将多语义注意力图应用到各 hourglass，如 stack 1 - stack 8. 分层注意力机制对局部关节点的缩放应用在 stack 5 - stack 8.

2.1 基础网络

采用 8-stack hourglass 网络作为基础网络，该网络在各 hourglass stack的尾部采用中间监督，重复地进行 bottom-up，top-down 跨尺度推断. 输入图片尺寸 $256×256$ ，输出heatmaps尺度为 $K×64×64$ ， $K$ 为关节点数目. 网络的损失函数采用 MSE(Mean Squared Error).
这里写图片描述

2.2 Nested Hourglass 网络

采用HRUs代替残差单元，得到 nested hourglass network，如图.
这里写图片描述
Figure3. HRU例示. 包括三个分支：(A)恒等映射(identity mapping)分支； (B)残差分支；(C)hourglass residual 分支. 卷积残差分支和 hourglass residual 分支输入的接受野分别为 $3×3$ 和 $10×10$ .