Efficient Object Localization Using Convolutional Networks 论文解读

最新推荐文章于 2022-03-24 11:17:53 发布

JerryZhang__

最新推荐文章于 2022-03-24 11:17:53 发布

阅读量1.9k

点赞数 2

分类专栏： Human Pose Estimation 文章标签： human pose cnn

本文链接：https://blog.csdn.net/JerryZhang__/article/details/97561974

版权

paper title: Efficient Object Localization Using Convolutional Networks
paper link: https://arxiv.org/pdf/1411.4280.pdf
oral or demo video：-
project: -
github: -
conf & anthor: CVPR15, Jonathan Tompson et al.
arXiv submit v1: 2014.11 google citation:405(2019.07.12)

姿态估计系列：

主要内容：
这篇文章主要使用coarse和fine两个级联网络来回归人体关节点的heat-map,并使用shared-feature的架构联合训练这两个网络，提升模型的泛化能力。这篇文章的可以看做是文章Joint Training of a Convolutional Network and a Graphical Model for Human Pose Estimation的拓展，可参考。

网络结构：
文章提出的网络结构是一个级联的heat-map回归网络，分为coarse和fine回归两部分，coarse部分回归一个粗略的heat-map关节点位置，然后使用coarse网络得到的结果在coarse得到的feature map上截取一块区域，然后输入fine网络得到fine回归的结果，最后将coarse和fine回归网络得到的结果整合后得到最终的结果。
级联网络的整体架构如下：
overview of cascade model architecture

(1) coarse heat-map regression model
coarse网络是一个多分辨率输入网络，输入三层高斯金字塔图像，经过各自的卷积操作之后得到的feature map进行concat，然后进行一个SpatialDropout的操作（即feature map层面的dropout,原因是作者发现使用常规的dropout会使训练时间变长，并仍会导致over-training），最后经过卷积操作之后输出14x32x32的heat maps。
coarse heat-map regression model

(2) fine heat-map regression model
fine网络是一个Siamese network，单个关节的网络结构图如下，由于coarse网络的输入有多个尺度，所以在feature map截取输入到fine网络也有多个尺度，所以这里的fine网络也有多个分支，对不同的尺度的输入进行处理，最后所有的feature map变换到同一尺度（对尺寸较小的feature map进行上采样）再concat，然后再进行后续的卷积操作。
fine regression network for a single joint

损失函数:
(1) coarse model
coarse模型使用MSE作为损失函数：
$L_{coarse}=1/N*\sum_{j=1}^N\sum_{xy}||H'_j(x,y)-Hj(x,y)||^2$

最低0.47元/天解锁文章

JerryZhang__

关注

2
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
Efficient Object Localization Using Convolutional Networks 论文解读

paper title: Efficient Object Localization Using Convolutional Networkspaper link: https://arxiv.org/pdf/1411.4280.pdforal or demo video：-project: -github: -conf & anthor: CVPR15, Jonathan ...
复制链接

扫一扫