轻量级堆叠沙漏网络(附源代码下载)

关注并星标

从此不迷路

计算机视觉研究院

16573a5ff15cf658f5672917b8dd02d6.gif

ee584515dac7e426088d3665c09f43db.gif

公众号IDComputerVisionGzq

学习群扫码在主页获取加入方式

代码地址:https://github.com/jameelhassan/PoseEstimation

计算机视觉研究院专栏

作者:Edison_G

在 AI 绘画领域,很多研究者都在致力于提升 AI 绘画模型的可控性,即让模型生成的图像更加符合人类要求。前段时间,一个名为 ControlNet 的模型将这种可控性推上了新的高峰。大约在同一时间,来自阿里巴巴和蚂蚁集团的研究者也在同一领域做出了成果,本文是这一成果的详细介绍。

人体姿态估计(HPE)是计算机视觉中的一项经典任务,其重点是通过识别人的关节位置来表示人的方位。HPE可以用来理解和分析人类的几何和运动相关信息。Newell等人在[Stacked hourglass networks for human pose estimation. In European conference on computer vision, pages 483–499]中提出的堆叠沙漏结构是第一种引人注目的基于深度学习的HPE方法之一,因为在此之前,经典方法主导了HPE文献。在这项工作中,利用重复的自下而上和自上而下的处理来捕获来自不同尺度的信息,并引入中间监督来迭代地细化每个阶段的预测。与当时最先进的方法相比,这大大提高了准确性。

16fbb78eabb41ac9327862fcbbf079af.jpeg

然而,HPE是一个实时应用程序,因为它经常被用作另一个模块的前身。因此,在这种情况下,关注计算效率是至关重要的。在这项研究中,研究者对堆叠沙漏网络进行了架构和非架构修改,以获得一个既准确又计算高效的模型。在下面的内容中,研究者提供了对基线模型的简要描述。

原始架构由多个堆叠的沙漏单元组成,每个沙漏单元由四个下采样和上采样级别组成。在每个级别上,下采样是通过残差块和最大池化操作来实现的,而上采样是通过残留块和最近邻插值来实现的。这个过程确保了模型捕捉到局部和全局信息,这对于连贯地理解全身以获得准确的最终姿态估计非常重要。在每次最大池化操作之后,网络分支,以预池化分辨率通过另一个残差块应用更多卷积,其结果作为跳跃连接添加到沙漏的后半部分中的相应上采样特征图。模型的输出是每个关节的热图,该热图对每个像素处存在关节的概率进行建模。预测每个沙漏之后的中间热图,并在其上应用损失。此外,这些预测被投影到更多的通道,并作为后续沙漏的输入,以及当前沙漏的输入及其特征图输出。

  • 设计选择

Depthwise Separable Convolutions

深度可分离卷积取代了传统的卷积,以减少卷积运算的参数数量。这是通过使用卷积在空间上单独在信道上分割卷积来执行的,然后通过逐点卷积聚合信道信息,如下图所示:

70fb470e5dabe92efc627a6f43038e17.png

Dilated Convolution

下面方程中描述的扩张卷积是规则卷积运算的一种变体,其具有在不损失分辨率或覆盖率的情况下指数增加感受野的能力,就像池化运算的情况一样。

1e3a7a178a1bfeba2d8cc10ee18e9212.png

Ghost Bottleneck

[Ghostnet: More features from cheap operations. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition]提出的Ghost瓶颈还通过不同地分割卷积来降低卷积运算的计算复杂度。为了产生固定数量的信道,Ghost瓶颈使用规则卷积输出一小部分信道,其余信道通过更便宜的线性运算产生,如下图所示。这些被级联和卷积以输出所需数量的信道。

53f758aa5945fa7cdf6414f8cb7299ef.png

  • DiCE Bottleneck

高效网络的维度卷积(DiCE)单元是Mehta等人提出的一种卷积单元,它折衷了维度卷积和维度融合。卷积运算应用于三个输入维度(宽度、高度和深度)中的每一个。为了沿着这些维度中的每个维度组合编码信息,使用有效的融合单元来组合这些表示。因此,DiCE单元可以有效地捕获沿着空间维度和信道维度的信息。

  • Shuffle Bottleneck

[Shufflenet: An extremely efficient convolutional neural network for mobile devices. In Proceedings of the IEEE conference on computer vision and pattern recognition]中首次提出的混洗单元使用逐点群卷积和信道混洗来提高计算效率并保持准确性。

a2e5a94288a29ac74917d101e2093017.png

  • Perceptual Loss

感知损失用于比较具有微小差异的相似图像。在这里,我们将其用作两个图像之间的特征水平均方误差(MSE)损失,该损失在高级特征图而不是原始图像空间处计算损失。这里的假设是,如果让第一个沙漏“感知”第二个沙漏在高特征水平上“感知”的东西,网络的整体性能就会提高。下方程中所示的总损失由感知损失和原始预测损失组成,其中预测损失具有更高的权重。

4d998ff540e24d10f7dd29fd1b416467.png

  •  Residual connection

研究者还将现有的残差连接添加替换为级联的残差连接,然后进行逐点卷积,以获得所需数量的信道,称为ResConcat。还包括从沙漏(颈部)的最窄特征图到下一个沙漏颈部的残差连接,称为NarrowRes。

实验

12fbe5724e6cfa148ba21441829fae35.png

051840115f2bfbce3f486f9aef408e85.png

Architecture of the best model

© The Ending

转载请联系本公众号获得授权

cc194fe46e543150b996139b76059776.gif

计算机视觉研究院学习群等你加入!

计算机视觉研究院主要涉及深度学习领域,主要致力于人脸检测、人脸识别,多目标检测、目标跟踪、图像分割等研究方向。研究院接下来会不断分享最新的论文算法新框架,我们这次改革不同点就是,我们要着重”研究“。之后我们会针对相应领域分享实践过程,让大家真正体会摆脱理论的真实场景,培养爱动手编程爱动脑思考的习惯!

507afed08de76cb0c198d8787fee9752.jpeg

扫码关注

计算机视觉研究院

公众号IDComputerVisionGzq

学习群扫码在主页获取加入方式

 往期推荐 

🔗

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

计算机视觉研究院

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值