HRNet-王井东报告学习

随着CNN网络的提出,CNN在计算机视觉领域里取得极大的成功
图
CNN网络结构从提出到现今,在网络结构上也经历了一些变化,变化主要体现在深度和宽度这两个维度上。
在这里插入图片描述
王井东团队在高分辨率维度上做出改进,既追求在过程中保持高分辨率
在这里插入图片描述
回顾之前的网络结构设计,主要沿袭LeNet的设计思想,既输入一张高分辨图片,然后在高分辨率上做卷积–>中等分辨率上做卷积–>低分辨率上做卷积这么一个串联的过程。
在这里插入图片描述
这种设计思想很不错,在图像分类领域里取得非常好的成果,但在计算机视觉里面,除了图片分类以外,还有目标检测,语言分割,人脸对齐,人体姿势估计等领域,这些领域对空间相关信息比较敏感。
在这里插入图片描述
比如人体姿势估计,我们输入一张图片,然后输出一张由一些关节点连线形成的姿势估计。
在这里插入图片描述
目前主流的一些方法,实际上需要估计一个中间过程,中间会产生一个hidden map。在这个map上,会给每个像素分配一个值,这个值代表这个像素属于哪个keypoint的概率。
在这里插入图片描述
实际上这个过程,需要一个很大的hidden map,所以像这一类任务其实是需要高分辨表征的。
在这里插入图片描述
由于需要高分辨率表征,现在的一些主流方法是先通过一个识别网络(下图的左半部分)得到一个低分辨率的特征图,然后再通过上采样或者其他一些手段再恢复到高分辨率(下图右半部分)。
在这里插入图片描述
这样的网络设计由很多经典的网络结构
在这里插入图片描述
这类网络实际实际上有一个缺点,它们都是从高分辨率到低分辨率再到高分辨率这么一个过程,这个过程中其实会损失很多空间信息。我们的研究与现有方法差别在于,现有方法主要恢复高分辨率,而我们的研究是让它在过程中一直保持高分辨率。
在这里插入图片描述
其实提出的网络结构也比较简单,传统的网络结构是串联方式:在这里插入图片描述
我们提出一个并联的网络结构,把不同分辨率并联起来,并在不同分辨率层之间做交互
在这里插入图片描述
交互方式如下:
在这里插入图片描述
总结一下,我们的改变有三个点:

  1. 以往的网络结构是串联方式,我们把它变成并联。
  2. 以往是先降为低分辨率再恢复高分辨率,我们是一直保持高分辨率
  3. 我们通过不同分辨率之间的交互,提高网络性能
    在这里插入图片描述
    我们的实验网络结构如下
    在这里插入图片描述
    HRnet代码已经开源,并且团队在多个领域内也做了实验,大多取得了非常好的表现,可在官方github主页查询,下图中的二维码表示对于领域的GitHub链接
    在这里插入图片描述
  • 4
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值