无卷积骨干网络:金字塔Transformer,提升目标检测/分割等任务精度(附源代码)...

1a95b8d4ea3b8a8cf928019a117c2b0f.gif

计算机视觉研究院专栏

作者:Edison_G

在将金字塔结构嵌入到Transformer结构用于生成多尺度特征,并最终用于稠密预测任务。

b18537eacec757ded45e67ffab4eecee.png

公众号ID|ComputerVisionGzq

学习群|扫码在主页获取加入方式

关注并星标

从此不迷路

计算机视觉研究院

078706955961a02d7b3c22707c267fe4.gif

4ce8eef118a36f2cfa05f28b7be7dd4e.png

论文地址:https://arxiv.org/pdf/2102.12122.pdf

源代码地址:https://github.com/whai362/PVT

背景

具有自注意力的Transformer引发了自然语言处理领域的革命,最近还激发了Transformer式架构设计的出现,并在众多计算机视觉任务中取得了具有竞争力的结果。

如下是之前我们分享的基于Transformer的目标检测新技术!

链接:ResNet超强变体:京东AI新开源的计算机视觉模块!(附源代码)

09990a6aa0efcbf5933ffd89eb93c70f.png

链接:利用TRansformer进行端到端的目标检测及跟踪(附源代码)

7e885b801b7ca6dfc5f5a9f53d703ea0.png

链接:YOLOS:通过目标检测重新思考Transformer(附源代码)

14eab978d41b2ec3c0363fbb97841356.png

在今天分享的工作中,研究者设计了一个新颖的Transformer模块,针对稠密预测任务的主干网络,利用Transformer架构设计进行了一次创新性的探索,将特征金字塔结构与Transformer进行了一次融合,使其可以更好的输出多尺度特征,进而更方便与其他下游任务相结合。

前言

尽管卷积神经网络 (CNN) 在计算机视觉方面取得了巨大成功,但今天分享的这项工作研究了一种更简单、无卷积的主干网络,可用于许多密集预测任务。

644e64fd7034b01482e4715d9a128ac6.png

目标检测

063c2a56566053bc1444e41d342f8161.png

语义分割

1b5ea57ec79984bcd20c4c4c1cf19189.png

实例分割

与最近提出的专为图像分类设计的Vision Transformer(ViT)不同,研究者引入了Pyramid Vision Transformer(PVT),它克服了将Transformer移植到各种密集预测任务的困难。与当前的技术状态相比,PVT 有几个优点:

  1. 与通常产生低分辨率输出并导致高计算和内存成本的ViT不同,PVT不仅可以在图像的密集分区上进行训练以获得对密集预测很重要的高输出分辨率,而且还使用渐进式收缩金字塔以减少大型特征图的计算

  2. PVT继承了CNN和Transformer的优点,使其成为各种视觉任务的统一主干,无需卷积,可以直接替代CNN主干

  3. 通过大量实验验证了PVT,表明它提高了许多下游任务的性能,包括对象检测、实例和语义分割

例如,在参数数量相当的情况下,PVT+RetinaNet在COCO数据集上实现了40.4 AP,超过ResNet50+RetinNet(36.3 AP)4.1个绝对AP(见下图)。研究者希望PVT可以作为像素级预测的替代和有用的主干,并促进未来的研究。

49361ac0b3cbe2ef39f8788ca775be31.png

基础回顾

CNN Backbones

CNN是视觉识别中深度神经网络的主力军。标准CNN最初是在【Gradient-based learning applied to document recognition】中区分手写数字。该模型包含具有特定感受野的卷积核捕捉有利的视觉环境。为了提供平移等方差,卷积核的权重在整个图像空间中共享。最近,随着计算资源的快速发展(例如,GPU),堆叠卷积块成功在大规模图像分类数据集上训练(例如,ImageNet)已经成为可能。例如,GoogLeNet证明了包含多个内核路径的卷积算子可以实现非常有竞争力的性能。

afdf976a96a68db5d772a24b1c9f6ba8.png

multi-path convolutional block的有效性在Inception系列、ResNeXt、DPN、MixNet和SKNet中得到了进一步验证。此外,ResNet将跳过连接引入到卷积块中,从而可以创建/训练非常深的网络并在计算机视觉领域获得令人印象深刻的结果。DenseNet引入了一个密集连接的拓扑,它将每个卷积块连接到所有先前的块。更多最新进展可以在最近的论文中找到。

a75d5f45fdd9854a832202d870fcb1c3.png

新框架

26cd80605392a4a466b7dd0ee2253185.png

该框架旨在将金字塔结构嵌入到Transformer结构用于生成多尺度特征,并最终用于稠密预测任务。上图给出了所提出的PVT架构示意图,类似与CNN主干结构,PVT同样包含四个阶段用于生成不同尺度的特征,所有阶段具有相类似的结构:Patch Embedding+Transformer Encoder。

在第一个阶段,给定尺寸为H*W*3的输入图像,按照如下流程进行处理:

  • 首先,将其划分为HW/4^2的块,每个块的大小为4*4*3;

  • 然后,将展开后的块送入到线性投影,得到尺寸为HW/4^2 * C1的嵌入块;

  • 其次,将前述嵌入块与位置嵌入信息送入到Transformer的Encoder,其输出将为reshap为H/4 * W/4 * C1。

采用类似的方式,以前一阶段的输出作为输入即可得到特征F2,F3和F4。基于特征金字塔F1、F2、F3、F4,所提方案可以轻易与大部分下游任务(如图像分类、目标检测、语义分割)进行集成。

Feature Pyramid for Transforme

不同于CNN采用stride卷积获得多尺度特征,PVT通过块嵌入按照progressive shrinking策略控制特征的尺度。

37764a6fc6aab65bdf414d49cc302bf1.png

假设第i阶段的块尺寸为Pi,在每个阶段的开始,将输入特征均匀的拆分为Hi-1Wi-1/Pi个块,然后每个块展开并投影到Ci维度的嵌入信息,经过线性投影后,嵌入块的尺寸可以视作Hi-1/Pi * Wi-1/Pi * Ci。通过这种方式就可以灵活的调整每个阶段的特征尺寸,使其可以针对Transformer构建特征金字塔。

Transformer Encoder

对于Transformer  encoder的第i阶段,它具有Li个encoder层,每个encoder层由注意力层与MLP构成。由于所提方法需要处理高分辨率特征,所以提出了一种SRA(spatial-reduction attention)用于替换传统的MHA(multi-head-attention)。

类似于MHA,SRA同样从输入端接收到了Q、K、V作为输入,并输出精炼后特征。SRA与MHA的区别在于:SRA会降低K和V的空间尺度,见下图。

501446296d53b462bca0c725f95b6dca.png

2d76872c41f45248eacbf655ac9b0688.png

Detailed settings of PVT series

实验

be6df44c2f2f999acc2437c4e5a551a6.png

ImageNet数据集上的性能对比,结果见上表。从中可以看到:

  • 相比CNN,在同等参数量与计算约束下,PVT-Small达到20.2%的误差率,优于ResNet50的21.5%;

  • 相比其他Transformer(如ViT、DeiT),所提PVT以更少的计算量取得了相当的性能。

92dd1b334b4f1e299240ed5e29daa63f.png

ab5e897dafec678fe9342794eb99c5d6.png

在语义分割中的性能对比,见上表。可以看到:不同参数配置下,PVT均可取得优于ResNet与ResNeXt的性能。这侧面说明:相比CNN,受益于全局注意力机制,PVT可以提取更好的特征用于语义分割。

32cdea7321f0f7642fdb9324039b16cd.png

9f4663c852bbc5f665ad5b3f8b92b636.png

© THE END 

转载请联系本公众号获得授权

59d6409180ad351c8bbe4ac77618a067.gif

计算机视觉研究院学习群等你加入!

计算机视觉研究院主要涉及深度学习领域,主要致力于人脸检测、人脸识别,多目标检测、目标跟踪、图像分割等研究方向。研究院接下来会不断分享最新的论文算法新框架,我们这次改革不同点就是,我们要着重”研究“。之后我们会针对相应领域分享实践过程,让大家真正体会摆脱理论的真实场景,培养爱动手编程爱动脑思考的习惯!

38aac97d5e51053248bd1952182b9997.png

扫码关注

计算机视觉研究院

公众号ID|ComputerVisionGzq

学习群|扫码在主页获取加入方式

 往期推荐 

🔗

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
### 回答1: 好的,这里是 20 个深度学习模型用于姿态估计的推荐: 1. 2D/3D Convolutional Neural Networks 2. Recurrent Neural Networks 3. Self-supervised Learning 4. Generative Adversarial Networks 5. Attention-based Networks 6. Graph Neural Networks 7. Multi-view Networks 8. Convolutional Pose Machines 9. End-to-end Learning 10. Hybrid Networks 11. Part-based Networks 12. Deformable Part Models 13. Dense Regression Networks 14. Spatial Transformer Networks 15. Adversarial Training 16. Deep Reinforcement Learning 17. Generative Models 18. Transfer Learning 19. Domain Adaptation 20. Few-shot Learning ### 回答2: 姿态估计是计算机视觉领域中的重要任务,它涉及到对人体或者物体在图像或者视频中的关键点进行定位和跟踪。下面是其中一些比较常用的姿态估计深度学习模型: 1. Hourglass:采用自顶向下的多尺度处理方式,通过逐步下采样和上采样来逼近姿态关键点。 2. OpenPose:结合了卷积神经网络和图像处理技术,能够同时估计多个人体关键点。 3. AlphaPose:使用融合的深度回归网络和判别式模型,能够准确预测人体关键点。 4. CPN(Convolutional Pose Machines):通过堆叠多个卷积网络来逐步提炼姿态特征,从而实现关键点的准确定位。 5. Squeeze-and-Excitation Network:采用通道注意力机制,能够自适应地提取姿态特征。 6. HRNet(High-Resolution Network):通过同时利用高分辨率和多尺度特征进行姿态估计,能够提升准确性。 7. PoseNet:借鉴了图像特征和姿态信息之间的关系建立一个深度神经网络模型。 8. SPPE(Simple Pose Part Estimation):通过训练两个子网络,一个进行关键点热图预测,一个用于姿态矩阵估计。 9. ResNet:利用残差连接来构建深度卷积神经网络,适用于姿态估计任务。 10. Stacked Hourglass Attention Network:利用注意力机制来指导姿态关键点的预测。 11. Integral Human Pose Regression:通过估计关键点的密集度矩阵来提高姿态估计的精度。 12. Natural Language Pose Estimation:结合自然语言处理技术,实现对图像或视频中的姿态进行描述和预测。 13. LSTM Pose Machines:利用长短期记忆网络,实现对时间序列中姿态的预测。 14. CPM+OHPM(Orphan Hourglass Pose Machine):结合主干卷积网络和分支网络,能够同时估计多个关键点。 15. DensePose:将姿态估计任务转化为像素到三维点的映射问题,实现密集而准确的姿态估计。 16. PAF(Part Association Fields):通过学习连接人体关键点的概率热图,实现对复杂姿态的估计。 17. Cascaded Pyramid Network:通过级联的金字塔结构,逐步提取姿态特征并进行联合估计。 18. Realtime Multi-Person 2D Pose Estimation:实现实时多人姿态估计,通过基于相机中心和深度优化的关键点匹配算法提高准确性。 19. DeepPose:采用深层卷积神经网络,通过端到端的训练实现姿态估计。 20. Deformable Part Models:结合深度学习和非刚性图像变换技术,实现对非刚性物体(如人体)姿态的估计。 ### 回答3: 推荐以下20个姿态估计深度学习模型: 1. OpenPose:使用卷积神经网络进行多人姿态估计。 2. AlphaPose:基于实时多人姿态估计的开源系统。 3. PoseNet:使用卷积神经网络进行单人姿态估计。 4. HRNet:使用高分辨率表示网络进行姿态估计,具有较高的准确度。 5. SimplePose:使用特征金字塔网络进行单人姿态估计。 6. CPN:使用循环多尺度特征金字塔网络进行多人姿态估计。 7. DensePose:基于Mask R-CNN的姿态估计框架,能够推断出人体的密集表面网格。 8. SPPE:基于Spatial Pyramid and Graph Parsing Engine的姿态估计模型,能够进行多人姿态估计。 9. Stacked Hourglass Network:使用堆叠的Hourglass网络进行姿态估计,具有较高的准确度。 10. Integral Human Pose Regression:使用全卷积网络进行单人姿态估计。 11. HMR:使用循环神经网络进行人体姿态和形状估计。 12. VisualSFM:使用结构光扫描和特征提取进行姿态估计。 13. PoseTrack:用于多人姿态估计和追踪的数据集和基准。 14. RMPE:基于循环网络的多人姿态估计模型,具有较高的鲁棒性。 15. Cascaded Pyramid Network:使用金字塔形状网络进行多人姿态估计的模型。 16. MultiPoseNet:基于多任务学习的多人姿态估计模型。 17. CPN-RNN:在CPN的基础上引入循环神经网络,提高姿态估计的准确度。 18. RMPE+SDN:RMPE在姿态估计任务上引入了空间注意力模块。 19. Convolutional Pose Machines:使用卷积神经网络进行姿态估计的模型。 20. Mask R-CNN:用于实例分割和人体姿态估计的深度学习模型。 以上是一些常见的姿态估计深度学习模型,可以根据具体需求选择适合的模型进行姿态估计。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

计算机视觉研究院

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值