两个ICCV 2021上的涨点神器！

最新推荐文章于 2024-05-26 11:32:50 发布

Amusi（CVer）

最新推荐文章于 2024-05-26 11:32:50 发布

阅读量4.1k

点赞数

文章标签：计算机视觉人工智能机器学习深度学习 python

本文链接：https://blog.csdn.net/amusi1994/article/details/120052414

版权

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达

‍

最近一直在整理ICCV 2021的论文和开源项目合集，感兴趣的同学可以打开下面链接：

https://github.com/amusi/ICCV2021-Papers-with-Code

聊到"涨点神器"，其实蛮多人有意见，经常吐槽：这个根本没法用！在我的任务上不work！这不就是魔改xxx么？这种论文都能中？怎么不引用xxx？这个模块看起来好熟悉...

其实这些蛮难普适，哪怕是像Backbone、优化器、激活函数这些通用组件，都无法在任何任务有效或者零成本涨点。这里分享的"涨点神器"，尽可能是适用于主流CV任务（如分类、检测和分割）。而且哪怕不work，其实一些模块结构的设计思路对一些同学也会有所启发（手动狗头）。

FaPN：用于密集图像预测的特征对齐金字塔网络

FaPN: Feature-aligned Pyramid Network for Dense Image Prediction

单位：南方科技大学

论文：https://arxiv.org/abs/2108.07058

代码链接（刚刚开源）：

https://github.com/EMI-Group/FaPN

简介：本文提出了特征对齐金字塔网络：FaPN（Feature-aligned Pyramid Network），这是一种简单而有效的自上而下的金字塔结构，可生成用于密集图像预测的多尺度特征，可助力检测、分割任务涨点！如将其搭配MaskFormer，在ADE20K上高达56.7 mIoU！

深度神经网络的最新进展在密集图像预测方面取得了显著的飞跃。然而，为了简单起见，大多数现有方法都忽略了特征对齐的问题。上采样和局部特征之间的直接像素添加会导致特征图具有未对齐的上下文，进而转化为预测中的错误分类，尤其是在对象边界上。

在本文中，我们提出了一个特征对齐模块（FAM），该模块学习像素的变换偏移以上下文对齐上采样的high-level特征；

另一个特征选择模块（FSM）强调具有丰富空间细节的low-level特征。

然后，我们将这两个模块集成到一个自上而下的金字塔架构中，并展示了特征对齐的金字塔网络（FaPN）。

实验结果

对四个密集预测任务（目标检测、语义分割、实例分割和全景分割）和四个数据集的广泛实验评估证明了 FaPN 的功效，与 Faster/Mask R-CNN 配对时，AP/mIoU 比 FPN 总体提高了 1.2 - 2.6 个点。

特别是，当集成到 Mask-Former 中时，我们的 FaPN 在 ADE20K 上实现了 56.7% mIoU 的最新技术。

北大&字节开源SNL：统一神经网络的Nonlocal Blocks

Unifying Nonlocal Blocks for Neural Networks

单位：北大, 字节AI Lab, 北邮, 国科大, 港科大

论文：https://arxiv.org/abs/2108.02451

代码链接（刚刚开源）：

https://github.com/zh460045050/SNL_ICCV2021

简介：本文提出nonlocal-based block的新视角，并提出SNL：Spectral Nonlocal Block，当其插入深度神经网络时，该模块可以更稳健和灵活地捕获远程依赖关系。实验证明在图像分类、行为识别、语义分割和行人重识别任务上的性能显著提升，涨点显著！

基于nonlocal的blocks设计用于捕获计算机视觉任务中的远程时空依赖性。尽管表现出出色的性能，但它们仍然缺乏对图像或视频元素之间丰富的结构化信息进行编码的机制。

在本文中，为了从理论上分析这些nonlocal-based blocks的属性，我们提供了一个新的视角来解释它们，我们将它们视为在全连接图上生成的一组 graph filters。具体地，在选择Chebyshev graph filter时，可以导出统一的formulation，用于解释和分析现有的nonlocal-based blocks（例如，nonlocal block, nonlocal stage, double attention block）。

此外，通过考虑谱的特性，我们提出了一种高效且稳健的spectral nonlocal block，与现有的 nonlocal blocks.相比，当插入深度神经网络时，该模块可以更稳健和灵活地捕获远程依赖关系。

实验结果

实验结果证明了我们的方法在图像分类、行为识别、语义分割和行人重识别任务上的明显改进和实际适用性。

图像分类上的性能表现：

行为识别上的性能表现：

语义分割上的性能表现：

两个涨点神器论文和代码下载

后台回复：涨点神器，即可下载上述论文和代码

后台回复：CVPR2021，即可下载CVPR 2021论文和代码开源的论文合集

后台回复：ICCV2021，即可下载ICCV 2021论文和代码开源的论文合集

后台回复：Transformer综述，即可下载最新的两篇Transformer综述PDF

重磅！Transformer交流群成立

扫码添加CVer助手，可申请加入CVer-Transformer微信交流群，方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch和TensorFlow等群。

一定要备注：研究方向+地点+学校/公司+昵称（如Transformer+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群

▲长按加小助手微信，进交流群

▲点击上方卡片，关注CVer公众号

整理不易，请点赞和在看

Amusi（CVer）

关注

0
点赞
踩
46

收藏

觉得还不错? 一键收藏
0
评论
两个ICCV 2021上的涨点神器！

点击下方卡片，关注“CVer”公众号AI/CV重磅干货，第一时间送达‍最近一直在整理ICCV 2021的论文和开源项目合集，感兴趣的同学可以打开下面链接：https://github.co...
复制链接

扫一扫