ICCV 2021 揭榜!十大方向抢先看!(Transformer/分割/Action/插帧/超分等)

点击下方“AI算法与图像处理”,一起进步!

重磅干货,第一时间送达

作为计算机视觉领域三大会议之一的 ICCV(IEEE International Conference on Computer Vision),一开奖,知乎上便有一大堆小伙伴激烈谈论。

https://www.zhihu.com/question/473907895

很多科研大佬分享自己的努力成果,恭喜论文被成功接受的大佬,同时也感谢他们分享自己的成果。

作为一个围观者,我也想试着贡献自己的一份力。整理这些优秀的成果,将ICCV 2021 的论文和代码,以及相关的报告和解读都进行整理。

地址将放在这里:

https://github.com/DWCTOD/ICCV2021-Papers-with-Code-Demo

整理这些内容,本身是非常耗时费力的,不过还是很有收获的。特别是在日常的工作中,遇到瓶颈,没有思路时,相关工作的最新成果能给我一定的启发,尝试优化当前的工作。因此,做这件事,对我来说非常的有意义,同时我觉得也能帮助到很多人。

论文和代码的主要来源:

1、https://arxiv.org/

2、知乎上大佬的分享

3、https://github.com/ 上搜索

目前已经整理的部分内容,主要包含下面十个方向。

Backbone、Dataset、Visual Transformer、Image Semantic Segmentation、Human Actions、视频插帧/Video Frame Interpolation、超分辨/Super-Resolution、人机交互/Hand-object Interaction、点云/Point Cloud、字体生成/Font Generation、Autonomous-Driving

Backbone

Conformer: Local Features Coupling Global Representations for Visual Recognition

论文/paper:https://arxiv.org/abs/2105.03889

代码/code:https://github.com/pengzhiliang/Conformer

在这篇论文中,提出了一种混合网络结构,称为 Conformer,,以利用卷积运算和自我注意机制来增强表征学习。一致性源于特征耦合单元(FCU),它以交互方式融合不同分辨率下的局部特征和全局表示。一致性采用并行结构,最大限度地保留了局部特征和全局表示。

Reg-IBP: Efficient and Scalable Neural Network Robustness Training via Interval Bound Propagation

论文/paper:None

代码/code:https://github.com/harrywuhust2022/Reg_IBP_ICCV2021

Dataset

FineAction: A Fined Video Dataset for Temporal Action Localization

论文/paper:https://arxiv.org/abs/2105.11107

代码/code: None

这个数据集包含139K个精细动作实例,这些实例被密集地标注在跨越106个动作类别的17K个未经剪辑的视频中。与现有的动作定位数据集相比,FineAction具有更精细的动作类别定义和高质量的注释,以减少边界的不确定性。

MultiSports: A Multi-Person Video Dataset of Spatio-Temporally Localized Sports Actions

论文/paper:https://arxiv.org/abs/2105.07404 

代码/code:https://github.com/MCG-NJU/MultiSports/

Visual Transformer

Tokens-to-Token ViT: Training Vision Transformers from Scratch on ImageNet

论文/paper:https://arxiv.org/abs/2101.11986

代码/code: https://github.com/yitu-opensource/T2T-ViT

提出了一种新的 Tokens-to-Token Vision-Transformer,尺寸与 ResNet50 相当的模型,可以在ImageNet上获取 83.3% Top1 准确率

Visual Transformer with Statistical Test for COVID-19 Classification

论文/paper:https://arxiv.org/abs/2107.05334

代码/code: None

Image Semantic Segmentation

Personalized Image Semantic Segmentation

论文/paper:None

代码/code: https://github.com/zhangyuygss/PIS

实例分割/Instance Segmentation

CDNet: Centripetal Direction Network for Nuclear Instance Segmentation

论文/paper:None

代码/code: https://github.com/2021-ICCV/CDNet

Crossover Learning for Fast Online Video Instance Segmentation

论文/paper:https://arxiv.org/abs/2104.05970

代码/code: https://github.com/hustvl/CrossVIS

对于视频实例分割中的时间信息建模,提出了一种新的交叉学习方案,该方案利用当前帧中的实例特征对其他帧中的同一实例进行像素定位。与以往的方案不同,交叉学习不需要任何额外的网络参数来增强特征。交叉学习结合实例分割损失,实现了高效的跨帧实例-像素关系学习,并在推理过程中带来了无代价的改进。此外,本文还提出了一种全局均衡的实例嵌入分支,使得在线实例关联更加准确、稳定。

Instances as Queries

论文/paper:https://arxiv.org/abs/2105.01928

代码/code: https://github.com/hustvl/QueryInst

Human Actions

FineAction: A Fined Video Dataset for Temporal Action Localization

论文/paper:https://arxiv.org/abs/2105.11107 

代码/code: None

MultiSports: A Multi-Person Video Dataset of Spatio-Temporally Localized Sports Actions

论文/paper:https://arxiv.org/abs/2105.07404 

代码/code:https://github.com/MCG-NJU/MultiSports/

视频插帧/Video Frame Interpolation

XVFI: eXtreme Video Frame Interpolation(Oral)

论文/paper:https://arxiv.org/abs/2103.16206

代码/code: https://github.com/JihyongOh/XVFI

超分辨/Super-Resolution

Overfitting the Data: Compact Neural Video Delivery via Content-aware Feature Modulation

论文/paper:None

代码/code: https://github.com/Anonymous-iccv2021-paper3163/CaFM-Pytorch

人机交互/Hand-object Interaction

CPF: Learning a Contact Potential Field to Model the Hand-object Interaction

论文/paper:https://arxiv.org/abs/2012.00924

代码/code:https://github.com/lixiny/CPF

点云/Point Cloud

MVP Benchmark: Multi-View Partial Point Clouds for Completion and Registration

论文/paper:None 

代码/code:https://github.com/paul007pl/MVP_Benchmark

Walk in the Cloud: Learning Curves for Point Clouds Shape Analysis

论文/paper:https://arxiv.org/abs/2105.01288v1

代码/code:https://github.com/tiangexiang/CurveNet

字体生成/Font Generation

Multiple Heads are Better than One: Few-shot Font Generation with Multiple Localized Experts

论文/paper:https://arxiv.org/abs/2104.00887

代码/code:https://github.com/clovaai/mxfont

Autonomous-Driving

Road-Challenge-Event-Detection-for-Situation-Awareness-in-Autonomous-Driving

论文/paper:None

代码/code:https://github.com/Trevorchenmsu/Road-Challenge-Event-Detection-for-Situation-Awareness-in-Autonomous-Driving

其他

Cross-Camera Convolutional Color Constancy

论文/paper:https://arxiv.org/abs/2011.11164

代码/code:https://github.com/mahmoudnafifi/C5

Learnable Boundary Guided Adversarial Training

论文/paper:https://arxiv.org/abs/2011.11164

代码/code:https://github.com/FPNAS/LBGAT

Prior-Enhanced network with Meta-Prototypes (PEMP)

论文/paper:None

代码/code:https://github.com/PaperSubmitAAAA/ICCV2021-2337

努力分享优质的计算机视觉相关内容,欢迎关注:

个人微信(如果没有备注不拉群!)
请注明:地区+学校/企业+研究方向+昵称



下载1:何恺明顶会分享
在「AI算法与图像处理」公众号后台回复:何恺明,即可下载。总共有6份PDF,涉及 ResNet、Mask RCNN等经典工作的总结分析
下载2:终身受益的编程指南:Google编程风格指南
在「AI算法与图像处理」公众号后台回复:c++,即可下载。历经十年考验,最权威的编程规范!


下载3 CVPR2021


在「AI算法与图像处理」公众号后台回复:CVPR,即可下载1467篇CVPR 2020论文 和 CVPR 2021 最新论文

点亮 ,告诉大家你也在看

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值