fcn网络训练代码_CVPR 2020 Oral 汇总:论文/代码/解读(更新中)

本文整理了CVPR 2020 Oral论文的亮点,涵盖了PolarMask的实例分割新方法、无偏场景图生成、深度学习中高频率组件的作用等。文章提供了各论文的代码链接和作者解读,深入探讨了计算机视觉领域的最新进展。
摘要由CSDN通过智能技术生成

16dc4d66fb3cbc477ec52bfa50e3f71e.png
极市平台(微信公众号ID:extrememart):专注计算机视觉前沿资讯和技术干货。本文由极市平台首发,转载需获授权。

在2月24日,CVPR 2020 公布接收论文结果公布,从 6656 篇有效投稿中录取了 1470 篇论文,录取率约为 22%。3月13日,CVPR Oral结果公布了。有大佬已经分享了自己的工作,本文整理了已中Oral的论文,持续更新,分享给大家阅读。

相关推荐:

  • 极市平台:大合集!80篇CVPR2020论文分方向整理: 目标检测/图像分割/姿态估计等,附打包下载
  • extreme-assistant/CVPR2020-Paper-Code-Interpretation (Github)
  • CVPR2020 最全整理:论文汇总 / 代码 / 项目 / 论文解读(更新中)【计算机视觉】 (极市社区)

1.PolarMask: Single Shot Instance Segmentation with Polar Representation[1,2]

代码:https://github.com/xieenze/PolarMask

来自作者本人的详细解读:

Johnny ez:(CVPR20'Oral) PolarMask: 一阶段实例分割新思路

PolarMask基于FCOS,把实例分割统一到了FCN的框架下。FCOS本质上是一种FCN的dense prediction的检测框架,可以在性能上不输anchor based的目标检测方法,让行业看到了anchor free方法的潜力。本工作最大的贡献在于:把更复杂的实例分割问题,转化成在网络设计和计算量复杂度上和物体检测一样复杂的任务,把对实例分割的建模变得简单和高效。

两种实例分割的建模方式:

939faa6e47613c34e6f8ddbf3309e849.png

实验结果:

1a0c66134890b8c0ed39e16e776185cf.png

2.Unbiased Scene Graph Generation from Biased Training[3,4]

论文代码:https://github.com/KaihuaTang/Scene-Graph-Benchmark.pytorch

来自作者本人的详细解读:

CVPR2020 | 最新最完善的场景图生成 (SGG)开源框架,集成目前最全metrics,已开源

本文提出了一种基于因果推理的新颖SGG框架。选择2019年热门框架facebookresearch/maskrcnn-benchmark作为基础,在其基础上搭建了Scene-Graph-Benchmark.pytorch。该代码不仅兼容了maskrcnn-benchmark所支持的所有detector模型,且得益于facebookresearch优秀的代码功底,更大大增加了SGG部分的可读性和可操作性。

Recall:

3812b9731490bea39f622f60861a8dc6.png

3. Learning to Shade Hand-drawn Sketches[5]

代码:https://github.com/qyzdao/ShadeSketch

本文提供了一种全自动方法,可以从成对的线描草图和照明方向生成详细而准确的艺术阴影。还提供了一个新的数据集,其中包含了用照明方向标记的成对的线描和阴影的一千个示例。值得一提的是,生成的阴影可以快速传达草绘场景的基础3D结构。因此,本文的方法产生的阴影是可以直接使用的。本文生成的阴影尊重手绘线和基础3D空间,并包含复杂且准确的细节,例如自阴影效果。此外,生成的阴影还包含艺术效果,例如边缘照明或背光产生的光晕,这也是传统3D渲染方法可以实现的。

2f12167ddbd0cdfb8c51702b50383aaf.gif
生成的阴影手绘草图

4. SAM: The Sensitivity of Attribution Methods to Hyperparameters[6]

代码:https://github.com/anguyen8/sam

本文中对现有归因方法的敏感性进行了透彻的实证研究,发现了一个趋势:许多方法对它们共同的超参数的变化高度敏感,例如即使更改随机种子也会产生不同的解释!有趣的是,这种敏感性没有反映在文献中通常报道的数据集的average explanation accuracy scores 中。

e4fe8ce23203a600e03a856ed70fc783.png

5.High Frequency Component Helps Explain the Generalization of Convolutional Neural Networks

本文研究了图像数据的频谱与卷积神经网络(CNN)的泛化之间的关系。我们首先注意到CNN捕获图像高频分量的能力。这些高频分量几乎是人类无法察觉的。因此,观察结果导致了与CNN泛化相关的多种假设,包括对对抗性示例的潜在解释,对CNN鲁棒性和准确性之间的权衡的讨论,以及在理解训练启发式方法方面的一些证据。

500ed3d87fff4ea8c8a5ecd316a8be08.png

6.Reinforced Feature Points: Optimizing Feature Detection and Description for a High-Level Task

本文解决了计算机视觉的核心问题之一:用于图像匹配的2D特征点的检测和描述。长期以来,像SIFT这样的算法在准确性和效率上都是无与伦比的。近年来,出现了使用神经网络来实现检测和描述学习型特征检测器,但用于训练这些网络low-level matching scores的改进并不一定会在高级视觉任务中有着更好的性能。本文提出了一种新的训练方法,该方法将特征检测器嵌入完整的视觉管道中,并以端到端的方式训练可学习的参数。并利用这一方法解决了一对图像之间的姿态估计任务。该训练方法几乎没有学习任务的限制,并且适用于预测key point heat maps以及descriptors for key point locations。

7.AdderNet: Do We Really Need Multiplications in Deep Learning?

代码:https://github.com/huawei-noah/AdderNet

论文解读:CVPR2020 Oral | 华为开源只有加法的神经网络,实习生领衔,效果不输传统CNN

没有乘法的神经网络,你敢想象吗?去年年底,来自北京大学、华为诺亚方舟实验室、鹏城实验室的研究人员将这一想法付诸实践,他们提出了一种只用加法的神经网络AdderNet(加法器网络)。一作是华为诺亚方舟实习生,正在北大读博三。

在加法器网络的新定义下,AdderNet的特征可视化以及特征向量的空间分布也和CNN有很大的不同。

00427dbfab3c367c81a22dad1cc2a5e1.png

在CIFAR-10的图像分类任务中,AdderNet相比当初Bengio等人提出的加法神经网络BNN性能有大幅提升,并且已经接近了传统CNN的结果。在ImageNet的图像分类任务中,AdderNets可以达到74.9%的top-1正确率和91.7%的top-5正确率,与CNN接近。

8.BBN: Bilateral-Branch Network with Cumulative Learning for Long-Tailed Visual Recognition

代码:Megvii-Nanjing/BBN

旷视 魏秀参 团队的paper,主要关注视觉识别任务中普遍存在的长尾问题

详细的可以看作者本人的解读: https://www.zhihu.com/question/379109637/answer/1080076071

9.Cascade Cost Volume for High-Resolution Multi-View Stereo and Stereo Matching

代码:alibaba/cascade-stereo

主要解决问题:目前基于Deep learning的方法构建的3D Cost Volume需要3D卷积来做cost aggregation消耗显存非常大,为了节省内存一般最终输出的depth/disparity map限制为输入的1/4。

详细的可以看作者本人的解读: https://www.zhihu.com/question/379109637/answer/1083127862

10.RandLA-Net: Efficient Semantic Segmentation of Large-Scale Point Clouds

代码:QingyongHu/RandLA-Net

提出了一种针对大规模三维点云场景的轻量级、高效点云语义分割算法RandLA-Net。通过对现有的采样策略进行全面综合的分析,我们采用简单高效的随机采样来显著地减少计算量以及内存消耗,并且引入了局部特征聚合模块持续地增大每个点有效的感受野,保留大多数有效的信息。在Semantic3D,S3DIS以及SemanticKITTI等多个数据集上都取得了不错的效果,而且相比于现有的处理大规模点云的算法SPG在速度上有近200倍的提升。

详细的可以看作者本人的解读:

Qingyong Hu:[CVPR 2020 Oral] RandLA-Net:大场景三维点云语义分割新框架(已开源)

11.Multi-task Collaborative Network for Joint Referring Expression Comprehension and Segmentation

代码:https://github.com/luogen1996/MCN

本文首次提出单阶段的协同学习网络来同时解决指向性目标检测(Referring Expression Comprehension)和指向性目标分割(Referring Expression Segmentation)两个任务,而且在性能超越了 SOTAs 的条件下,达到了实时检测和协同检测的目的。

2e83b5d0dcc5935fc95819d7a618b68c.png

论文一作罗根对该论文做出的解读:CVPR 2020 Oral |目标检测+分割均实现SOTA!厦大提出协同学习网络

12.Circle Loss: A Unified Perspective of Pair Similarity Optimization

解读:CVPR 2020 Oral | 人脸识别Loss新突破: 旷视提出Circle Loss,革新深度特征学习范式

本文提出用于深度特征学习的Circle Loss,从相似性对优化角度正式统一了两种基本学习范式(分类学习和样本对学习)下的损失函数。通过进一步泛化,Circle Loss 获得了更灵活的优化途径及更明确的收敛目标,从而提高所学特征的鉴别能力。Circle Loss使用同一个公式,在人脸上,采用分类模式,Circle Loss 超过了该领域先前的最好方法(如AM-Softmax,ArcFace);在细粒度检索中,采用样本对学习方式,Circle Loss 又媲美了该领域先前的最高方法(如Multi-Simi)

9c633c503c3fe026be8f405cf0072603.png
降低 (s_n - s_p) 的常用优化方法与新提出的降低 (α_ns_n − α_ps_p) 的优化方法之间的对比

13.Use the Force, Luke! Learning to Predict Physical Forces by Simulating Effects

摘要:本文着力于解决从人类与物体互动的视频中推断接触点和物理力的问题。本文通过使用物理模拟器来进行监督,从而避免了为物理力取得真实标签这一主要挑战。本文使用一个模拟器来预测效果,并强制估计的力必须导致产生与视频中描述的效果相同的效果。

14.MaskFlownet: Asymmetric Feature Matching with Learnable Occlusion Mask

代码:https://github.com/microsoft/MaskFlownet

摘要:特征warping 是光流估计的核心技术之一。然而,warping 过程中被遮挡区域引起的模糊性是一个尚未解决的主要问题。本文提出了一种非对称遮挡感知的特征匹配模块,该模块可以学习一种粗糙遮挡掩模,该掩模在特征warping 后立即过滤无用(遮挡)区域,而不需要任何显式监督。该模块可以很容易地集成到端到端网络架构中,在引入微不足道的计算成本的同时。目前MaskFlownet已经超过了MPI Sintel、KITTI 2012和2015基准上所有已发布的光流方法。

15.Multi-Modal Domain Adaptation for Fine-Grained Action Recognition(姿态估计/动作识别)

16.Multi-task Collaborative Network for Joint Referring Expression Comprehension and Segmentation(目标检测)

17.Deep Spatial Gradient and Temporal Depth Learning for Face Anti-spoofing(人脸识别)

代码:https://github.com/clks-wzz/FAS-SGTD

18.Learning Meta Face Recognition in Unseen Domains

代码:https://github.com/cleardusk/MFR

19.Cascade Cost Volume for High-Resolution Multi-View Stereo and Stereo Matching(三维重建)

20.BBN: Bilateral-Branch Network with Cumulative Learning for Long-Tailed Visual Recognition(视觉常识)

代码:https://github.com/Megvii-Nanjing/BBN

21.High Frequency Component Helps Explain the Generalization of Convolutional Neural Networks(视觉常识)

22. SAM: The Sensitivity of Attribution Methods to Hyperparameters(视觉常识)

代码:https://github.com/anguyen8/sam

23.Towards Backward-Compatible Representation Learning(视觉常识)

24.MaskFlownet: Asymmetric Feature Matching with Learnable Occlusion Mask(视频分析-光流估计)

代码:https://github.com/microsoft/MaskFlownet

25. Use the Force, Luke! Learning to Predict Physical Forces by Simulating Effects

代码:https://ehsanik.github.io/forcecvpr2020

参考文献

[1] https://zhuanlan.zhihu.com/p/84890413

[2] PolarMask: Single Shot Instance Segmentation with Polar Representation

[3] https://zhuanlan.zhihu.com/p/109657521

[4] Unbiased Scene Graph Generation from Biased Training

[5] Learning to Shade Hand-drawn Sketches

[6] http://s.anhnguyen.me/sam_cvpr2020.pdf

[7] High Frequency Component Helps Explain the Generalization of Convolutional Neural Networks

[7] Reinforced Feature Points: Optimizing Feature Detection and Description for a High-Level Task

[8] AdderNet: Do We Really Need Multiplications in Deep Learning?

[9] https://www.zhihu.com/question/379109637/answer/1080076071

[10] https://www.zhihu.com/question/379109637/answer/1083127862

[11] Qingyong Hu:[CVPR 2020 Oral] RandLA-Net:大场景三维点云语义分割新框架(已开源)

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值