【AI视野·今日CV 计算机视觉论文速览第200期】Tue, 18 May 2021

本文链接：https://blog.csdn.net/u014636245/article/details/116984182

AI视野·今日CS.CV 计算机视觉论文速览
Tue, 18 May 2021 (showing first 100 of 106 entries)
Totally 100 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Computer Vision Papers

Divide and Contrast: Self-supervised Learning from Uncurated Data
Authors Yonglong Tian, Olivier J. Henaff, Aaron van den Oord
自我监督学习在利用大量未标记的数据中拥有承诺，然而到目前为止，其进步的大部分都仅限于高度策划的预培训数据，如想象成。我们探讨了对比学习从较大，较大的策划图像数据集如YFCC的效果，并且发现产生的表示质量有很大差异。我们假设该策差差距是由于在图像类别的分布中的转变，这是更多样化和重尾的尾尾，导致较少的相关的负样本来学习。我们以一种新的方法，划分和对比DNC来测试这一假设，其在对比的基于对比的努力挖掘之间交替。当在较少的策划数据集上掠夺时，DNC大大提高了自我监督学习对下游任务的性能，同时仍然与策划数据集的最新状态仍然存在竞争力。

The Boombox: Visual Reconstruction from Acoustic Vibrations
Authors Boyuan Chen, Mia Chiquier, Hod Lipson, Carl Vondrick
我们介绍了臂盒，一个使用声学振动的容器来重建其内部内容的图像。当物体与容器相互作用时，它们会产生小的声学振动。精确的振动特性取决于盒子和物体的物理特性。我们演示了如何使用此附带信号来预测视觉结构。在学习之后，即使在框内无法查看摄像机时，我们的方法也仍然有效。虽然我们使用低成本和低功耗的麦克风来检测振动，但我们的结果表明，从多模态数据中学习，使我们能够将廉价的声学传感器转换为丰富的视觉传感器。由于容器的无处不在，我们认为将感知能力集成到它们中将在人类计算机互动和机器人中实现新的应用。我们的项目网站是在

A Light Stage on Every Desk
Authors Soumyadip Sengupta, Brian Curless, Ira Kemelmacher Shlizerman, Steve Seitz
每次坐在电视或显示器前，你的脸都会被时间变化的光线方式积极照亮。本文建议使用此时不同的照明，以与任何新的照明条件进行脸部的综合性焕发。在这样做时，我们从Debevec等人的轻型阶段工作中获取灵感。，他们首先展示了在受控照明环境中捕获的捕获的人的能力。虽然现有的光级需要昂贵的房间标度球形捕获龙门，但在世界上只有一些实验室存在，我们演示了如何从普通电视或台式机监视器获取有用的数据。而不是使用户对快速闪烁的光图案进行不舒服，而是在用户观看YouTube视频或其他标准内容的用户的图像上运行。我们在图像上培训深度网络以及给定用户的监视器模式，并学会在任何目标照明监视器模式下预测该用户的图像。实验评估表明，我们的方法产生了现实的发感结果。视频结果可用

StrobeNet: Category-Level Multiview Reconstruction of Articulated Objects
Authors Ge Zhang, Or Litany, Srinath Sridhar, Leonidas Guibas
我们呈现STROBET，一种用于从一个或多个未铺设的RGB图像的铰接对象的类别水平三维重建方法。重建一般铰接对象类别具有重要的应用，但是由于物体可以具有宽的形状，铰接，外观和拓扑的变化而具有挑战性。我们通过构建类别级别铰接规范化映射观察的概念来解决这一点，这使得能够对应于免费的多视图聚合。我们的终端培训神经网络估计特征丰富的规范3D点云，铰接性接头和来自物体的一个或多个未铺设图像的分段。这些中间估计用于生成最终隐式的3D重建。如果在具有大基线的图像中的图像中的不同铰接中观察到它们，以及重建形状的动画，则方法即使在不同的铰接中观察到的对象。不同对象类别的定量和定性评估表明，我们的方法能够实现高重建精度，特别是随着添加更多视图。

Learning to Automatically Catch Potholes in Worldwide Road Scene Images
Authors J. Javier Yebes, David Montero, Ignacio Arriola
在世界上任何铺设的方式存在的几条道路危险中，坑洼是最烦人的，也涉及更高的维护成本之一。通过技术和研究进展使这些危害的自动检测增加了越来越令人兴趣。我们的研究工作解决了真实世界道路场景图像坑道检测的挑战。主要的新颖性居住在AI中的最新进展中的应用，了解坑洼的视觉外观。我们建立了一个带有坑孔注释的大型图像数据集。他们包含来自世界不同城市的道路场景，采用不同的相机，车辆和在各种环境条件下的观点。然后，我们根据更快的R CNN和SSD深神经网络进行微调四种不同的对象检测模型。我们实现了高平均精度，并在NVIDIA DrivePX2平台上测试了坑洞检测器，GPGPU能力可以嵌入车辆上。此外，它在真正的车辆上部署，以将检测到的坑洼通知给定的IOT平台作为AutoPilot H2020项目的一部分。

Unknown-box Approximation to Improve Optical Character Recognition Performance
Authors Ayantha Randika, Nilanjan Ray, Xiao Xiao, Allegra Latimer
光学字符识别OCR是许多域中的广泛使用的模式识别应用。有几种功能丰富，通用OCR解决方案可供消费者提供，可提供适度的精度水平。但是，具有困难和罕见的文档域可以减少精度。文档图像的预处理可用于最小化域移位的效果。本文介绍了一种用于为给定OCR引擎创建定制预处理器的新方法。与先前的OCR不可知的预处理技术不同，所提出的方法近似于特定OCR引擎训练预处理器模块的梯度。具有两个数据集和两个OCR发动机的实验表明，所提出的预处理器能够通过将像素级操作应用于文档图像来从基线提高OCR高达46的准确性。可以下载所提出的方法和增强公共数据集的实现。

Pseudo-Label Ensemble-based Semi-supervised Learning for Handling Noisy Soiling Segmentation Annotations
Authors Michal Uricar, Ganesh Sistu, Lucie Yahiaoui, Senthil Yogamani
手动注释环绕视图相机的污染是一个非常具有挑战性和昂贵的任务。各种污染类别（水滴或泥浆粒子）的阴影不明确通常导致注释质量的大方差。结果，在这种较差的数据上培训的模型远非最佳。在本文中，我们专注于通过伪标签驱动的集合模型处理这种嘈杂的注释，这使我们能够快速发现问题注释，并且在大多数情况下也足够地固定它们。我们在嘈杂和精致的标签上培训污染的分割模型，并使用精细注释展示了显着的改进。它还示出了可以有效地改进更低的成本粗略注释。

Rethinking the Design Principles of Robust Vision Transformer
Authors Xiaofeng Mao, Gege Qi, Yuefeng Chen, Xiaodan Li, Shaokai Ye, Yuan He, Hui Xue
最近关于视觉变压器Vit的进步表明，基于自我关注的网络，利用长距离依赖性建模能力，超过了大多数愿景任务中的传统卷积神经网络CNN。为了进一步扩展对计算机视觉的适用性，提出了许多改进的变体来通过考虑CNNS，即地点，翻译不变性的优势来重新设计变压器架构，以实现更好的性能。但是，这些方法仅考虑模型的标准精度或计算成本。在本文中，我们根据稳健性重新思考VITS的设计原则。我们发现一些设计组件极大地损害了VIT的鲁棒性和泛化能力，而其他人则是有益的。通过组合强大的设计组件，我们提出了强大的视觉变压器RVT。 RVT是一款新的视觉变压器，具有卓越的性能和强大的鲁棒性。我们进一步提出了两个新的即插即用技巧，称为位置感知注意重新调整和修补明智的增强以培训我们的RVT。关于Imagenet和六个稳健性基准的实验结果表明，与先前的变压器和最先进的CNNS相比，RVT的先进鲁棒性和泛化能力。我们的RVT S还在多个强大排行榜上实现了前1个等级，包括想象成C和Imagenet草图。代码将可用

BigEarthNet-MM: A Large Scale Multi-Modal Multi-Label Benchmark Archive for Remote Sensing Image Classification and Retrieval
Authors Gencer Sumbul, Arne de Wall, Tristan Kreuziger, Filipe Marcelino, Hugo Costa, Pedro Benevides, M rio Caetano, Beg m Demir, Volker Markl
本文介绍了由590,326对的哨声1和Sentinel 2图像补丁组成的多模态大性的Bigearthnet MM基准档案，以支持多模态多标签遥感RS图像检索和分类中的深度学习DL研究。 Bigearthnet MM中的每对贴片都以2018年主题最详细的3级命名法提供了2018年的Corine Land Clc Map提供的多标签。我们的初步研究表明，只要考虑单日大型世纪MM图像，某些CLC类就可以准确描述。在本文中，我们还将另一种类命名法作为原始CLC标签的演变引入，以解决这个问题。这是通过基于在19类的新命名法中的Bigearthnet MM图像的特性来解释和安排CLC级别3命名来实现。在我们的实验中，我们通过考虑若干艺术DL模型的状态来显示大模型多标签图像检索和分类问题的Bigearthnet MM的潜力。我们还证明，从划痕上培训的DL模型在MIGEANET上占据了预先培训的那些，特别是与某些复杂的课程相关，包括农业和其他植被和自然环境。我们将所有数据和DL型号公开提供

Large-Scale Unsupervised Person Re-Identification with Contrastive Learning
Authors Weiquan Huang, Yan Bai, Qiuyu Ren, Xinbo Zhao, Ming Feng, Yin Wang
由于标签难度，现有的公共人员重新识别Reid DataSets在现代的情况下较小。虽然未标记的监控视频丰富，但相对容易获得，但目前尚不清楚如何利用这些镜头来学习有意义的Reid表示。特别是，最现有的无监督和域适应Reid方法仅在其实验中使用公共数据集，并删除标签。此外，由于数据尺寸小，这些方法通常依赖于测试域中的未标记培训数据进行微调，以实现良好的性能。灵感来自最近使用对比学习的大规模自我监督图像分类的进展，我们建议仅从大规模未标记的监视视频中学习Reid代表。从架子行人检测工具辅助，我们在图像和轨迹级施加对比损耗。与使用相机标签自由可用的主要成分分析步骤一起，我们使用大规模未标记的数据集进行评估在不使用测试域中的任何培训数据的无监督方法中显示出远远卓越的性能。此外，准确性提高了数据大小，因此我们的方法具有巨大的潜力，具有更大且多样化的数据集。

Multi-object Tracking with Tracked Object Bounding Box Association
Authors Nanyang Yang, Yi Wang, Lap Pui Chau
Centractrack跟踪算法使用简单的检测模型和单帧空间偏移来实现最简单的检测模型和单帧空间偏移来定位对象并预测其在单个网络中的关联。然而，由于较差的方法，这种联合检测和跟踪方法仍然存在高标识开关。为了减少大量的身份开关并提高跟踪精度，在本文中，我们建议基于当前帧的简单跟踪的对象边界框和基于当前帧的重叠预测到中心到Centractrack算法。具体地，我们提出了在关联步骤中的联盟IOO距离成本矩阵的交叉点，而不是简单的点位移距离。我们在MOT17测试数据集上评估我们所提出的跟踪器，显示我们所提出的方法可以显着减少22.6的标识开关，并与同一轨迹寿命下的原始CenterTrack S相比，在IDF1中获得1.5中的值得注意的改进。源代码已释放

Learning to Relate Depth and Semantics for Unsupervised Domain Adaptation
Authors Suman Saha, Anton Obukhov, Danda Pani Paudel, Menelaos Kanakis, Yuhua Chen, Stamatios Georgoulis, Luc Van Gool
我们介绍了一种用于编码视觉任务关系的方法，以提高无监督域适应UDA设置中的模型性能。语义分割和单眼深度估计被示出为多任务学习设置中的互补任务，它们的关系的正确编码可以进一步提高两个任务的性能。通过这种观察，我们提出了一种新颖的跨任务关系层CTRL，其在语义和深度预测之间编码任务依赖性。要捕获跨任务关系，我们提出了一种神经网络架构，其中包含特定的任务和跨任务细化头。此外，我们提出了一种迭代自学习ISL培训计划，该培训计划利用语义伪标签来为目标域提供额外的监督。我们通过实验地观察两个任务性能的改进，因为这些任务中存在的互补信息更好地捕获。具体而言，我们表明，我们的方法可以提高所有任务的性能，当它们是互补和相互依赖的2，CTRL有助于改善挑战UDA设置3中的语义分割和深度估计任务性能，提出的ISL训练方案进一步提高了语义分割表现。实施是可用的

Multi-modal Visual Place Recognition in Dynamics-Invariant Perception Space
Authors Lin Wu, Teng Wang, Changyin Sun
视觉地位识别是机器人领域的必不可少和挑战性问题之一。在这封信中，我们首次探索使用Dynamics不变空间中的语义和视觉模型的多模态融合来改善动态环境中的地点识别。我们通过首先设计新的深度学习架构来实现静态语义分割并直接从相应的动态图像恢复静态图像来实现这一点。然后，我们创新地利用空间金字塔匹配模型将静态语义分段编码为特征向量。并行地，使用流行的单词模型进行编码静态图像。在上述多模态特征的基础上，我们最终测量查询图像与目标地标之间的相似性，通过其语义和视觉代码的联合相似性。广泛的实验证明了在动态环境中识别识别方法的有效性和稳健性。

STRIDE : Scene Text Recognition In-Device
Authors Rachit S Munjal, Arun D Prabhu, Nikhil Arora, Sukumar Moharana, Gopi Ramena
光学字符识别OCR系统已广泛用于各种应用中，用于从图像中提取语义信息。为了让用户更控制他们的隐私，需要在设备上解决方案。本领域的当前状态太重而且复杂地部署在设备上。我们开发了一个高效的轻量级现场文本识别str系统，其参数只有0.88米，并执行实时文本识别。注意模块倾向于提高STR网络的准确性，但通常是慢性且未优化用于设备推断。因此，我们建议使用卷积注意模块到文本识别网络，该网络旨在通过添加非常最小的计算成本来向LSTM模块提供通道和空间注意信息。它若要提高了ICDAR 13 DataSet的语言准确性差不多2。我们还介绍了一种新颖的方向分类器模块，以支持同时识别水平和垂直文本。所提出的模型在与领先的商业和其他开源OCR发动机相比时，拟议的推测时间和内存占用装置的设备度量和内存占用尺寸。我们在Exynos 990芯片组设备上将系统部署在设备上，推断速度为2.44 ms的推断速度，并在ICDAR 13 DataSet上实现了88.4的准确性。

Temporal Prediction and Evaluation of Brassica Growth in the Field using Conditional Generative Adversarial Networks
Authors Lukas Drees, Laura Verena Junker Frohn, Jana Kierdorf, Ribana Roscher
农民经常评估植物的生长和性能作为决定在现场采取行动的决定，例如施肥，杂草控制或收获。植物生长的预测是一项重大挑战，因为它受到众多和高度可变的环境因素的影响。本文提出了一种新颖的监测方法，包括高通量成像传感器测量及其自动分析，以预测未来的工厂生长。我们的方法S核心是一种基于新型机器学习的基于条件生成对抗网络的生长模型，能够预测个体植物的未来外观。在实验与RGB时间序列的实验室种植拟南芥图像和田间种植的花椰菜植物，我们表明我们的方法会产生现实，可靠，合理的未来增长阶段的图像。通过神经网络的实例分段自动解释产生的图像允许衍生描述植物生长的各种表型特征。

HCRF-Flow: Scene Flow from Point Clouds with Continuous High-order CRFs and Position-aware Flow Embedding
Authors Ruibo Li, Guosheng Lin, Tong He, Fayao Liu, Chunhua Shen
3D点云中的场景流在了解动态环境中起着重要作用。尽管深度神经网络已经进行了重大进展，但由于仅考虑每个点平移运动，忽视局部地区刚性运动的约束，因此性能远非令人满意。为了解决这个问题，我们建议介绍运动一致性以强制邻近点之间的平滑度。此外，还通过为每个局部区域内的所有点共享唯一的刚性运动参数来添加对局部变换的刚性的约束。为此，部署了基于高阶CRFS的关系模块Con HCRF，以探索点的光度明智的平滑度和区域明智的刚性。为了使CRFS具有判别的联合术语，我们还介绍了将一个位置感知流程估计模块纳入CON HCRF。 Flyinghings3d和Kitti的综合实验表明，我们提出的框架HCRF流程实现了最新的性能，并显着优于先前的方法。

Cross-Modality Brain Tumor Segmentation via Bidirectional Global-to-Local Unsupervised Domain Adaptation
Authors Kelei He, Wen Ji, Tao Zhou, Zhuoyuan Li, Jing Huo, Xin Zhang, Yang Gao, Dinggang Shen, Bing Zhang, Junfeng Zhang
来自多模态磁共振的脑肿瘤的精确分割对于脑肿瘤诊断和治疗至关重要。然而，由于不同模式之间的域移位的存在，当在一个模态上训练并在另一个模式上进行训练并且在T1图像上进行训练时，网络的性能显着降低，同时在T2图像上进行T1图像，这在临床应用中通常需要。这也禁止网络在标记数据上培训，然后从不同的域转移到未标记的数据。为了克服这一点，无监督的域适应UDA方法提供有效的解决方案，以减轻标记的源数据和未标记的目标数据之间的域移位。在本文中，我们在UDA方案下提出了一种新颖的双向全球到本地BIGL适应框架。具体地，提出了一种双向图像合成和分割模块，用于使用为两个域生成的中间数据分布分段，其包括到图像转换器的图像和共享加权分段网络。此外，提出了全局到局部一致性学习模块以以集成方式构建鲁棒的表示对齐。在多模态大脑MR基准数据集上进行了广泛的实验表明，所提出的方法优于众所周知的域域改变方法的大幅度，而全面的消融研究验证了每个关键组件的有效性。我们方法的实施代码将以URL发布

EA-Net: Edge-Aware Network for Flow-based Video Frame Interpolation
Authors Bin Zhao, Xuelong Li
视频帧插值可以上升帧速率并增强视频质量。近年来，虽然插值表现取得了巨大的成功，但由于大动作，图像模糊通常发生在物体边界处。这是一个很长的问题，尚未得到解决。在本文中，我们建议通过保留内插帧中的边缘来减少图像模糊并获得清晰的物体形状。为此，所提出的边缘感知网络EA NET将边缘信息集成到帧插值任务中。它遵循结束到端架构，可以分为两个阶段，EMPE导向流量估计和边缘保护帧合成。具体地，在流程估计阶段，开发了三个边缘意识机制以强调估计流程图中的帧边缘，使得边缘映射被视为辅助信息，以提供更多的引导以提高流量精度。在框架合成阶段，流动细化模块被设计成优化流程图，并且在合成中间帧时，将注意模块进行以自适应地聚焦在双向流程图上。此外，采用框架和边缘鉴别器来进行对抗性训练策略，以提高合成框架的现实和清晰度。在三个基准测试中，包括Vimeo90k，UCF101为单帧插值和多帧插值的Adobe240 FPS，已经展示了用于视频帧插值任务的建议EA网的优越性。

Voxel-level Siamese Representation Learning for Abdominal Multi-Organ Segmentation
Authors Chae Eun Lee, Minyoung Chung, Yeong Gil Shin
最近在医学图像分割中的作品已积极探索各种深度学习架构或客观函数，以便由于图像注释有限，从容量数据编码高级功能。然而，大多数现有方法倾向于忽略交叉量全局背景并定义决策空间中的上下文关系。在这项工作中，我们提出了一种新的体素水平暹罗暹罗代表学习方法，用于改善表示空间的腹部多器官分段。所提出的方法强制了表示空间中的体素明智的特征关系，以更全面地利用有限数据集来实现更好的性能。灵感来自最近对比学习的进步，我们抑制了与同一类的Voxel明智关系在不使用阴性样本的情况下投射到同一点。此外，我们介绍了一种多分辨率上下文聚合方法，该方法聚合来自多个隐藏图层的特征，该方法为分段编码全局和本地上下文。我们在多器官数据集上的实验优先于骰子评分系数的现有方法。代表空间的定性可视化表明，改进主要由解散特征空间获得。

AudioVisual Video Summarization
Authors Bin Zhao, Maoguo Gong, Xuelong Li
音频和愿景是视频数据中的两个主要方式。多式化学习，特别是对于视听学习，最近引起了相当大的关注，这可以提高各种计算机视觉任务的性能。然而，在视频摘要中，现有方法只是在忽略音频信息时利用视觉信息。在本文中，我们认为音频模型可以帮助视觉模型来更好地了解视频内容和结构，并进一步受益于总结过程。由此激励，我们建议共同利用视频摘要任务的音频和视觉信息，并开发一个视听反复网络AVRN以实现这一目标。具体地，所提出的AVRN可以分离成三个部分1，通过捕获它们的时间依赖性，使用两个流LSTM来编码音频和视觉特征。 2，视听融合LSTM通过探索它们之间的潜在一致性来熔化两种方式。 3采用自我注意视频编码器来捕获视频中的全局依赖。最后，共同使用融合的视听信息和集成的时间和全局依赖项来预测视频摘要。实际上，在两个基准测试中，EMPH即和TVSUM的实验结果证明了每个部分的有效性，以及AVRN的优越性与仅利用视频摘要的视觉信息的方法相比。

Global Wheat Head Dataset 2021: an update to improve the benchmarking wheat head localization with more diversity
Authors Etienne DAVID, Mario Serouart, Daniel Smith, Simon Madec, Kaaviya Velumani, Shouyang Liu,