【AI视野·今日CV 计算机视觉论文速览第219期】Tue, 15 Jun 2021

最新推荐文章于 2022-07-05 12:08:56 发布

hitrjj

最新推荐文章于 2022-07-05 12:08:56 发布

阅读量1.8k

点赞数

分类专栏：计算机视觉 Transformer Papers 文章标签： transformer 深度学习计算机视觉 CV 顶会cvpr

本文链接：https://blog.csdn.net/u014636245/article/details/118032810

版权

Papers 同时被 3 个专栏收录

458 篇文章 105 订阅

订阅专栏

计算机视觉

379 篇文章 72 订阅

订阅专栏

Transformer

36 篇文章 9 订阅

订阅专栏

AI视野·今日CS.CV 计算机视觉论文速览
Tue, 15 Jun 2021 (showing first 100 of 128 entries)
Totally 100 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Computer Vision Papers

Improved Transformer for High-Resolution GANs
Authors Long Zhao, Zizhao Zhang, Ting Chen, Dimitris N. Metaxas, Han Zhang
基于关注的模型，由变压器举例说明，可以有效地模拟长距离依赖性，而是遭受自我注意操作的二次复杂性，使得基于生成的对抗网络GAN的高分辨率图像生成难以采用它们难以采用。在本文中，我们向变形金介绍了两个关键成分来解决这一挑战。首先，在生成过程的低分辨率阶段，用所提出的多轴堵塞自我关注，替换标准的全球自我关注，这允许有效地混合本地和全球关注。其次，在高分辨率阶段，我们只会让自我关注，同时只保持多层的感知者让人想起隐式神经功能。为了进一步提高性能，我们基于跨关注引入额外的自我调制组件。结果模型表示为命中，相对于图像尺寸具有线性计算复杂度，从而直接缩放到合成高清晰度图像。我们在实验中展示了所提出的命中，达到了31.87和2.95的无条件想象128和FFHQ 256次256的最先进的FID分数，具有合理的吞吐量。我们认为，拟议的击中是GAN中的发电机的重要里程碑，完全没有卷积。

Toward Automatic Interpretation of 3D Plots
Authors Laura E. Brandt, William T. Freeman
本文探讨了教导机器如何反向工程曲线标记曲面的挑战，用于表示两个可变功能的3D表面图中的数据。这些在科学和经济出版物中是常见的，人类通常可以轻松地解释它们，从简单的曲线集合中迅速收集一般形状和曲率信息。虽然机器没有这种可视化直觉，但它们确实有可能准确提取引导表面施工的更详细的定量数据。我们通过合成SuperforgID的3D网格标记的表面的新数据集并训练深神经网络来估计它们的形状来接近这个问题。我们的算法成功恢复了从具有轴和遮蔽信息的合成3D表面图中恢复的形状信息，并以各种网格类型呈现，并从一系列视点查看。

Delving Deep into the Generalization of Vision Transformers under Distribution Shifts
Authors Chongzhi Zhang, Mingyuan Zhang, Shanghang Zhang, Daisheng Jin, Qiang Zhou, Zhongang Cai, Haiyu Zhao, Shuai Yi, Xianglong Liu, Ziwei Liu
最近，Vision变形金刚vits在各种视觉任务上取得了令人印象深刻的结果。然而，他们很少理解他们在不同分布班次下的泛化能力。在这项工作中，我们对vits的分销概括提供了全面的研究。为了支持系统的调查，我们首先通过将它们分为五个概念团体损坏转变，背景换档，纹理换档，破坏偏移和样式转变来提出分销转移的分类。然后我们在不同的分布群中对VIT变体进行广泛的评估，并将其泛化能力与CNN进行比较。获得了几个重要的观察结果1 VITS在多个分布班次下比CNN更好地概括。在相同或更少的参数中，VITS在大多数分布班次下的前1个精度超过5个以上的CNN。 2更大的风格逐渐缩小分配和分配性能差距。为了进一步改善VIT的概括，我们通过整合对抗学习，信息理论和自我监督学习来设计泛化增强的愿景。通过调查三种类型的概括VIT，我们观察其梯度灵敏度并设计更平滑的学习策略，以实现稳定的培训过程。通过修改的培训计划，我们从香草vits从4岁以上达到分发数据的性能的改进。我们全面比较了三个泛化增强VITS，对应的CNNS，并观察到增强型模型，更大的VITS仍然有利于出于分发概括。 2泛化增强的VIT比相应的CNN更敏感。我们希望我们的综合研究可以阐明更广泛的学习架构的设计。

Magic Layouts: Structural Prior for Component Detection in User Interface Designs
Authors Dipu Manandhar, Hailin Jin, John Collomosse
我们呈现Magic布局一种解析屏幕截图或手绘用户界面UI布局的方法。我们的核心贡献是扩展现有探测器以利用UI设计之前利用学习结构，从而启用UI组件按钮，文本框和类似的鲁棒检测。具体而言，我们在移动UI布局之前学习，编码不同UI组件之间的公共空间Co发生关系。调节区域使用此前面的提案对手绘UIS和应用程序屏幕截图的UI布局解析的性能增益，我们在上下文中展示了用于快速获取用户体验UX设计的数字原型的交互式应用程序。

Video-Based Inpatient Fall Risk Assessment: A Case Study
Authors Ziqing Wang, Mohammad Ali Armin, Simon Denman, Lars Petersson, David Ahmedt Aristizabal
住院病人是医院和医疗保健设施的严重安全问题。患者监测视频分析的最新进展提供了一种非侵入式途径，通过持续的活动监测来降低这种风险。然而，在床上风险评估系统在文献中受到不太关注。大多数先前的研究都集中在秋季事件检测中，并且不考虑可能表明迫在眉睫的住院病的情况。在这里，我们提出了一种基于视频的系统，可以监控患者下降的风险，并在不安全行为的警报人员中有助于防止在发生之前跌倒。我们提出了一种方法，即利用人类定位和骨架姿势估计的最近进步，以从模拟环境中记录的视频帧提取空间特征。我们证明可以有效地认识到身体职位并为秋季风险评估提供有用的证据。这项工作突出了基于视频的模型来分析感兴趣的行为的好处，并展示了这种系统如何能够为医疗保健专业人员提供足够的交付时间来响应和解决患者需求，这对于发展秋季干预计划的发展是必要的。

An optimized Capsule-LSTM model for facial expression recognition with video sequences
Authors Siwei Liu 1 , Yuanpeng Long 2 , Gao Xu 1 , Lijia Yang 1 , Shimei Xu 3 , Xiaoming Yao 1,3 , Kunxian Shu 1 1 School of Computer Science and Technology, Chongqing Key Laboratory on Big Data for Bio Intelligence, Chongqing University of Posts and Telecommunications, Chongqing, China, 2 School of Economic Information Engineering, Southwestern University of Finance and Economics, Chengdu, China, 3 51yunjian.com, Hetie International Square, Chengdu, Sichuan, China
为了克服在面部表情识别过程中卷积神经网络的局限性，提出了一种基于视频帧序列的面部表情识别模型胶囊LSTM。该模型由三个网络组成，包括胶囊编码器，胶囊解码器和LSTM网络组成。胶囊编码器提取视频帧中面部表情的空间信息。胶囊解码器重建图像以优化网络。 LSTM提取视频帧之间的时间信息，并分析帧之间表达式变化的差异。 MMI数据集的实验结果表明，本文提出的胶囊LSTM模型可以有效地提高视频表达式识别的准确性。

BPLF: A Bi-Parallel Linear Flow Model for Facial Expression Generation from Emotion Set Images
Authors Gao Xu 1 , Yuanpeng Long 2 , Siwei Liu 1 , Lijia Yang 1 , Shimei Xu 3 , Xiaoming Yao 1,3 , Kunxian Shu 1 1 School of Computer Science and Technology, Chongqing Key Laboratory on Big Data for Bio Intelligence, Chongqing University of Posts and Telecommunications, Chongqing, China, 2 School of Economic Information Engineering, Southwestern University of Finance and Economics, Chengdu, China 3 51yunjian.com, Hetie International Square, Chengdu, Sichuan, China
流动的生成模型是深度学习生成模型，其通过明确学习数据分布来获得生成数据的能力。从理论上，它恢复数据的能力比其他生成模型强。但是，其实现具有许多限制，包括有限的模型设计，模型参数太多和繁琐的计算。在本文中，构建了一种来自情感集图像的面部情感的BI平行线性流动模型，并在模型的表达能力和训练中的收敛速度方面进行了一系列改进。该模型主要由叠加的若干耦合层组成，以形成多尺度结构，其中每个耦合层包含1 1个可逆卷积和线性操作模块。此外，本文对面部情感图像的当前公共数据集进行了分类，使新的情感数据进行了新的情感数据，并通过此数据集验证了模型。实验结果表明，在传统的卷积神经网络下，3层3 3卷积核更有利于提取面部图像的特征。主成分分解的引入可以提高模型的收敛速度。

Neural Network Structure Design based on N-Gauss Activation Function
Authors Xiangri Lu, Hongbin Ma, Jingcheng Zhang
最近的工作表明，卷积神经网络的激活功能可以满足Lipschitz条件，然后可以根据数据集的比例来构造相应的卷积神经网络结构，并且数据集可以更深入地培训，更准确地培训更有效地。在本文中，我们已接受实验结果，并引入了核心块，N高斯，N高斯和闪频Conv1，Conv2，FC1神经网络结构设计，分别培训Mnist，CiFar10和CiFAR100。实验表明，N Gauss充分发挥激活功能的非线性建模的主要作用，使得深度卷积神经网络具有分层非线性映射学习能力。同时，N简单一维信道小数据集的N高斯的训练能力相当于relu和嗖嗖的性能。

Direct Servo Control from In-Sensor CNN Inference with A Pixel Processor Array
Authors Yanan Liu, Jianing Chen, Laurie Bose, Piotr Dudek, Walterio Mayol Cuevas
这项工作通过Scamp 5像素处理器阵列PPA演示了使用高速CNN推断的直接视觉感觉电动机控制。我们展示了PPA如何能够有效地弥合感知和行动之间的差距。二元卷积神经网络CNN用于经典岩石，纸张，剪刀分类问题超过8000FPS。根据CNN的分类结果，控制指令直接从PPA发送到伺服电机，而没有任何其他中间硬件。

Artificial Perceptual Learning: Image Categorization with Weak Supervision
Authors Chengliang Tang, Mar a Uriarte, Helen Jin, Douglas C. Morton, Tian Zheng
机器学习在具有大型良好注释的训练样本的监督学习任务方面取得了巨大成功。然而，在许多实际情况下，由于昂贵且劳动密集型的标签过程，培训数据提供的这种强度和高质量的监督不可用。在计算机视觉中自动识别和识别大量未标记图像中的对象类别，仍然是一个重要的，但未解决的挑战。在本文中，我们提出了一种新颖的机器学习框架，人工感知学习APL，解决弱监督图像分类的问题。所提出的APL框架是使用最新的机器学习算法作为构建模块构建的APL框架，以模仿称为婴儿分类的认知开发过程。我们通过在波多黎各的El Yunque Rainforest的8,000公顷的区域，通过实施树木的广泛领域细粒度生态调查，制定和说明拟议的框架。它基于树冠的未标记的高分辨率空中图像。可错位的地面基于地面的标签少于这些图像中的少于1个，这是该学习框架的唯一弱势监督。我们使用具有高质量人类注释的一小组图像验证拟议的框架，并表明所提出的框架达到人类程度认知经济。

Transparent Model of Unabridged Data (TMUD)
Authors Jie Xu, Min Ding
计算能力和算法中的最新进步使得未制作的数据例如是在某些型号中用作输入的原始图像或音频，例如，深入学习。然而，这种模型的黑匣子性质降低了营销学者通过的可能性。我们的分析范例是，未制造的数据TMUD的透明模型，使研究人员能够通过结合EX Ante Filtration模块和前实验模块来研究这种黑盒模型的内部工作。我们通过调查面部部件和性二态性在脸上的角度来证明TMUD，这对四个营销环境具有影响的影响，对可平行性，可信度和能力的广告看法，品牌看法是对脸部代表一个品牌的典型客户，类别看起来是否代表了一个类别的典型客户，以及客户角色看起来是对脸部是否代表品牌客户段的角色。我们的结果揭示了新的和有用的结果，以富有面对脸部感知的现有文献，其中大部分是基于伸缩属性，例如，嘴宽。 TMUD具有很大的潜力，可以成为生成理论洞察力的有用范式，并可能鼓励更多营销研究人员和从业者使用未制造的数据。

A Multi-Branch Hybrid Transformer Networkfor Corneal Endothelial Cell Segmentation
Authors Yinglin Zhang, Risa Higashita, Huazhu Fu, Yanwu Xu, Yang Zhang, Haofeng Liu, Jian Zhang, Jiang Liu
角膜内皮细胞分割起到重要作用，调查临床指标，例如细胞密度，变异系数和六偏见。然而，角膜内皮的不均匀反射和受试者的震颤和运动导致阴部中的模糊细胞边缘，这难以段，并且需要更多细节和上下环境信息来释放这个问题。由于本地卷积和连续下采样的接收领域有限，现有的深度学习分割方法无法充分利用全球背景和许多细节。本文提出了一种基于变压器和身体边缘Branch的多分支混合反式网络MBT网。首先，我们使用卷积块专注于本地TEX TURE特征提取，并通过变压器和剩余连接建立长距离依赖性的空间，通道和层。此外，我们使用身体边缘分支来促进局部一致性并提供设备信息。在自收集数据集TM EM3000和公共Alisarine数据集上，与其他状态的艺术SOTA方法相比，所提出的方法实现了改进。

Long Term Object Detection and Tracking in Collaborative Learning Environments
Authors Sravani Teeparthi
视频中的人类活动认可是一个具有挑战性的问题，这已经吸引了很多兴趣，特别是当目标需要分析大型视频数据库时。 AOLME项目为中学生提供了一个协作学习环境，通过处理数字图像和视频来探索数学，计算机科学和工程。作为该项目的一部分，收集了大约2200小时的视频数据进行分析。由于数据集的大小，很难手动分析数据集的所有视频。因此，对可以检测感兴趣的活动的可靠计算机的方法庞大。我的论文专注于在长视频中检测和跟踪物体的准确方法的开发。所有型号都在7种不同的会话中的视频验证，从45分钟到90分钟。键盘检测器实现了一个非常高的平均精度AP，92的0.5个交叉口。此外，开发了一种具有快速跟踪器KCF 159FP的检测器的组合系统，使得该算法在不牺牲精度的情况下显着更快地运行。对于23分钟的视频，具有分辨率858x480 30 fps，单独的检测在实时的4.7倍下运行，并且组合算法分别在21x的实时运行，分别为0.84和0.82的平均IOU。手检测器在0.5 iou时实现了72的平均精度ap。使用最佳数据增强参数，检测结果得到改善为81。手检测器以4.7x的实时运行，在0.5 iou的AP中运行。手动检测方法与准确提案生成的预测和聚类集成。这种方法将假阳性手检测的数量减少到80。整体手检测系统在4倍的实时运行，捕获当前协作组的所有活动区域。

Dataset for eye-tracking tasks
Authors R. Ildar
近年来，许多不同的深神经网络是开发的，但由于深网络中的大量层，他们的训练需要很长时间和大量数据集。今天是使用训练有素的深神经网络的热门任务，即使对于不需要这种深网络的简单，也是如此。众所周知的深网络，例如YOLOV3，SSD等旨在用于跟踪和监控各种对象，因此它们的权重差，并且特定任务的总体精度低。眼睛跟踪任务需要在给定区域中只检测一个对象一个虹膜。因此，它是仅用于此任务的神经网络是合乎逻辑的。但问题是缺乏适当的数据集来训练模型。在手稿中，我们介绍了一个适用于培训用于眼睛跟踪任务的卷积神经网络的定制模型的数据集。使用数据集数据，每个用户可以独立地预先训练用于眼睛跟踪任务的卷积神经网络模型。该数据集包含注释的10,000眼图像，其延伸为416×416像素。具有注释信息的表显示每个图像的眼睛的坐标和半径。该稿件可以被视为准备眼睛跟踪设备数据集的指南

PC-DAN: Point Cloud based Deep Affinity Network for 3D Multi-Object Tracking (Accepted as an extended abstract in JRDB-ACT Workshop at CVPR21)
Authors Aakash Kumar, Jyoti Kini, Mubarak Shah, Ajmal Mian
最近，LIDAR光检测和测距传感器技术的范围遍布众多领域。它普遍用来将地形和导航信息映射到可靠的3D点云数据，潜在地彻底改变自动车辆和辅助机器人行业。点云是在3D坐标中的空间数据的密集汇编。它在模拟复杂的现实世界场景中起着重要作用，因为它保留了结构信息并避免了与图像数据不同的透视失真，这是2D平面上的3D结构的投影。为了利用LIDAR数据的内在能力，我们提出了一种基于PointNet的3D多目标跟踪MOT的方法。

Attention mechanisms and deep learning for machine vision: A survey of the state of the art
Authors Abdul Mueed Hafiz, Shabir Ahmad Parah, Rouf Ul Alam Bhat
随着艺术状态的出现，自然启发了纯粹的关注的模型，即变形金刚，他们在自然语言处理NLP中的成功，他们对机器视觉MV任务的延伸是不可避免的并且感觉到。随后，介绍了视觉变压器VIT，这对基于深度学习的机器视觉技术产生了挑战。然而，基于纯粹的关注的模型架构，如变形金刚需要巨大的数据，大型培训时间和大型计算资源。一些最近的作品表明，这两个各种各样的字段的组合可以证明构建具有这些领域的优势的系统。因此，介绍了这种现有技术的调查纸，其中希望有助于读者获得有关这种有趣和潜在的研究区的有用信息。给出了对关注机制的温和介绍，然后讨论了基于深入的深度建筑。随后，讨论了对机器视觉MV的关注机制和深度学习的主要类别。之后，讨论了本文范围内的主要算法，问题和趋势。

PolarStream: Streaming Lidar Object Detection and Segmentation with Polar Pillars
Authors Qi Chen, Sourabh Vora, Oscar Beijbom
最近的作品将LIDARS作为固有的流式数据源，并显示LIDAR感知模型的结束通过在楔形点云扇区上运行而不是完整点云，可以显着减少。但是，由于使用笛卡尔坐标系，这些方法将扇区代表为矩形区域，浪费内存并计算。在这项工作中，我们建议使用极坐标系，并对这一设计进行两个关键改进。首先，我们通过使用从当前扫描的相邻扇区和来自过去扫描的以下扇区的相邻扇区的多尺度填充来增加空间上下文。其次，我们通过引入特征不变和范围分层卷积来改善核心极性卷积架构。 NUSCENES数据集的实验结果显示出对基于流的其他流的方法显着改进。我们还实现了与现有的非流定制方法相当的结果，但延迟下降。

User-Guided Personalized Image Aesthetic Assessment based on Deep Reinforcement Learning
Authors Pei Lv, Jianqi Fan, Xixi Nie, Weiming Dong, Xiaoheng Jiang, Bing Zhou, Mingliang Xu, Changsheng Xu
个性化的图像美学评估PIAA最近成为一种热门话题，因为它在各种应用中的实用性，如摄影，电影和电视，电子商务，时装设计等。此任务更严重受用户提供的主观因素和示例的严重影响。为了通过少量样品获得精确的个性化美学分布，我们提出了一种新颖的用户导向个性化图像美学评估框架。该框架利用用户的交互来根据深度加强学习DRL进行审美评估来润饰和排名图像，并产生个性化美学分布，更加符合不同用户的美学偏好。它主要由两个阶段组成。在第一阶段，通过交互式图像增强和手动排序产生个性化美学排名，同时将培训两个策略网络。图像将被推到用户以进行手动修饰，并同时到增强策略网络。增强网络利用手动修饰结果作为DRL的优化目标。之后，排名过程执行类似的操作，如前所述。这两个网络将迭代地培训，并且可以帮助自动完成最终个性化美学评估。在第二阶段，这些修改的图像由一个样式特定分类器用美学属性标记，然后基于这些图像的多个美学属性生成个性化美学分布，这符合用户的美学偏好。

S$^2$-MLP: Spatial-Shift MLP Architecture for Vision
Authors Tan Yu, Xu Li, Yunfeng Cai, Mingming Sun, Ping Li
最近，可视变压器vit及其以下作品放弃了卷积并利用自我注意的操作，达到比CNN相当或甚至更高的精度。最近，MLP混合器剥夺了卷积和自我注意的操作，提出了仅包含MLP层的架构。为了实现交叉贴片通信，除了通道混合MLP之外，它可以设计额外的令牌混合MLP。它在极大的规模数据集训练时实现了有希望的结果。但在培训上培训的中等规模数据集如ImageNet1k和Imagenet21k时，它无法实现作为其CNN和VIT对应的优异性能。 MLP混合器的性能下降激活我们重新思考令牌混合MLP。我们发现MLP混合器中的令牌混合操作是具有全局接收场和空间特定配置的深度卷积的变型。但全球接收领域和空间特定属性使得令牌混合MLP容易超过配件。在本文中，我们提出了一种新型纯MLP架构，空间移位MLP S 2 MLP。与MLP混合器不同，我们的2MLP仅包含通道混合MLP。我们设计了一种空间换档操作，以实现补丁之间的通信。它具有本地接收领域，是空间不可知论者。与此同时，它是免费和有效的计算。当在ImageNet 1K数据集上训练时，所提出的S 2 MLP比MLP混合器更高的识别精度。同时，S 2 MLP在Imagenet 1K数据集上实现了优异的性能，具有显着更简单的架构和更少的拖鞋和参数。

Comparing vector fields across surfaces: interest for characterizing the orientations of cortical folds
Authors Amine Bohi, Guillaume Auzias, Julien Lef vre
在表面上定义的VORES字段构成相关和有用的表示，但很少使用。一个原因可能是比较相同属的两个表面上的矢量字段并不是琐碎的，它需要将传染媒介字段从原始曲面传送到公共域。在本文中，我们提出了一个框架来通过差分几何概念将传染媒介字段映射到公共空间上来实现这项任务。所提出的框架使得能够计算矢量字段上的统计信息。我们对实际数据的应用展示了其兴趣，该实际数据具有定量评估描述皮质折叠模式的复杂几何形状的曲率方向的再现性。所提出的框架是一般的，可以应用于不同类型的矢量场和表面，允许在医学成像中大量高潜在的应用。

Automatically eliminating seam lines with Poisson editing in complex relative radiometric normalization mosaicking scenarios
Authors Shiqi Liu, Jie Lian, Xuchen Zhan, Cong Liu, Yuze Tian, Hongwei Duan
多个遥感图像之间的相对辐射归一化RRN MOSAICINING对于下游任务至关重要，包括地图制作，图像识别，语义分割和改变检测。然而，马赛克边界通常存在缝线，留下对比度，特别是在复杂的场景中，使马赛克图像的外观难看并降低后一种分类识别算法的准确性。本文呈现了一种新颖的自动方法，消除复杂的RRN Mosaicising场景中的缝线。它利用在重叠区域上的直方图匹配来缓解辐射对比度，泊松编辑以去除接缝线，并合并过程来确定归一化转移顺序。我们的方法可以处理具有任意形状和图像的镶嵌缝线，具有与小交叉区域的极端拓扑关系。这些条件使主要的羽化或混合方法，例如线性加权混合和拉普拉斯金字塔混合，不可用。在实验中，我们的方法目视超越了无泊松编辑的自动方法和使用GIMP软件的手动模糊和羽毛方法。

Partial success in closing the gap between human and machine vision
Authors Robert Geirhos, Kantharaju Narayanappa, Benjamin Mitzkus, Tizian Thieringer, Matthias Bethge, Felix A. Wichmann, Wieland Brendel
几年前，第一个CNN在Imagenet上超越了人类的表现。然而，它很快就会显然，机器缺乏对更具挑战性的测试用例的鲁棒性，这是一个主要障碍，朝着野外部署机器以及获得更好的人类视觉感知的计算模型。在这里，我们问我们在关闭人类和机器愿景之间的差距方面取得进展，以回答这个问题，我们通过录制90名参与者录制85,120的有效试验来计算人类观察员的广泛分销商品。然后，我们调查了一系列有前途的机器学习开发，这沿着三轴客观函数自我监督，对接地训练，剪辑语言图像训练，架构偏离标准监督CNN。视觉变压器和数据集大小从1米到1B。我们的研究结果是三倍。 1.人类和CNNS之间的长期鲁棒性差距正在关闭，最佳型号现在匹配或超过人类性能在大多数商品集上。 2.仍有实质性的图像水平一致性差距，这意味着人类比模型产生不同的错误。相比之下，大多数模型在分类错误中系统地同意，甚至基本上不同的模型自我监督与标准监督模型。 3.在许多情况下，人类模拟一致性在训练数据集大小增加一到三个数量级时提高。我们的结果赋予了谨慎乐观的理由，同时有很大的改进空间，人和机器视觉之间的行为差异是缩小。为了衡量未来的进展，提供了17个具有图像级别人身行为数据的数据集作为这里的基准

3rd Place Solution for Short-video Face Parsing Challenge
Authors Xiao Liu, XiaoFei Si, JiangTao Xie
短片有很多关于时尚潮流，热点，街道访谈，公共教育和创造性广告的应用。我们提出了一个边缘意识的网络EANET，它使用边缘信息来改进分割边缘。实验表明我们所提出的EA1ET靴子上面部解析结果。我们还使用像抓取切割这样的帖子过程，以改进并合并解析结果。

Dilated filters for edge detection algorithms
Authors Ciprian Orhei, Victor Bogdan, Cosmin Bonchis
边缘是图像处理中的基本和基本功能，可直接或间接使用大量应用程序。灵感来自图像分辨率的扩展和处理功率扩张的卷积技术。扩张的卷积在机器学习中具有令人印象深刻的结果，我们讨论了扩张在边缘检测算法中使用的标准滤波器的想法。在这项工作中，我们尝试使用我们使用的所有先前和当前结果组合在一起，而不是经典的卷积过滤器膨胀。我们使用具有原始滤波器或自定义变体的提出的扩张滤波器来比较边缘检测算法的结果。实验结果证实了我们的声明，滤波器的扩张对边缘检测算法的正面影响易于到相当复杂的算法。

Quality-Aware Network for Face Parsing
Authors Lu Yang, Qing Song, Xueshi Xin, Zhiwei Liu
这是一份非常简短的技术报告，介绍了团队Bupt Casia的解决方案，用于在CVPR 2021上的上下文图中的第三个人的短视脸解剖轨道和CVPR 2021的挑战。

Deep Transfer Learning for Brain Magnetic Resonance Image Multi-class Classification
Authors Yusuf Brima, Mossadek Hossain Kamal Tushar, Upama Kabir, Tariqul Islam
磁共振成像MRI是放射学领域的主要诊断方法，以创造患者解剖和生理结构的图像。 MRI是普遍存在的医学成像实践，以发现软组织异常。传统上，它们被放射学家分析，以检测软组织的异常，尤其是大脑。解释大量患者MRI的过程是费力的。因此，使用机器学习方法可以有助于以相当大的精度检测软组织的异常。在这项研究中，我们策划了一部小型数据集并开发了一种使用深度转移学习的框架，以在脑MRI图像中进行多分类肿瘤。在本文中，我们采用了深度剩余卷积神经网络Reset50架构，用于实验，以及训练模型的鉴别学习技术。使用新型数据集和两个公共可用的MRI脑数据集，这种方法在策划数据集中达到了86.40的分类准确性，93.80，在哈佛全大脑地图集数据集中，97.05次关于生物医学工程数据集学校的准确性。我们的实验结果显着展示了我们提出的转让学习框架是脑肿瘤多分类任务的潜在和有效方法。

Variational Quanvolutional Neural Networks with enhanced image encoding
Authors Denny Mattern, Darya Martyniuk, Henri Willems, Fabian Bergmann, Adrian Paschke
图像分类是各种机器学习应用中的重要任务。近年来，已经提出了许多基于量子机器学习和不同量子图像编码技术的分类方法。本文研究了三种不同量子图像编码方法对卷积的性能的影响，其卷积激发QUANCLICAL QNN的卷积感受型混合量子经典图像分类算法。我们进一步检查了变形的效果。可训练量子电路对分类结果。我们的实验表明，一些图像编码更适合变分路。然而，我们的实验表明也没有一个最佳的图像编码，而是编码的选择取决于应用程序的特定约束。

Computer Vision Tool for Detection, Mapping and Fault Classification of PV Modules in Aerial IR Videos
Authors Lukas Bommes, Tobias Pickel, Claudia Buerhop Lutz, Jens Hauch, Christoph Brabec, Ian Marius Peters
增加光伏光伏植物的部署需求便宜和快速检查。这项任务的可行工具是无人驾驶飞行器无人机的热敏成像。在这项工作中，我们开发了一个电脑视觉工具，用于从热量显着的UAV视频开始半自动提取光伏模块。我们使用它来策划包含430万IR图像的数据集，来自七种不同光伏工厂的热量摄影视频。为了展示其用于自动化光伏工厂检查的用途，我们训练Reset 50以分类十个具有超过90个测试精度的常见模块异常。实验表明，我们的工具概括为不同的光伏工厂。它成功从561行中的512中提取了PV模块。失败主要是由于UAV轨迹和错误的模块分段不适当。包括所有手动步骤，我们的工具可以检查每天3.5 MW P到9 MW P的PV装置，可能由于其平行性而导致多吉伐工厂。虽然我们提出了一种有效的自动化光伏工厂检查方法，但我们也相信我们的方法有助于满足机器学习任务的大型热量分数的需求，例如功率预测或无监督的缺陷识别。

Pixel Sampling for Style Preserving Face Pose Editing
Authors Xiangnan Yin, Di Huang, Hongyu Yang, Zehua Fu, Yunhong Wang, Liming Chen
基于现有的自动编码器的面向姿势编辑方法主要集中在姿势合成期间的身份保存能力，但能够正确地保护图像风格，这是指本文的颜色，亮度，饱和度等。我们采取众所周知的额外轮廓光学错觉并呈现一种新颖的两级方法来解决上述困境，其中面部姿势操纵的任务被铸造成面部染色。通过选择性地采样从输入面上的像素并用所提出的像素注意采样模块略微调整它们的相对位置，面部编辑结果忠实地保持身份信息以及图像样式不变。通过利用在染色阶段的高维嵌入，产生更精细的细节。此外，随着3D面部地标作为指导，我们的方法能够在三个自由度，即偏航，俯仰和辊中操纵面部姿势，从而产生比仅控制通常实现的横摆角更柔韧的面向姿势编辑现有技术。定性和定量评估均验证了所提出的方法的优势。

TimeLens: Event-based Video Frame Interpolation
Authors Stepan Tulyakov, Daniel Gehrig, Stamatios Georgoulis, Julius Erbach, Mathias Gehrig, Yuanyou Li, Davide Scaramuzza
最先进的框架插值方法通过从连续关键帧中推断图像中的对象运动来生成中间帧。在没有附加信息的情况下，必须使用第一阶近似，即光流，但是这种选择限制了可以建模的运动类型，从而导致高度动态方案中的错误。事件摄像机是通过在帧之间的盲时间提供辅助视觉信息来解决此限制的新颖传感器。它们对每个像素亮度的异步测量变化，并以高时间分辨率和低延迟执行此操作。基于事件的帧插值方法通常采用基于合成的方法，其中预测帧残差直接应用于关键帧。然而，虽然这些方法可以捕获非线性动作，但它们遭受重影的患者，并且在少数事件中在低纹理区域中表现不佳。因此，基于合成的和流动的方法是互补的。在这项工作中，我们引入了时间镜头，一种新颖的表示相同的贡献方法，利用两者的优势。我们在三个合成和两个实际基准上广泛评估了我们的方法，在那里我们在基于框架和事件的方法的PSNR方面显示了高达5.21 dB的改进。最后，我们在高度动态方案中发布了一个新的大型数据集，旨在推动现有方法的限制。

Attention-based Domain Adaptation for Single Stage Detectors
Authors Vidit, Mathieu Salzmann
虽然在培训和测试数据遵循不同的分布时，用于改善对象探测器的性能的域适应，但之前的工作主要集中在两个阶段探测器上。这是因为他们使用区域提案使得可以进行局部适应，这已被证明可以显着提高适应效果。在这里，通过对比，我们针对单级架构，它们更适合于资源受限检测，而不是两个阶段，但不提供区域建议。尽管如此，从局部适应的实力中受益，我们介绍了一个关注机制，让我们确定适应应该关注的重要区域。我们的方法是通用的，可以集成到任何单级检测器中。我们通过将其应用于SSD和YOLO，在标准基准数据集中演示了这一点。此外，对于等效的单级架构，我们的方法始终优于艺术域适应技术的状态，即使它专门针对该特定检测器设计。

Deterministic Guided LiDAR Depth Map Completion
Authors Bryan Krauss, Gregory Schroeder, Marko Gustke, Ahmed Hussein
准确的密集深度估计对于自主车辆来分析环境至关重要。本文介绍了一种非深度学习的基于深度学习的方法，可以使用指导RGB图像致密稀疏的LIDAR深度图。为了实现这一目标，RGB图像首先从大多数相机LIDAR未对准工件清除。之后，它过度分段，并且每个超像素的平面近似。在超像素不受平面表示的情况下，平面近似用于最惰性的凸壳。最后，针孔摄像机模型用于插值过程，剩余区域被插入。使用Kitti Depth完成基准执行对该工作的评估，该基准验证所提出的工作，并表明它优于基于几种基于深度学习的方法的艺术非深度学习的方法的状态。

Automated Parking Space Detection Using Convolutional Neural Networks
Authors Julien Nyambal, Richard Klein
现在找到停车位成为一个不容忽视的问题，它消耗时间和能量。我们使用计算机视觉技术来推断出于从Witwatersrand大学收集的数据的停车场的状态。本文介绍了一种基于卷积神经网络CNN的实时停车空间分类方法，使用Caffe和NVIDIA框架。使用数字进行了培训过程，输出是用于检测空置和占用停车位的预测的CaffeModel。系统检查定义的区域是否在系统的初始化时定义的停车位限定框包含汽车或不占用或空置。这些边界框坐标从停车场的视频帧中以JSON格式保存，稍后被系统用于每个停车位的顺序预测。该系统已经使用Lenet网络与Nesterov加速梯度作为求解器和AlexNet网络的训练，随机梯度下降为求解器。我们能够在两个网络上获得99的验证集的准确性。外出数据集PKLOT的准确性为99。这些是基于训练集的实验结果，示出了当在不同的停车位进行预测时，系统可以是多么强大。

More Real than Real: A Study on Human Visual Perception of Synthetic Faces
Authors Federica Lago, Cecilia Pasquini, Rainer B hme, H l ne Dumont, Val rie Goffaux, Giulia Boato
在过去的几年里，深刻的假货也非常受欢迎，也归功于他们的现实主义的增加。因此，需要衡量人类的能力，以区分真实和合成的面部图像，当面对切削刃创建技术时。我们描述了我们进行的感知实验的设计和结果，其中广泛而多样化的志愿者已经暴露于由艺术生成的对抗网络所产生的综合性脸部图像即，PG GaN，Setygan，Stylegan2。实验结果揭示了我们应该有多强烈调查我们的人类能力，以识别通过现代AI产生的合成文件的真正面孔。

SGE net: Video object detection with squeezed GRU and information entropy map
Authors Rui Su, Wenjing Huang, Haoyu Ma, Xiaowei Song, Jinglu Hu
最近，基于深度学习的视频对象检测引起了越来越多的关注。与静态图像的对象检测相比，由于物体的运动，视频对象检测更具挑战性，同时提供丰富的时间信息。基于RNN的算法是增强具有时间信息的视频中的检测性能的有效方法。然而，在这方面的大多数研究仅关注准确性，同时忽略计算成本和参数的数量。

Context-Aware Image Inpainting with Learned Semantic Priors
Authors Wendong Zhang, Junwei Zhu, Ying Tai, Yunbo Wang, Wenqing Chu, Bingbing Ni, Chengjie Wang, Xiaokang Yang
图像染色的最新进展显示了在相当简单的背景上产生合理的视觉细节的令人印象深刻的结果。然而，对于复杂的场景，恢复合理的内容仍然具有挑战性，因为缺失区域内的上下文信息往往是暧昧的。为了解决这个问题，我们介绍了语义上有意义的借口任务，估计缺失的内容。特别是，我们在借口模型上执行知识蒸馏，并使特征适应图像修复。学习的语义前瞻应该是在高级借口任务和低级图像修复之间部分不变，这不仅有助于了解全局背景，而且还提供了对恢复本地纹理的结构指导。基于语义前导者，我们进一步提出了一种上下文感知图像修复模型，其在统一图像生成器中自适应地集成了全局语义和本地特征。语义学习者和图像发生器终止于结束方式培训。我们将模型SPL命名为突出其学习和利用语义前瞻的能力。它达到了Place2，Celeba和Paris Streetview数据集的最先进。

Over-Fit: Noisy-Label Detection based on the Overfitted Model Property
Authors Seulki Park, Dae Ung Jo, Jin Young Choi
由于需要在大规模数据集中处理嘈杂的标签问题，近年来，使用嘈杂标签学习噪声的噪音很大。作为一个有希望的方法，最近有研究通过在深度神经网络过度接触嘈杂的标签数据之前找到清洁培训数据。但是，防止过度装备有挑战性。在本文中，我们通过在各个数据点上采用过拟合的性质提出了一种新的嘈杂标签检测算法。为此，我们提出了两种新标准，统计测量每个训练样本异常影响模型和清洁验证数据的数量。使用标准，我们的迭代算法消除了嘈杂的标签样本并交替地检测模型，直到没有进一步进行性能改进。在对多个基准数据集的实验中，我们展示了我们的算法的有效性，并表明我们的算法在未给出精确的噪声速率时优于现有技术的状态。此外，我们表明我们的方法不仅可以扩展到真实的世界视频数据集，还可以被视为解决由过度装备引起的问题的正则化方法。

Hard Samples Rectification for Unsupervised Cross-domain Person Re-identification
Authors Chih Ting Liu, Man Yu Lee, Tsai Shien Chen, Shao Yi Chien
人员重新识别重新识别与监督学习方法充满了巨大的成功。但是，无监督的跨域RE ID的任务仍然具有挑战性。在本文中，我们提出了一种硬样品整流HSR学习方案，其解决了基于群体的原始聚类方法的弱点，该方法容易受到目标未标记数据集中的硬质和阴性样本的影响。我们的HSR包含两部分，这是一个不同的相机挖掘方法，有助于识别不同视角的人，使模型区分不同的人，但具有相似的外观难以识别不同的均匀性技术。通过纠正这两个硬壳，RE ID模型可以有效地学习，并在两个大规模基准上实现有希望的结果。

Group-based Bi-Directional Recurrent Wavelet Neural Networks for Video Super-Resolution
Authors Young Ju Choi, Young Woon Lee, Byung Gyu Kim
视频超分辨率VSR旨在从低分辨率LR帧估计高分辨率HR帧。 VSR的关键挑战在于在帧内帧内的空间相关性和连续帧之间的时间依赖性的有效利用。然而，最先前的大部分方法相同地处理不同类型的空间特征，并从分离的模块中提取空间和时间特征。它导致缺乏获得有意义的信息并增强细节。在VSR中，存在三种类型的时间建模框架2D卷积神经网络CNN，3D CNN和经常性神经网络RNN。其中，基于RNN的方法适用于顺序数据。因此，通过使用相邻帧的隐藏状态可以大大提高SR性能。然而，在经常性结构中的每一步骤中，基于RNN的先前作品利用了相邻特征限制性。由于每个时间步长的可访问运动范围缩小，因此仍有限制恢复动态或大运动的缺失细节。在本文中，我们提出了基于基于基于基于的BI定向反复间小波神经网络GBR Wnn，以有效地用于VSR的顺序数据和时空时间信息。基于组的BI定向RNN GBR时间建模框架建立在具有图片GOP的良好结构化过程中。我们提出了一个时间小波临时的TWA模块，其中用于空间和时间特征都采用了注意力。实验结果表明，与定量和定性评估的技术方法相比，该方法实现了卓越的性能。

Sejong Face Database: A Multi-Modal Disguise Face Database
Authors Usman Cheema, Seungbin Moon
面部识别的商业应用要求对各种挑战的鲁棒性，如照明，遮挡，欺骗，伪装等。伪装的人脸识别是访问控制系统的新出现问题之一，例如边界处的安全检查点。然而，缺乏具有各种伪装成额的面部数据库的可用性限制了该地区学术研究的发展。在本文中，我们提出了一种多模式伪装脸部数据集，以促进伪装的面部识别研究。呈现的数据库包含8个面部添加ONS和7个附加组合，这些添加ONS创建各种伪装的面部图像。每个面部图像被捕获在可见，可见的加红外，红外和热谱中。具体而言，数据库包含100个被分为子集30个受试者的受试者，每个模态和子集B 70对象，每个模态为5个图像。我们还呈现对所提出的数据库执行的基线面部检测结果以提供参考结果并比较不同模式中的性能。进行定性和定量分析，以评估伪装额外的挑战性质。数据集将公开接受研究文章。数据库可用

2rd Place Solutions in the HC-STVG track of Person in Context Challenge 2021
Authors YiYu, XinyingWang, WeiHu, XunLuo, ChengLi
在本技术报告中，我们提出了我们的解决方案，以根据句子本地化一个不明测的视频中的一个时空时间人员。在上下文图片挑战中，我们在第三个人的HC STVG轨道中实现了第二viou 0.30025。我们的解决方案包含三个部分1人类属性信息从句子中提取信息，在测试阶段过滤掉管建议并监督我们的分类器以学习培训阶段的外观信息是有帮助的。 2我们用yolov5检测人类，基于Deadsort框架，追踪人类，但用泥泞的方式取代原来的Reid网络。图3示出了视觉变压器来提取用于定位目标人的时空时间管的跨模型表示。

Self-training Guided Adversarial Domain Adaptation For Thermal Imagery
Authors Ibrahim Batuhan Akkaya, Fazil Altinel, Ugur Halici
在大型RGB图像数据集上培训的深层模型表明了巨大的成功。对现实世界的问题应用这种深层模型很重要。然而，这些模型在照明变化下遭受了性能瓶颈。热量红外摄像机对这种变化更加稳健，因此对于真实世界问题来说非常有用。为了调查组合特征的效率丰富的可见光谱和热图像方式，我们提出了一种无监督的域适应方法，该方法不需要RGB到热图像对。我们使用大规模的RGB数据集MS Coco作为源域和热数据集FLIR ADAS作为目标域，以演示我们的方法的结果。虽然对抗域适配方法旨在对准源域和目标域的分布，但只需对齐分布不能保证对目标域的完美泛化。为此，我们提出了一种自我训练引导的对抗域适应方法，以促进对抗域适应方法的泛化能力。为了进行自我训练，将伪标签分配给目标热域上的样本，以了解目标域的更多广泛表示。广泛的实验分析表明，我们所提出的方法比现实的对抗域适应方法的状态达到更好的结果。代码和模型是公开可用的。

Object-Guided Instance Segmentation With Auxiliary Feature Refinement for Biological Images
Authors Jingru Yi, Pengxiang Wu, Hui Tang, Bo Liu, Qiaoying Huang, Hui Qu, Lianyi Han, Wei Fan, Daniel J. Hoeppner, Dimitris N. Metaxas
实例分割对于许多生物学应用，例如神经细胞相互作用，植物表型化和定量测量细胞对药物治疗的影响的研究非常重要。在本文中，我们提出了一种基于盒的实例分段方法。基于框的实例分段方法通过边界框捕获对象，然后在每个边界框区域内执行单独的分段。然而，由于其类似的纹理和低对比度边界，现有方法几乎不能将目标与相同边界框区域内的相邻对象区分开来。要处理此问题，请在本文中提出了一种对象引导实例分段方法。我们的方法首先检测对象的中心点，然后预测边界框参数。为了执行分割，与检测分支一起建立一个对象引导粗略分段。分段分支重用对象特征作为指导，以将目标对象与相同边界框区域内的相邻目标分开。为了进一步提高分割质量，我们设计了一种辅助特征改进模块，其密集地样本和精确边界区域中的点明智特征。三个生物图像数据集的实验结果证明了我们方法的优点。代码将可用

Selection of Source Images Heavily Influences the Effectiveness of Adversarial Attacks
Authors Utku Ozbulak, Esla Timothy Anzaku, Wesley De Neve, Arnout Van Messem
虽然近年来，近年来深度神经网络DNN的采用率大幅增加，但尚未发现对抗对抗性示例的脆弱性的解决方案。因此，大量的研究工作致力于解决这种弱点，许多研究通常使用源图像的子集来生成对手示例，将该子集中的每个图像视为相等。我们证明，事实上，不是每个来源图像都同样适用于这种评估。为此，我们将大规模模型设计为模型转移性场景，我们通过利用两个最常见的部署攻击来分析来自想象成中的每个合适的源图像中的每个合适的源图像生成的性质。在这种可转移性方案中，涉及七种不同的DNN模型，包括最近提出的视觉变压器，我们揭示了模型中最多12.5的差异，以模拟转移性成功，平均l 2扰动为1.01和0.03 8在所有合适的候选者中随机采样1,000个源图像时，平均L 225平均扰动。然后，我们采取第一个步骤中的一个评估用于创造逆势示例的图像的稳健性，提出了许多简单但有效的方法来识别不合适的源图像，从而可以减轻实验中的极端情况并支持高质量的基准。

SinIR: Efficient General Image Manipulation with Single Image Reconstruction
Authors Jihyeong Yoo, Qifeng Chen
我们提出SINIR，一个有效的基于重建的基于重建的框架，用于一般图像操作，包括超级分辨率，编辑，协调，图像，照片现实风格转移和艺术风格转移。我们在具有级联的多尺度学习的单个图像上培训我们的模型，每个刻度的每个网络都负责图像重建。与GAN目标相比，这种重建目标大大降低了培训的复杂性和运行时间。然而，重建目标也加剧了产出质量。因此，为了解决这个问题，我们进一步利用了简单的随机像素洗牌，这也可以控制操纵，由去噪自动化器的启发。随着定量评估，我们表明SINIR在各种图像操纵任务方面具有竞争性能。此外，通过更简单的培训目标，即，重建，SINIR培训比SINGAN更快33.5倍，对于500 x 500图像来解决类似的任务。我们的代码公开提供

Bayesian dense inverse searching algorithm for real-time stereo matching in minimally invasive surgery
Authors Jingwei Song, Qiuchen Zhu, Jianyu Lin, Maani Ghaffari
本文报告了CPU级实时立体声匹配方法，用于在640 480图像上进行外科图像10 Hz，具有I5 9400的单个核心。所提出的方法基于快速密集的逆搜索算法构建，其估计立体图像的视差。重叠图像修补来自不同刻度的图像的任意平方图像段基于光度致力量预测对齐。我们提出了一个贝叶斯框架，以评估不同尺度的优化斑块差异的概率。此外，我们介绍了一种空间高斯混合概率分布，以解决补丁内的像素明显概率。在体内和合成实验中表明，我们的方法可以处理因陶瓷表面和由兰伯语反射率引起的光度不一致而导致的模糊性。我们的贝叶斯方法正确地平衡了不同尺度的立体图像的补丁的概率。实验表明，估计深度具有更高的精度和比外科情景中的基线方法更少的异常值。

Discerning the painter's hand: machine learning on surface topography
Authors F. Ji, M. S. McMaster, S. Schwab, G. Singh, L. N. Smith, S. Adhikari, M. O Dwyer, F. Sayed, A. Ingrisano, D. Yoder, E. S. Bolman, I. T. Martin, M. Hinczewski, K. D. Singer
绘画的归属是艺术史的关键问题。本研究扩展了机器学习分析对涂漆作品的表面形貌。对积极归因的对照研究是设计了一类艺术学生制作的绘画。使用共聚焦光学探测器扫描绘画以产生表面数据。将表面数据分为虚拟斑块，并用于训练卷积神经网络CNN的集合以进行归因。在0.5至60 mm的一系列贴片大小范围内，发现所产生的归属于60至96精确，并且当使用不同颜色的区域进行比较时的两倍是使用绘画颜色图像的CNN准确的两倍。值得注意的是，短长度鳞片，小于刷毛直径的两倍，是可靠区分艺术家的关键。这些结果表明了真实世界的归属，特别是在研讨会练习的情况下。

Reducing Effects of Swath Gaps on Unsupervised Machine Learning Models for NASA MODIS Instruments
Authors Sarah Chen, Esther Cao, Anirudh Koul, Siddha Ganju, Satyarth Praveen, Meher Anand Kasam
由于其途径的性质，美国宇航局街区和NASA Aqua卫星捕获含有Swath间隙的图像，这是没有数据的领域。 SWATH间隙可以完全与利益区域重叠，通常通过机器学习ML型号无法使用的整个图像。当ROI很少发生时，该问题进一步加剧。飓风和发生在发生的情况下，部分重叠。通过注释数据作为监督，模型可以学习区分聚焦领域和SWATH间隙。但是，注释是昂贵的，目前绝大多数现有数据都未被解除。因此，我们提出了一种增强技术，其显着地消除了SWATH间隙的存在，以便允许CNN集中在ROI上，从而成功地使用带有SWATH间隙的数据进行训练。我们在UC Merced Land使用数据集上实验，在那里我们通过空的多边形添加了最多20％的区域，然后施加增强技术来填补条形间隙。我们将培训的模型与我们的增强技术进行了培训，在Swath差距上填充数据，模型在原始的SWATH间隙上培训的模型更少数据并注意高度增强性能。此外，我们使用激活地图进行定性分析，可视化我们训练有素的网络的有效性，不关注SWATH间隙。我们还通过人类基线评估我们的结果，并表明，在某些情况下，填充的条形间隙看起来如此逼真，即使是人类评估员也没有区分原始卫星图像和SWATH间隙填充图像。由于该方法针对未标记的数据，因此来自各种空间数据域的大规模未经讨论的数据集是广泛的宽大宽大的。

On-Off Center-Surround Receptive Fields for Accurate and Robust Image Classification
Authors Zahra Babaiee, Ramin Hasani, Mathias Lechner, Daniela Rus, Radu Grosu
照明条件的变化的鲁棒性是任何深视觉系统的关键目标。为此，我们的论文扩展了卷积神经网络的接受领域，具有两个残余组件，在中心和关闭中心途径上的脊椎动物的视觉处理系统中，具有兴奋中心和抑制环绕的OOC。通过其中心的光刺激存在但不在环绕着的光刺激性，而偏离中心是通过其中心的光刺激而兴奋的，而不是在其环绕声中兴奋。我们通过Gaussians的差异设计OOC途径，其方差与接收领域的大小分析计算。 OOCS途径在响应光刺激的响应中相互补充，确保这种方式强的边缘检测能力，结果，在具有挑战性的照明条件下准确且稳健的推理。我们提供广泛的经验证据，显示与标准深层模型相比，随着OOC的边缘表示提供的网络，获得精度和照明鲁棒性。

Survey: Image Mixing and Deleting for Data Augmentation
Authors Humza Naveed
数据增强已被广泛用于提高深形网络的性能。提出了许多方法，例如，辍学，正则化和图像增强，以避免过度发出和增强神经网络的概括。数据增强中的一个子区域是图像混合和删除。这种特定类型的增强可以混合两个图像或删除图像区域以隐藏或制定对网络困惑的图像的某些特征，以强迫它强调图像中对象的整体结构。使用这种方法培训的模型表明，与没有起步混合或删除的培训相比，该模型表现得很好。这种培训方法实现的额外福利是对图像损坏的鲁棒性。由于其近来的低计算成本和成功，提出了许多图像混合和删除技术。本文对这些设计的方法提供了详细的审查，将增强策略分为三个主要类别，切割和删除，切割和混合和混合。纸张的第二部分是对图像分类的这些方法，精细的图像识别和对象检测，其中显示了这类数据增强提高了深度神经网络的整体性能。

A baseline for semi-supervised learning of efficient semantic segmentation models
Authors Ivan Grubi i 1 , Marin Or i 1 , Sini a egvi 1 1 University of Zagreb, Faculty of Electrical Engineering and Computing
由于像素级别的实际高成本，半监督学习在密集的预测上下文中特别有趣。不幸的是，大多数此类方法在过时的架构上评估了由于训练非常慢的GPU RAM的训练和高要求而受到研究。我们通过呈现一个简单而有效的基线来解决这一问题，这些基线在标准和高效的架构上运作。我们的基线基于一种方式，一致性和非线性几何和光度扰动。我们表现出仅扰动学生分支并提出了对这种行为的合理解释。 Citycapes和CiFar 10的实验表明了关于事先工作的竞争性能。

HistoTransfer: Understanding Transfer Learning for Histopathology
Authors Yash Sharma, Lubaina Ehsan, Sana Syed, Donald E. Brown
数字病理学和人工智能的进步使基于深度学习的计算机视觉技术进行了自动疾病诊断和预后。然而，WSIS目前呈现独特的计算和算法挑战。 WSIS是千兆像素大小的大小，使它们无法直接用于培训深神经网络。因此，对于建模，采用了两个阶段方法，首先提取补丁表示，然后是WSI预测的聚合。这些方法需要详细的像素级注释来训练补丁编码器。但是，获得这些注释是医学专家的耗时和乏味。转移学习用于解决这种差距，深度学习架构预先培训的想象成用于生成补丁级别表示。尽管从组织病理学数据显着不同，但是已经显示了预训练的网络令人印象深刻地对组织病理学数据进行令人印象深刻。此外，与多个组织病理学数据的释放耦合的自我监督和多任务学习的进展导致了组织病理学特定网络的释放。在这项工作中，我们比较从想象中培训的网络提取的功能的性能和组织病理学数据。我们在这些提取的功能上使用注意池网络进行幻灯片级聚集。我们调查使用更多复杂网络学习的功能是否导致性能提升。我们使用简单的Top K采样方法进行微调框架，并使用居中内核对齐研究冻结和精细调谐网络之间的表示相似性。此外，为了考虑中间块表示更适合特征提取和想象架构对组织病理学不必要地大，我们截断了Reset18和DenSenet121的块并检查性能。

Weakly-supervised High-resolution Segmentation of Mammography Images for Breast Cancer Diagnosis
Authors Kangning Liu, Yiqiu Shen, Nan Wu, Jakub Ch dowski, Carlos Fernandez Granda, Krzysztof J. Geras
在过去的几年中，深入学习分类器已经表明了基于图像的医学诊断结果。但是，解释这些模型的输出仍然是一个挑战。在癌症诊断中，通过定位负责输出的输入图像的区域可以实现解释性，即病变的位置。或者，可以用指示恶性病变的位置的像素明智的注释训练分割或检测模型。不幸的是，获取此类标签是劳动密集型，需要医学专业知识。为了克服这种困难，可以利用弱监督的本地化。这些方法允许神经网络分类器输出显着图，突出显示与分类任务最相关的输入区域。仅使用图像级标签的乳房X光检查的恶性病变。患者在培训期间是否有癌症。当应用于高分辨率图像时，现有方法产生低分辨率显着性图。在与图像尺寸相比，可疑病变小的应用中存在问题。在这项工作中，我们介绍了一种新颖的神经网络架构，以执行高分辨率图像的弱监管分割。所提出的模型通过粗级定位选择感兴趣的区域，然后执行这些区域的细粒度分割。我们将该模型应用于筛选乳房X线照相术乳腺癌的乳腺癌诊断，并在大型临床上的现实数据集上验证。通过骰子相似度评分来测量，我们的方法在良性和恶性病变的定位性能方面优于现有方法，分别将性能分别提高39.6和20.0。代码和一些型号的重量可用

Reborn Mechanism: Rethinking the Negative Phase Information Flow in Convolutional Neural Network
Authors Zhicheng Cai, Kaizhu Huang, Chenglei Peng
本文提出了一种新颖的非线性激活机制，通常用于卷积神经网络CNN，名为Reborn机制。与切断负相值的Relu鲜明对比，Reborn机制享有重生和重建死神经元的能力。与其他改进的Relu功能相比，Reborn机制引入了利用负相信息的更适当的方法。广泛的实验验证了这种激活机制能够更加显着提高模型表示能力，并更好地利用输入数据信息，同时保持原始Relu功能的优点。此外，Reborn机制使得能够通过传统CNN几乎无法实现的非对称性，并且可以充当竞争或更好的性能，但具有比传统方法更少的学习参数。在各种基准数据集中测试了Reborn机制，所有这些都比先前的非线性激活函数更好的性能。

Styleformer: Transformer based Generative Adversarial Networks with Style Vector
Authors Jeeseung Park, Younggeun Kim
我们提出了Stifeformer，这是一种用于GaN架构的型式发电机，但是基于卷积的变压器的发电机。在我们的论文中，我们解释了变压器如何产生高质量的图像，克服卷积操作难以捕获图像中的全局特征的缺点。此外，我们改变了Stylegan2的解调并修改现有的变压器结构，例如，残留连接，层归一化，以卷积自由结构创建强大的基于型的发电机。我们还通过应用LiNFormer来制作StyleFormer打火机，使样式器能够生成更高的分辨率图像并导致速度和内存方面的改进。我们尝试使用诸如CiFar 10的低分辨率图像数据集，以及LSUN教会等高分辨率图像数据集。 StyleFormer记录FID 2.82，在CIFAR 10上为9.94，一个基准数据集，它与本领域当前状态相当的性能，并且优于所有GAN的基于GaN的生成模型，包括LetteGan2 ADA，在无条件设置上具有较少参数。我们还通过FID 20.11实现了新的最新技术，分别在STL 10和Celeba上分别实现了10.16和FID 3.66。我们发布了我们的代码

Generation of the NIR spectral Band for Satellite Images with Convolutional Neural Networks
Authors Svetlana Illarionova, Dmitrii Shadrin, Alexey Trekin, Vladimir Ignatiev, Ivan Oseledets
MultiSpectral遥感图像的780到2500 nm的近红外NIR光谱范围为Landcover分类提供了重要信息，特别是关于植被评估。尽管NIR有用，但普通的RGB并不总是伴随它。通过深神经网络的图像处理中的现代成果允许产生人工谱信息，例如用于图像着色问题。在这项研究中，我们的目的是研究这种方法是否可以产生视觉上类似的图像，而且可以提高计算机视觉算法的性能来解决遥感任务的性能。我们研究了使用高分辨率卫星图像的RGB通道的NIR乐队一代任务中的生成对抗网络GAN方法。我们评估生成的信道对解决森林分割任务的模型性能的影响。我们的结果显示使用生成的NIR与仅使用RGB 0.947和0.914 F1分数的基线模型相应时，模型精度的增加。进行的研究表明，在应用挑战中产生额外频段的优点，减少了所需数量的标记数据。

Siamese Network Training Using Sampled Triplets and Image Transformation
Authors Ammar N. Abbas, David Moser
在该工作中使用的装置使用两个热摄像头检测水面上的物体，这使得用户能够检测和避免人类眼睛无法夜晚，雾等方案中的对象。为了避免自主碰撞，需要实时跟踪对象并为每个对象分配特定标识以确定其动态轨迹，速度等，用于制作估计的碰撞预测。在下面的工作中，使用Tensorflow作为Python中的高级编程环境，使用了一种用于卷积神经网络CNN的计算机视觉CV的机器学习ML方法。为了验证算法，使用在工作期间创建的注释工具生成测试集以进行适当的评估。经过验证后，该算法部署在平台上并用测试船产生的序列进行测试。

Noise2Score: Tweedie's Approach to Self-Supervised Image Denoising without Clean Images
Authors Kwanyoung Kim, Jong Chul Ye
最近，在没有干净的参考的情况下，对培训深度网络进行了广泛的研究兴趣。然而，诸如Noise2noise，Code2录像，Stein的非偏见风险估计器等的代表性方法似乎彼此不同，并且很难找到相干的数学结构。为了解决这个问题，我们提出了一种新的方法，称为噪声2.缺失链接，以便联合这些看似不同的方法。具体地，我们表明，通过查找后部分布的模式，可以通过查找后部分布的模式来解决没有清洁图像的图像去噪问题，并且通过得分函数，可以通过得分函数来解决明确的解决方案..对数可能性的梯度。然后，我们的方法使用近来发现得分函数可以使用摊销残留的自动化器稳定地估计得分函数，其方法与噪声2Noise或鼻部2密切相关。我们的噪声2Score方法是普遍的，即相同的网络培训可用于从任何指数族分布和噪声参数损坏的图像中移除噪声。使用与高斯，泊松和伽玛噪声的广泛实验，我们表明噪音2Score显着优于基准数据集中的艺术自我监控的现行状态，例如C BSD68，Set12和柯达等。

Pyramidal Dense Attention Networks for Lightweight Image Super-Resolution
Authors Huapeng Wu, Jie Gui, Jun Zhang, James T. Kwok, Zhihui Wei
最近，深度卷积神经网络方法在图像超级化SR中实现了出色的性能，但由于大的内存成本，它们不能容易地应用于嵌入式设备。为解决这个问题，我们提出了一种金字塔致密的关注网络PDAN，用于本文的轻量级图像超级分辨率。在我们的方法中，所提出的金字塔致密学学习可以逐渐增加金字塔内致密块内密集连接层的宽度，以有效地提取深度特征。同时，引入了群体数量与致密卷积层线性地增长的自适应组卷积以缓解参数爆炸。此外，我们还以有效的方式提出了一种新的关注，以便以提供丰富的鉴别特征表示，以有效的方式捕获空间尺寸和通道维之间的交叉尺寸相互作用。广泛的实验结果表明，与现有技术的轻量级SR方法相比，我们的方法实现了卓越的性能。

Is Perfect Filtering Enough Leading to Perfect Phase Correction for dMRI data?
Authors Liu Feihong, Yang Junwei, He Xiaowei, Zhou Luping, Feng Jun, Shen Dinggang
复合值和低的信号到噪声比，基于幅度的扩散MRI被虚假地升高信号幅度的噪声幅度，并与常用的扩散指标发生偏差，例如分数各向异性FA。为避免噪声底板，大多数现有的相位校正方法探索改进过滤器来估计无噪声背景相位。在这项工作中，在潜入相位校正程序之后，我们认为即使是一个完美的过滤器也不足以相位校正，因为校正程序无法区分噪声的符号符号，导致伪像纺织品I.，任意信号丢失。通过这种洞察力，我们将噪声底的定义概括为复杂的极坐标系，并提出了一种可以方便地区分噪声标志符号的校准程序。校准程序在概念上简单且易于实现，而无需依赖任何外部技术，同时保持截然不同。

NDPNet: A novel non-linear data projection network for few-shot fine-gained image classification
Authors Weichuan Zhangy, Xuefang Liuy, Zhe Xue, Yongsheng Gao, Changming Sun
基于度量的少量镜头细粒度图像分类FSFgic旨在通过估计查询图像和支持类之间的相似性来学习可转换功能嵌入网络。在这项工作中，我们第一次提出将非线性数据投影概念引入FSFGIC架构的设计中，以便在几次拍摄学习中解决有限的样本问题，同时增加模型的可怜性用于细粒度的图像分类。具体而言，我们首先设计一个特征重新抽象嵌入网络，该网络具有不仅可以获得有效度量学习所需的语义特征，而且还可以从输入图像中加强具有更精细的细节的这些特征。然后，查询图像和支持类的描述符将投影到我们所提出的相似度公制学习网络中的不同非线性空间，以学习鉴别性投影因子。该设计可以有效地在FSFGIC任务的具体和限制条件下运行，用于使同一类别的样本之间的距离变小，并且来自不同类别的样本之间的距离，并且用于降低来自不同类别的样本之间的耦合关系。此外，介绍了基于所提出的非线性数据项目的新颖相似度测量，用于评估查询图像和支持集之间的特征信息的关系。值得注意的是，我们的拟议架构可以很容易地嵌入到任何划痕以结束到划痕的终端训练中的任何情节训练机制。关于FSFGIC任务的广泛实验证明了艺术基准技术的提议方法的优势。

NLHD: A Pixel-Level Non-Local Retinex Model for Low-Light Image Enhancement
Authors Hou Hao, Hou Yingkun, Shi Yuxuan, Wei Benzheng, Xu Jun
在许多现有方法中，Retinex模型已应用于低光图像增强。更合适的低光图像分解可以有助于实现更好的图像增强。在本文中，我们提出了一种新的像素级非本地HAAR变换基础的照明和反射率分解方法NLHD。每个相似像素组上的独特低频系数用于重建照明分量，并且所有高频系数的其余部分都用于重建反射组件。匹配的类似像素组中的像素的完整相似性和简单的可分离哈尔变换有助于获得更合适的图像分解，因此图像在图像亮度增强过程中几乎没有锐化。指数变换和对数变换分别在照明组件上实现。然后，利用了这两个变换结果的最小融合策略来实现更多的自然照明分量增强。它可以通过指数变换来缓解在较暗区域中产生的马赛克伪像，指数变换具有小于1的伽马值，并且由于对数变换而通过过度提高更亮区域引起的信息丢失。最后，retinex模型应用于增强的照明和反射率，以实现图像增强。我们还开发了基于局部噪声水平估计的基于噪声抑制方法和基于非局部饱和度降低的颜色偏差校正方法。这两种方法可以分别衰减通常呈现在极暗低光图像的增强结果中的噪声或颜色偏差。基准数据集的实验表明，该方法可以实现比大多数现有方法的主观和客观评估的更好的低光图像增强。

Feedback Pyramid Attention Networks for Single Image Super-Resolution
Authors Huapeng Wu, Jie Gui, Jun Zhang, James T. Kwok, Zhihui Wei
最近，基于卷积神经网络CNN的图像超分辨率SR方法已经实现了显着的性能改进。然而，基于CNN的大多数方法主要集中在饲料前向架构设计和忽略中探讨通常存在于人类视觉系统中的反馈机制。在本文中，我们提出了反馈金字塔注意网络FPAN以充分利用特征的相互依赖性。具体地，开发了一种新的反馈连接结构以增强具有高级信息的低电平特征表达式。在我们的方法中，第一阶段中的每个层的输出也用作下一个状态中的相应层的输入来重新更新先前的低电平滤波器。此外，我们介绍了金字塔非本地结构，以在不同的尺度上模拟全球上下文信息，并改善网络的辨别表格。与各种数据集的广泛实验结果表明了我们的FPAN的优越性，与现有技术的SR方法相比。

Contrastive Attention for Automatic Chest X-ray Report Generation
Authors Fenglin Liu, Changchang Yin, Xian Wu, Shen Ge, Ping Zhang, Xu Sun
最近，胸部X射线报告生成，旨在自动生成给定的胸部X射线图像的描述，已获得越来越多的研究兴趣。胸部X射线报告生成的关键挑战是准确捕获和描述异常区域。在大多数情况下，普通区域主导整个胸部X射线图像，并且这些普通区域的相应描述主导了最终报告。由于这种数据偏差，基于学习的模型可能无法参加异常区域。在这项工作中，有效地捕获和描述异常区域，我们提出了对比的关注CA模型。 CA模型而不是仅专注于电流输入图像，而是将电流输入图像与正常图像进行比较以蒸馏到对比信息。所获得的对比信息可以更好地代表异常区域的视觉特征。根据公共IU X射线和模拟CXR数据集的实验，将我们的CA融入了几种现有型号可以在大多数指标上提升他们的性能。此外，根据分析，CA型号可以帮助现有的模型更好地参加异常区域，并提供对可解释诊断至关重要的更准确的描述。具体而言，我们在两个公共数据集上实现了最先进的结果。

Exploring and Distilling Posterior and Prior Knowledge for Radiology Report Generation
Authors Fenglin Liu, Xian Wu, Shen Ge, Wei Fan, Yuexian Zou
自动生成放射学报告可以改善诊断放射学的当前临床实践。一方面，它可以缓解放射科学家，另一方面，它可以提醒异常的放射科医师，避免误诊和错过诊断。然而，由于严重的视觉和文本数据偏差，该任务仍然是数据驱动神经网络的具有挑战性的作业。为此，我们提出了一个后脑和先验的知识探索和蒸馏方法，以模仿放射科学家的工作模式，谁将首先检查异常区域并将疾病主题标签分配给异常区域，然后依赖于之前的年份医学知识和先前的工作经验积累编写报告。因此，PPKED包括三个模块后续知识探索器戳，现有知识探险者PRKE和多领域知识蒸馏器MKD。详细说明，Poke探讨了后视知识，它为缓解视觉数据偏见探讨了明确的异常视觉区域探讨了从先前医学知识图中探讨了先前医学知识图的先验知识，并提前放射学报告了减轻文本数据偏差的工作经验。 MKD蒸馏出探索知识以产生最终报告。在模拟CXR和IU XRAY数据集上进行评估，我们的方法能够在这两个数据集上倾销前一个最先进的最新状态。

Representation and Correlation Enhanced Encoder-Decoder Framework for Scene Text Recognition
Authors Mengmeng Cui, Wei Wang, Jinjin Zhang, Liang Wang
基于注意的编码器解码器框架广泛用于场景文本识别任务。然而，对于本领域的现有状态，存在有效使用输入文本图像的本地视觉和全局上下文信息的有效使用的空间，以及场景处理模块编码器和稳健相关性文本处理模块解码器。在本文中，我们提出了一种表示和相关性增强的编码器解码器Receed以解决这些缺陷和断裂性能瓶颈。在编码器模块中，本地视觉功能，全局上下文特征和位置信息被对齐并融合以生成小尺寸综合特征图。在解码器模块中，使用两种方法来增强场景和文本特征空间之间的相关性。 1解码器初始化由从编码器导出的整体特征和全局瞥觉矢量引导。 2使用多头部一般注意力产生的富集瞥见载体来帮助RNN迭代和每个时间步骤的字符预测。同时，我们还设计了一个Labernorm辍学LSTM单元，以改善模型的概率朝向可变文本。在基准测试中的广泛实验证明了在现场文本识别任务中的有利性能，尤其是不规则的性能。

Do Not Escape From the Manifold: Discovering the Local Coordinates on the Latent Space of GANs
Authors Jaewoong Choi, Changyeon Yoon, Junho Lee, Jung Ho Park, Geonho Hwang, Myungjoo Kang
在本文中，我们提出了一种在生成对抗网络GAN的中间潜空间上找到局部几何意识的遍历遍历方向的方法。这些方向被定义为处于潜在代码的切线空间的有序基础。通过潜在空间的固有稀疏性，通过求解部分网络的差分的低秩近似问题来发现基础。此外，本地遍历基础导致潜伏空间上的自然迭代遍历。迭代曲线遍历在图像上显示稳定的遍历，因为与线性遍历相比，潜在代码的轨迹即使在强烈的扰动下也会靠近潜在空间。这种稳定性提供了给定图像的更多样化的变化。虽然所提出的方法可以应用于各种GaN模型，但我们专注于样式甘蓝的W空间，这对于表现出更好的潜在变异因素的解剖更好的解剖。我们的定量和定性分析提供了证据，表明W空间仍然全球扭曲，同时显示出可解释变异的一定程度的全局一致性。特别是，我们在基层歧管上介绍了一些指标，以量化W空间的全球翘曲和遍历遍历遍历方向的稳定性。

A Stronger Baseline for Ego-Centric Action Detection
Authors Zhiwu Qing, Ziyuan Huang, Xiang Wang, Yutong Feng, Shiwei Zhang, Jianwen Jiang, Mingqian Tang, Changxin Gao, Marcelo H. Ang Jr, Nong Sang,
本技术报告分析了在CVPR2021研讨会中举办的2021史诗厨房100次比赛中使用的EGoCentric视频动作检测方法。我们任务的目标是找到长虚拟视频中的动作的开始时间和结束时间，并预测行动类别。我们采用滑动窗策略来生成提案，可以更好地适应短期持续时间。此外，我们表明分类和提案是在同一网络中的冲突。两项任务的分离提高了高效率的检测性能。通过简单地采用这些策略，我们在测试集的史诗厨房100个动作检测挑战上实现了16.10个性能，在平均地图方面超过了基线方法11.7。

Cross-Modal Attention Consistency for Video-Audio Unsupervised Learning
Authors Shaobo Min, Qi Dai, Hongtao Xie, Chuang Gan, Yongdong Zhang, Jingdong Wang
跨模态相关性为视频无监督的表示学习提供了一个固有的监督。现有方法侧重于通过视觉和音频表示区分不同的视频剪辑。我们的视觉感知可以参加声音的地区，我们的听觉感知也可以将其频率接地，我们调用双向局部对应。这种监督直观但在对比的学习框架中探讨了。本文介绍了借口任务，跨模型注意力CMAC，用于探索双向本地通信属性。 CMAC方法旨在使纯粹从视觉信号产生的区域注意力与在声学信号的引导下产生的目标注意力，并且对声学关注的频率接地进行类似的对准。伴随着在模态相互作用中考虑额外的Remoulded跨模型对比损失，CMAC方法有效地用于实施双向对准。在六个下游基准测试中的广泛实验表明CMAC可以改善视觉和音频模式的最新性能。

Inverting Adversarially Robust Networks for Image Synthesis
Authors Renan A. Rojas Gomez, Raymond A. Yeh, Minh N. Do, Anh Nguyen
近期逆势稳健的分类器的研究表明，他们的表现往往与人类感知一致，这使得它们对图像合成和恢复应用具有吸引力。尽管有利于少数下游任务的经验结果，但它们的优点仅限于基于缓慢和敏感的优化技术。此外，它们对生成模型的使用仍未探索。这项工作提出使用鲁棒表示作为特征反转模型的感知原始，并且对标准非强大图像特征表示其优点。我们经验证明，采用稳健的表示作为图像，显着提高了基于CNN的重建精度的特征反演模型。此外，它允许在盒子中从多个刻度重建图像。在这些发现之后，我们提出了一种基于鲁棒的表示编码解码网络，并显示其对异常检测，样式转移和图像去噪的应用的优点。

Deep Learning for Reversible Steganography: Principles and Insights
Authors Ching Chun Chang, Xu Wang, Sisheng Chen, Isao Echizen, Victor Sanchez, Chang Tsun Li
深度学习Textendash中心可逆的隐写术已成为一个有前途的研究范式。将深度学习应用于可逆的隐写术的直接方式是构建一对编码器和解码器，其参数共同训练，从而将隐士系统整体学习。然而，这一端到端框架缺乏可逆性要求，因为这种单片系统难以创造或重复复杂的可逆机制。为了响应这个问题，最近的方法是致力于雕刻制度并独立地处理模块。特别地，神经网络部署在分析模块中以学习数据分布，而调用建立的机制以处理剩余任务。在本文中，我们研究了模块化框架，并在被称为预测误差调制中的可逆书签方案中部署深神经网络，其中分析模块用于像素强度预测的目的。本研究的主要焦点是基于深度学习的基于环境感知像素强度预测。我们解决了相关文献中报告的未解决问题，包括像素初始化对预测准确性的影响以及在双层嵌入中的不确定性传播的影响。此外，我们在上下文意识的像素强度预测和低级计算机视觉之间建立连接，并分析几个高级神经网络的性能。

An Interaction-based Convolutional Neural Network (ICNN) Towards Better Understanding of COVID-19 X-ray Images
Authors Shaw Hwa Lo, Yiqiao Yin
可解释的人工智能XAI的领域旨在建立可解释和可解释的机器学习或深度学习方法，而不会牺牲预测性能。卷积神经网络CNNS已经成功地进行预测，尤其是在图像分类中。然而，这些着名的深度学习模型基于大量的预训练过滤器使用了数千万个参数，这些过滤器已经从以前的数据集重新播放。我们提出了一种新颖的基于互动的卷积神经网络ICNN，不会对本地信息的相关性做出假设。相反，我们使用模型的自由影影响分数我得分，直接从图像中提取有影响的信息来形成重要的变量模块。我们证明，在实际世界数据集对COVID 19胸X射线图像的实际世界数据集上，所提出的方法产生了99.8的技术预测性能的状态，而不牺牲模型的解释性。这一提出的设计可以在人类诊断前有效地筛选Covid 19患者，并将成为解决大规模数据集中未来XAI问题的基准。

Domain Generalization on Medical Imaging Classification using Episodic Training with Task Augmentation
Authors Chenxin Li, Qi Qi, Xinghao Ding, Yue Huang, Dong Liang, Yizhou Yu
由于扫描仪供应商，成像协议等的变体，医学成像数据集通常表现出域移位。这提高了对机器学习模型的泛化容量的关注。域泛化DG，旨在学习来自多个源极域的模型，使得它可以直接推广到看不见的测试域，对医学成像界特别有前途。为了解决DG，介绍了最近的模型无政府间学习MAML，从而从以前的培训任务转移知识，以促进新颖的测试任务的学习。然而，在临床实践中，通常只有一些注释的源域可用，这降低了培训任务生成的能力，从而提高了在范式中培训任务的风险。在本文中，我们提出了一种新的DG培训的DG方案，具有关于医学成像分类的任务增强。基于Meta学习，我们开发了扩展训练的范式，以构建从epiSodic训练任务模拟到DG实际测试任务的知识转移。通过现实世界医学部署的有限数量的源域来激励，我们考虑独特的任务水平过度装备，我们提出了在培训任务生成过程中增强了这一品种的任务增强，以减轻它。通过既定的学习框架，我们进一步利用了一个新的元目标来规范培训域的深度嵌入。为了验证所提出的方法的有效性，我们对组织病理学图像和腹部CT图像进行实验。

Hyperspectral and Multispectral Classification for Coastal Wetland Using Depthwise Feature Interaction Network
Authors Yunhao Gao, Wei Li, Mengmeng Zhang, Jianbu Wang, Weiwei Sun, Ran Tao, Qian Du
监测沿海湿地对海洋和陆地生态系统的保护非常重要。然而，由于复杂的环境，严重的植被混合物和访问难度，无法准确地分类沿海湿地并用传统分类器识别它们的物种。尽管为性能增强集成了Multisource遥感数据，但获取和利用来自多源数据的互补优点仍存在挑战。在本文中，提出了深智光分类的湿地分类互动网络Dfinet。深度跨关注模块旨在提取来自Multisource特征对的自相关和交叉相关性。以这种方式，强调有意义的互补信息进行分类。 Dfinet通过协调一致性损失，歧视损失和分类损失来优化。因此，DFINET在损耗函数的规律性下达到标准解决方案，而空间一致性和特征歧视是保留的。两个高光谱和多光谱湿地数据集上的综合实验结果表明，所提出的Dfinet在整体准确性方面优于其他竞争方法。

The Spatio-Temporal Poisson Point Process: A Simple Model for the Alignment of Event Camera Data
Authors Cheng Gu, Erik Learned Miller, Daniel Sheldon, Guillermo Gallego, Pia Bideau
由生物视觉系统启发的事件摄像机提供了自然和数据有效的视觉信息的表示。以通过本地亮度变化触发的事件的形式获取可视信息。相机S传感器的每个像素位置以非常高的时间分辨率异步地和独立地记录事件。然而，由于大多数亮度改变被相机和场景的相对运动触发，所以在单个传感器位置记录的事件很少对应于同一个世界点。要从事件摄像机中提取有意义的信息，请注册由相同的底层世界点触发的事件有助于。在这项工作中，我们提出了一种新的事件数据模型，捕获其天然时空时间结构。我们首先开发用于对齐的事件数据的模型。也就是说，我们为数据开发了一个模型，如它已经完全注册了。特别是，我们将对齐的数据模拟为时空时间泊松点过程。基于此模型，我们开发了注册尚未对齐的事件的最大可能性方法。也就是说，我们发现所观察到的事件的转换，使其尽可能可能根据我们的模型。特别是我们提取相机旋转，导致最佳事件对齐。我们对DAVIS 240C数据集的旋转速度估计显示了新的最新状态。此外，我们的方法也比几种竞争方法更快，并且具有较低的计算复杂性。

Sparse PointPillars: Exploiting Sparsity in Birds-Eye-View Object Detection
Authors Kyle Vedder, Eric Eaton
俯视eyi视图bev是处理3D点云的流行表示，其性质从根本上稀疏。通过移动机器人平台的计算限制，我们采用快速高性能的BEV 3D对象探针，并修改其骨干以利用这种稀疏性，导致堆叠减少。我们提出了初步结果，展示了具有相同性能的降低的运行时间或性能下降，我们预期的性能将被模型特定的HyperParameter调整纠正。我们的作品是迈向新一类对象探测器的第一步，该探测器在整个管道中利用稀疏性，以减少运行时和资源使用，同时保持良好的检测性能。

A Multi-Implicit Neural Representation for Fonts
Authors Pradyumna Reddy, Zhifei Zhang, Matthew Fisher, Hailin Jin, Zhaowen Wang, Niloy J. Mitra
字体遍布文档普遍存在，有各种风格。它们以本机向量格式表示或光栅化以产生固定分辨率图像。在第一种情况下，非标准表示可防止受益于最新的网络架构进行神经表示，而在后一种情况下，在通过网络编码时，光栅化表示导致数据保真度的丢失，如边缘和角落的字体特定的不连续性难以代表使用神经网络。基于观察到，复杂字体可以通过一组更简单的占用函数的叠加来表示，我们引入帖子多种意义，以表示字体，作为学习的透视隐照功能，而不会失去特征。，边缘和角落。然而，虽然多种含义本地保护字体特征，但是以地面真理多通道信号的形式获取监控是本身的问题。相反，我们提出了如何只用本地监督培训这种表示，而建议的神经结构直接发现字体系列的全球一致的多含义。我们广泛地评估了各种任务所提出的代表，包括重建，插值和综合，以证明现有替代方案的明显优势。另外，表示自然地启用字形完成，其中单个特征字体用于在目标样式中综合整个字体系列。

DyGLIP: A Dynamic Graph Model with Link Prediction for Accurate Multi-Camera Multiple Object Tracking
Authors Kha Gia Quach, Pha Nguyen, Huu Le, Thanh Dat Truong, Chi Nhan Duong, Minh Triet Tran, Khoa Luu
多相机多对象跟踪MC MOT是一种重要的计算机视觉问题，因为其在几个现实世界应用中的新兴适用性。尽管存在大量现有作品，但解决任何MC MOT管道中的数据关联问题可以说是最具挑战性的任务之一。然而，由于许多实际问题，诸如不一致的照明条件，不同的物体运动模式，或相机之间的物体的轨迹闭塞等许多实际问题，开发稳健的MC MOT系统仍然具有高度挑战。为解决这些问题，因此，这项工作提出了一种具有链路预测Dyglip方法的新动态图形模型来解决数据关联任务。与现有方法相比，我们的新模型提供了几个优点，包括更好的特征表示和在相机过渡期间从丢失的轨道中恢复的能力。此外，无论摄像机之间的重叠比率如何，我们的模型都优雅地工作。实验结果表明，我们在几个实际数据集中通过大幅度优于现有的MC MOT算法。值得注意的是，我们的模型在线设置上有利地工作，但可以扩展到大规模数据集的增量方法。

Video Super-Resolution Transformer
Authors Jiezhang Cao, Yawei Li, Kai Zhang, Luc Van Gool
视频超分辨率VSR，目的是从其相应的低分辨率版本恢复高分辨率视频，是空间时间序列预测问题。最近，变压器由于其平行计算能力而序列建模，变压器已经受到普及。因此，应用视觉变压器似乎很简单地求解VSR。然而，由于以下两个原因，具有完全连接的自我注意层和令牌明智的馈电前线的变压器的典型块设计不适合VSR。首先，完全连接的自我注意层忽略以利用数据局部性，因为该层依赖于线性层来计算注意力映射。其次，令牌WISE馈送前向层缺少特征对齐，这对于VSR很重要，因为该层独立地处理每个输入令牌嵌入物而没有任何相互作用。在本文中，我们首次尝试为VSR调整变压器。具体而言，为了解决第一个问题，我们呈现了一种空间时间卷积自我注意层，具有理论上的理解来利用地区信息。对于第二个问题，我们设计了一种基于双向光流的馈电转发层，以发现不同视频帧的相关性并对特征进行对齐。在几个基准数据集上进行了广泛的实验，证明了我们提出的方法的有效性。代码将可用

Evaluating Foveated Video Quality Using Entropic Differencing
Authors Yize Jin, Anjul Patney, Alan Bovik
由于硬件技术的最新进步，虚拟现实正在恢复关注。沉浸式图像视频正在广泛采用携带全向视觉信息。但是，由于对实际视频数据的更高空间和时间分辨率的要求，沉浸视频需要显着更大的带宽消耗。为了减少带宽的应力，可以恢复流行度的蓄水，从而利用视网膜的空间变体空间分辨率。在推进普遍的视频压缩进展方面，我们提出了完整的参考文献FR FOVEATED图像质量评估算法，我们通过应用基于FOVEATION的错误加权的局部熵的差异来呼吁FEVEATED熵差异的exp。灵敏度函数。我们通过测量馈线对新创建的2D和3D Live FBT FCVR数据库对虚拟现实VR对人类判断的预测的相关性来评估所提出的算法。与其他现有的完整参考算法相比，所提出的算法的性能产生了现有技术。 FED软件已提供

Contrastive Semi-Supervised Learning for 2D Medical Image Segmentation
Authors Prashant Pandey, Ajey Pai, Nisarg Bhatt, Prasenjit Das, Govind Makharia, Prathosh AP, Mausam
对比学习CL是最近的表示学习方法，通过鼓励学习图像表示中的阶级可分离和帧内紧凑性来实现有前途的结果。因为医学图像通常包含每张图像的多个类别，所以这些图像的标准图像级CL不适用。在这项工作中，我们提出了一种新的半监督2D医学分段解决方案，将CL应用于图像补丁，而不是完整的图像。使用通过伪标记获得的不同类的语义信息有意义地构造这些补丁。我们还提出了一种新的一致性正规化计划，其在对比学习中的协同作用。它解决了在SEMI监督设置中经常观察到的确认偏差问题，并鼓励在特征空间中进行更好的聚类。我们在四个公共医学细分数据集中评估我们的方法以及我们介绍的新型组织病理学数据集。我们的方法对所有数据集的最先进的半监督分段方法获得一致的改进。

A One-Shot Texture-Perceiving Generative Adversarial Network for Unsupervised Surface Inspection
Authors Lingyun Gu, Lin Zhang, Zhaokui Wang
由于目标表面的高度多样化和缺陷的地区，视觉表面检验是一个具有挑战性的任务。以前尝试使用手动注释大量依赖大量培训示例。然而，在一些实际情况下，难以获得大量样品进行检查。为了打击它，我们提出了一种分层纹理，感知从一个无监督方案中从一个拍摄正常图像中学到的生成的对抗网络HTP GaN。具体地，HTP GaN包含卷积导弹的金字塔，可以同时捕获全局结构和图像的细粒度表示。这种创新有助于将缺陷的表面区域与正常的缺陷区分开来。另外，在鉴别器中，设计了一种纹理感知模块，通过方向卷积捕获正常图像的空间不变表示，使其对缺陷区域更敏感。对各种数据集的实验一致地证明了我们方法的有效性。

Dynamic Clone Transformer for Efficient Convolutional Neural Netwoks
Authors Longqing Ye
卷积网络扫描器表明了解各种视觉任务的令人印象深刻的能力。尽管如此，性能和效率之间的折扣仍然是资源受限平台可行模型部署的挑战。在本文中，我们介绍了一个新的概念，称为多路径完全连接的模式MPFC，重新思考拓扑模式，准确性和验证效率的相互依赖性。受MPFC的启发，我们进一步提出了一个名为动态克隆变换器DCT的双分支模块，其中一个分支从输入生成多个副本，另一个分支通过一系列差值向量改革这些克隆在输入本身上有条件，以产生更多变体。该操作允许以数据驱动的方式自扩展，以具有很少的计算成本，同时提供足够的学习能力，这是一种潜在的单元，用于将计算昂贵的点卷积替换为瓶颈结构中的扩展层。

DeepMMSA: A Novel Multimodal Deep Learning Method for Non-small Cell Lung Cancer Survival Analysis
Authors Yujiao Wu, Jie Ma, Xiaoshui Huang, Sai Ho Ling, Steven Weidong Su
肺癌是全世界癌症死亡的主要原因。死亡的关键原因是延迟诊断和预后差。随着深入学习技术的加速发展，它已成功应用于许多现实世界应用，包括医学图像解释和疾病诊断等卫生部门。通过组合从事从事信息处理的更多模式，多式化学习可以提取更好的特征和提高预测能力。肺癌存活分析的常规方法通常利用临床数据，只提供统计概率。为了提高生存预测准确性，帮助医疗专家临床实践中的预后决策，我们首次提出了非小细胞肺癌NSCLC生存分析的多峰深度学习方法，名为DeepMMSA。该方法利用CT图像与临床数据结合，使得在医学图像中的丰富信息持有，以与肺癌生存信息相关联。我们验证了我们在癌症成像档案TCIA的422个NSCLC患者的数据上的方法。实验结果支持我们的假设，即预后信息与辐射图像之间存在潜在的关系。此外，定量结果表明，已建立的多模型模型可以应用于传统方法，并且有可能破坏现有方法的瓶颈，并增加整体人群中的右预测对的齐率对的百分比。

Task Transformer Network for Joint MRI Reconstruction and Super-Resolution
Authors Chun Mei Feng, Yunlu Yan, Huazhu Fu, Li Chen, Yong Xu
磁共振成像MRI的核心问题是加速度与图像质量之间的折衷。图像重建和超分辨率是磁共振成像MRI中的两个重要技术。目前的方法旨在单独执行这些任务，忽略它们之间的相关性。在这项工作中，我们建议结束结束任务变压器网络T 2网络，用于联合MRI重建和超级分辨率，允许在多项任务之间共享的表示和特征传输，以实现更高的质量，超级解决和运动伪影从高度自由图像欠采样和退化的MRI数据。我们的框架将重建和超级分辨率相结合，分为两个子分支，其功能表示为查询和键。具体地，我们鼓励两个任务之间的联合特征学习，从而传输准确的任务信息。我们首先使用两个单独的CNN分支来提取任务特定功能。然后，任务变压器模块旨在嵌入和综合两个任务之间的相关性。实验结果表明，我们的多任务模型显着优于高级顺序方法，包括定量和定性。

Multi-level Attention Fusion Network for Audio-visual Event Recognition
Authors Mathilde Brousmiche, Jean Rouat, St phane Dupont
事件分类本质上是顺序和多模式。因此，深度神经模型需要动态地关注视频的最相关的时间窗口和或模式。在本研究中，我们提出了多级关注融合网络MAFNet，一种可以动态地融合的架构，用于事件识别。灵感来自于神经科学的先前研究，我们将两种方式耦合在不同级别的视觉和音频路径。此外，网络动态地突出显示与对事件相关的给定时间窗口的模态。 AVE音频视觉活动，UCF51和动力学声音数据集的实验结果表明，该方法可以有效提高音频视觉事件分类的准确性。代码可用

LE-NAS: Learning-based Ensenble with NAS for Dose Prediction
Authors Yi Lin, Yanfei Liu, Jingguang Liu, Guocai Liu, Kai Ma, Yefeng Zheng
放射治疗治疗计划是一种复杂的过程，因为目标剂量处方和正常组织备件是相互矛盾的目标。对放射治疗计划的自动和准确剂量预测有很大的需求。在这项研究中，我们提出了一种名为Le NAS的新型学习的集合方法，该方法与3D放射治疗剂量预测的知识蒸馏集成了神经结构搜索NAS。具体地，预测网络首先详细地搜索来自巨大的架构空间的每个块。然后，选择具有有希望性能和多样性的多个架构。为了减少推理时间，我们通过将多种搜索的网络的组合作为指导学生网络培训的监督来处理教师学生范式。此外，我们申请对冲学习以优化学生网络以恢复教师网络的知识。据我们所知，我们是第一个调查NAS和知识蒸馏的结合的人。该方法已经在公共OpenKBP数据集上进行了评估，实验结果证明了我们的方法的有效性及其对现有技术的卓越性能。

Go Small and Similar: A Simple Output Decay Brings Better Performance
Authors Xuan Cheng, Tianshu Xie, Xiaomin Wang, Jiali Deng, Minghui Liu, Ming Liu
正规化和数据增强方法已被广泛使用，并在深度学习培训方面变得越来越不可或缺。奉献自己的研究人员认为是各种可能性。但到目前为止，几乎没有关于规范模型的输出的讨论。本文从实证观察开始，更好的性能与输出分布显着相关，具有较小的平均值和差异。通过录取有涉及的因果关系，我们提出了一种名为“输出衰减”的新型正则化术语，该术语执行了模型，以在每个类上分配更小和相似的输出值。虽然是逆直观的，但这种小修改导致了对性能显着提高。广泛的实验证明了输出衰减的广泛适用性，多功能性和兼容性。

DS-TransUNet:Dual Swin Transformer U-Net for Medical Image Segmentation
Authors Ailiang Lin, Bingzhi Chen, Jiayu Xu, Zheng Zhang, Guangming Lu
自动医学图像分割使得深度学习的发展取得了巨大进展。然而，大多数现有方法基于卷积神经网络CNNS，其由于卷积操作中的接收场的限制而无法构建长距离依赖性和全局上下文连接。受到变压器成功在建模远程语境信息方面的启发，一些研究人员在设计基于REN的变压器的鲁棒变量方面消耗了相当大的努力。此外，视觉变压器中使用的贴片部通常忽略每个贴片内的像素级内在结构特征。为了缓解这些问题，我们提出了一种名为Dual Swin变压器U Net DS TransUnet的新型深度医学图像分割框架，这可能是第一次尝试将分层SWIN变压器的优势与标准U形架构的标准U形架构的编码器和解码器同时结合到其中增强不同医学图像的语义分割质量。与许多先前的变压器基础的解决方案不同，所提出的DS TransUnet首先采用基于Swin变压器的双级编码器子网，以提取不同语义尺度的粗糙和细粒度特征表示。作为我们DS TransUnet的核心组件，提出了一种精心设计的变压器交互式融合TIF模块，以在通过自我注意机制有效地建立不同尺度的特征之间的全局依赖性。此外，我们还将Swin变压器块介绍到解码器中，以进一步探索在取样过程中的长距离上下文信息。用于医学图像分割的四个典型任务的广泛实验证明了DS Transuret的有效性，并表明我们的方法显着优于现有方法的现有方法。

Unsupervised Place Recognition with Deep Embedding Learning over Radar Videos
Authors Matthew Gadd, Daniele De Martini, Paul Newman
我们以无监督的方式学习，从雷达图像的序列嵌入，该雷达图像适合于使用复杂的雷达数据解决地识别问题。我们试验在280公里的数据上，显示出现艺术监督方法的性能超过最新，在使用最近的数据库候选人的时间内定位98.38。

Reverse-engineer the Distributional Structure of Infant Egocentric Views for Training Generalizable Image Classifiers
Authors Satoshi Tsutsui, David Crandall, Chen Yu
我们分析了从婴儿的参加对象的Egocentric视图。本文显示了1个经验证据，儿童的EGEntric观点与成年人视图相比具有更多样化的分布，2我们可以计算地模拟婴幼儿分布，3个分配对于培训更广泛的图像分类器不仅适用于婴儿的婴儿，而且是第三个人计算机愿景。

Multistream ValidNet: Improving 6D Object Pose Estimation by Automatic Multistream Validation
Authors Joy Mazumder, Mohsen Zand, Michael Greenspan
这项工作提出了一种新颖的方法来通过检测和区分真实和假阳性结果的发生来改善姿势估计的结果。它通过在任意姿态估计算法的输出上训练二进制分类器来实现这一点，并返回指示结果的有效性的二进制标签。我们证明我们的方法在SIL ANE数据集上提高了最先进的姿势估计结果，优先于平均验证的平均准确度和0.73的替代CULLNET方法的变化。应用我们的方法还可以平均提高OP网络的姿态估计平均精度结果。

Structure-Regularized Attention for Deformable Object Representation
Authors Shenao Zhang, Li Shen, Zhifeng Li, Wei Liu
捕获上下文依赖性已经证明有助于提高深度神经网络的代表性。最近侧重于建模全局上下文的方法，例如自我关注和非本地操作，通过实现元素之间的不受约束的成对交互来实现这一目标。在这项工作中，我们考虑通过建模数据本质上具有的结构依赖性来从上下文剥削中受益的可变形对象的学习表示。为此，我们提供了一种新颖的结构正规化注意力机制，其通过使用一对轻的重量操作将特征互动作为结构性分解形式。实例化的构建块可以直接纳入现代卷积神经网络，以便以有效的方式提高代表性。关于多项任务和现代关注机制的综合研究和经验比较展示了我们在性能和模型复杂性方面所带来的增长。我们进一步调查其对特征表示的影响，表明我们的培训模型可以捕获多样化的表示表征对象零件的情况而不诉诸额外的监督。

Disrupting Model Training with Adversarial Shortcuts
Authors Ivan Evtimov, Ian Covert, Aditya Kusupati, Tadayoshi Kohno
当数据被公开发布人类消费时，目前尚不清楚如何防止其未经授权的机器学习目的的使用情况。可以使用精心设计的数据集修改可以预防成功的模型培训，并且我们呈现了图像分类设置的概念方法证明。我们提出了基于对抗性快捷方式的概念的方法，这鼓励模型依赖于非强大信号而不是语义特征，并且我们的实验表明，这些措施成功地防止了对实际，未修改的数据示例的高精度。

Large-Scale Unsupervised Object Discovery
Authors Huy V. Vo, Elena Sizikova, Cordelia Schmid, Patrick P rez, Jean Ponce
未经监督的对象发现UOD的现有方法不会扩展到大型数据集，而不会损害其性能的近似值。我们提出了一种新颖的UOD作为排名问题，适用于可用于特征值问题和链路分析的分布式方法的阿森纳。与Coco和OpenImmages的广泛实验表明，在每个图像中寻求单个突出对象的单个物体发现设置中，所提出的LOD大规模对象发现方法与中型的艺术状态有关，或者更好地数据集最多可达120k的图像，并且比仅能够缩放最多1.7M图像的唯一其他算法超过37个。在每个图像中寻求多个对象的多对象发现设置中，所提出的LOD在平均精度AP中超过14，而不是从20K到1.7M图像的数据集的所有其他方法。

1st Place Solution for YouTubeVOS Challenge 2021:Video Instance Segmentation
Authors Thuy C. Nguyen, Tuan N. Tang, Nam LH. Phan, Chuong H. Nguyen, Masayuki Yamazaki, Masao Yamanaka
视频实例分段VI是执行检测，分割和跟踪的多任务问题。从图像集应用程序扩展，视频数据另外引起时间信息，如果适当地处理，这对于识别和预测对象动作非常有用。在这项工作中，我们设计一个统一的模型来相互学习这些任务。具体地，我们提出了两个名为时间相关的实例分割TCIS和双向跟踪位点的两个模块，以利用跨越相邻帧的对象S实例掩码之间的时间相关的益处。另一方面，由于帧的重叠，视频数据通常是多余的。我们的分析表明，此问题对于YouTubevos Vis2021数据特别严重。因此，我们提出了一种多源数据MSD培训机制来补偿数据缺陷。通过将这些技术与一袋技巧组合，与基线相比，网络性能显着提升，并且在YouTubevos VIS到2019和2021数据集上以相当多的余量优于其他方法。

CAR-Net: Unsupervised Co-Attention Guided Registration Network for Joint Registration and Structure Learning
Authors Xiang Chen, Yan Xia, Nishant Ravikumar, Alejandro F Frangi
图像配准是医学图像分析中各种应用的基本构建块。为了更好地探索固定和运动图像之间的相关性并提高注册性能，我们提出了一种新颖的深度学习网络，CO注意引导登记网络车网。 CAR网采用CO注意力块来学习输入的新表示，该输入的注册是固定和运动图像的登记。英国Biobank心脏调解磁共振图像数据的实验表明，汽车网比艺术无监督的登记方法的状态获得更高的登记精度和更顺畅的变形字段，同时实现比对应的弱监督变形相当或更好的登记性能。另外，我们的方法可以以完全无监视的方式同时提供输入固定和运动图像的关键结构信息。

Mirror3D: Depth Refinement for Mirror Surfaces
Authors Jiaqi Tan, Weijie Lin, Angel X. Chang, Manolis Savva
尽管最近深度传感和3D重建进展，但镜面是一个重要的错误来源。为了解决这个问题，我们创建了基于三个RGBD数据集TAKEPORT3D，NYUV2和COMANNET的Mirror3D数据集3D镜像三维镜像数据集，其中包含7,011镜像实例掩码和3D平面。然后，我们开发Mirror3DNet一个模块，该模块将原始传感器深度或估计深度精确到校正镜像曲面上的错误。我们的主要思想是基于RGB输入和周围深度上下文来估计3D镜像平面，并使用此估计直接回归镜面深度。我们的实验表明，Mirror3Dnet显着降低了各种输入深度数据的误差，包括原始传感器深度和深度估计或完成方法。

Pay Attention with Focus: A Novel Learning Scheme for Classification of Whole Slide Images
Authors Shivam Kalra, Mohammed Adnan, Sobhan Hemati, Taher Dehkharghanian, Shahryar Rahnamayan, Hamid Tizhoosh
诸如卷积神经网络CNN的深度学习方法难以直接利用由于大图像尺寸而分析整个幻灯片图像WSIS。我们通过提出一种新颖的两级方法来克服这种限制。首先，我们从WSI中提取一个名为MORAIC的一组代表性补丁。使用深网络编码每个马赛克拼接器被编码到特征向量。使用WSI的分层目标标签，即解剖网站和初级诊断，该特征提取器模型精细调整。在第二阶段，来自WSI的一组编码补丁级别特征用于通过焦点方案的建议请注意来计算主要诊断概率，对由可训练焦点调制的所有斑块的所有斑块的预测概率的注意力加权平均因素。实验结果表明，该模型对于WSIS的分类而言，拟议的模型可能是鲁棒性的，有效。

Toward Accurate and Realistic Outfits Visualization with Attention to Details
Authors Kedan Li, Min jin Chong, Jeffrey Zhang, Jingen Liu
虚拟尝试方法旨在生成穿着衣服任意组合的时装模特的图像。这是一个具有挑战性的任务，因为生成的图像必须熟悉，准确地显示服装之间的交互。先前作品产生填充有伪影的图像，并且无法捕获商业应用所需的重要视觉细节。我们提出了填写的可视化净OVNet，以捕获这些重要细节。按钮，阴影，纹理，逼真的六菱和服装之间的相互作用，并在图像上产生高质量的多个服装虚拟尝试。 OVNET由1个语义布局发生器和2个使用多个协调的扭曲的图像生成管道组成。我们训练Wenper使用级联丢失输出多个扭曲，这将各连续的经线精制聚焦在前一经纱的产生不良区域，并详细收益改进。此外，我们还介绍了一种匹配套装的方法，具有最合适的模型，并对我们和其他先前的方法产生显着改进。通过定量和定性分析，我们展示了我们的方法与多衣服服装的先前作品相比，我们的方法产生了基本更高的高质量的工作室图像。由此方法提供支持的交互式接口已经部署在时尚电子商务网站上，并收到了绝佳的积极反馈。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com

hitrjj

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【AI视野·今日CV 计算机视觉论文速览第219期】Tue, 15 Jun 2021

AI视野·今日CS.CV 计算机视觉论文速览Tue, 15 Jun 2021 (showing first 100 of 128 entries)Totally 100 papers????上期速览✈更多精彩请移步主页Daily Computer Vision PapersImproved Transformer for High-Resolution GANs Authors Long Zhao, Zizhao Zhang, Ting Chen, Dimitris N. Metaxa
复制链接

扫一扫