【AI视野·今日CV 计算机视觉论文速览第220期】Wed, 16 Jun 2021

最新推荐文章于 2021-07-02 23:05:00 发布

hitrjj

最新推荐文章于 2021-07-02 23:05:00 发布

阅读量1.4k

点赞数

分类专栏： Transformer 计算机视觉 Papers 文章标签：顶会cvpr transformer 计算机视觉 cv cvpr2021

本文链接：https://blog.csdn.net/u014636245/article/details/118032918

版权

Papers 同时被 3 个专栏收录

458 篇文章 77 订阅

订阅专栏

计算机视觉

379 篇文章 61 订阅

订阅专栏

Transformer

36 篇文章 9 订阅

订阅专栏

AI视野·今日CS.CV 计算机视觉论文速览
Wed, 16 Jun 2021
Totally 76 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Computer Vision Papers

Is this Harmful? Learning to Predict Harmfulness Ratings from Video
Authors Johan Edstedt, Johan Karlsson, Francisca Benavente, Anette Novak, Amanda Berg, Michael Felsberg
自动识别视频中有害内容是具有广泛应用程序的重要任务。然而，由于收集高质量标签以及要求苛刻的计算要求，任务没有满足的一般方法。通常，仅考虑问题的小子集，例如识别暴力内容。在解决一般问题的情况下，对缺乏标签和计算复杂性进行粗略近似和简化。在这项工作中，我们识别并解决两个主要障碍。首先，我们创建一个大约4000个视频片段的数据集，由该领域的专业人员注释。其次，我们展示了视频识别的进步使我们的数据集可以在考虑场景的完整上下文的数据集中实现培训模型。我们对我们的建模选择进行了深入研究，并发现我们非常受益于相结合的视觉和音频模型以及大规模视频识别数据集和级平衡采样的预先预订进一步提高了性能。我们还执行一个定性研究，揭示了我们数据集的大量模态性。我们的数据集将在出版时提供。

Dynamic Head: Unifying Object Detection Heads with Attentions
Authors Xiyang Dai, Yinpeng Chen, Bin Xiao, Dongdong Chen, Mengchen Liu, Lu Yuan, Lei Zhang
组合定位和物体检测分类的复杂性导致了繁荣的方法发展。以前的作品试图提高各种对象检测头中的性能，但无法呈现统一视图。在本文中，我们提出了一种新的动态头框架，统一对象检测头的注意事项。通过相互结合特征级别之间的多重自我注意机制来进行规模意识，在空间意识的空间位置，以及在用于任务意识的输出信道内，所提出的方法显着提高了对象检测磁头的表示能力，而没有任何计算开销。进一步的实验表明，拟议的动态头对Coco基准的有效性和效率。使用标准ResNext 101 DCN骨干网，我们在很大程度上提高了流行对象探测器的性能，并在54.0 AP下实现了新的现有技术。此外，利用最新的变压器骨干和额外数据，我们可以将当前最好的CoCo结果推动到60.6 AP的新记录。该代码将被释放

Gradient Forward-Propagation for Large-Scale Temporal Video Modelling
Authors Mateusz Malinowski, Dimitrios Vytiniotis, Grzegorz Swirszcz, Viorica Patraucean, Joao Carreira
如何有效地在大量时间数据上培训神经网络，以计算更新参数所需的渐变，BackPropagation阻止计算，直到正向和向后通行证完成。对于时间信号，这引入了高延迟和妨碍实时学习。它还在连续层之间产生耦合，这限制了模型并行性并提高了存储器消耗。在本文中，我们在侧向构建，避免通过在时间前向前传播近似梯度，并且我们基于跳过连接的不同变体提出了信息的时间集成的机制。我们还展示了如何将计算和委派个人神经模块委托到不同的设备，允许分布式和并行培训。建议的跳过侧面实现了低延迟训练，模型并行性，并且重要的是，能够提取时间特征，导致更稳定的训练和在现实世界动作识别视频数据集上提高性能，例如HMDB51，UCF101和大型动力学600 。最后，我们还表明，用跳过横向训练的型号比侧向模型产生更好的未来框架，因此它们可以更好地利用运动线索。

Multi-StyleGAN: Towards Image-Based Simulation of Time-Lapse Live-Cell Microscopy
Authors Tim Prangemeier, Christoph Reich, Christian Wildner, Heinz Koeppl
时间间隔荧光显微镜TLFM结合预测数学建模是一种强大的工具，可以研究单个细胞水平的固有动态生命过程。这种实验昂贵，复杂和劳动密集型。一种免费的方法和完全在Silico实验中的一步，是综合图像本身。在这里，我们提出了一种多样式作为模拟活细胞时间间隔荧光显微图像的描述方法，基于过去的实验。该新颖的生成对抗性网络合成了连续时间步导的多个域序列。我们展示了在微结构环境中的多个活酵母细胞的图像上的多样式，并在我们的实验室中记录的数据集上列车。该模拟捕获基础的生物物理因素和时间依赖性，例如细胞形态，生长，物理相互作用以及荧光报告蛋白的强度。立即应用是为特征提取算法生成额外的培训和验证数据，或者帮助和加快开发先进的实验技术，例如在线监测或控制细胞。

Generating Data Augmentation samples for Semantic Segmentation of Salt Bodies in a Synthetic Seismic Image Dataset
Authors Luis Felipe Henriques, S rgio Colcher, Ruy Luiz Milidi , Andr Bulc o, Pablo Barros
如今，地下盐体本地化和描绘，也称为盐体的语义细分，是最具挑战性的地球物理主义任务之一。因此，识别大盐体是臭名昭着的，并且对于识别烃储层和钻道规划至关重要。这项工作提出了一种基于训练两种生成模型的数据增强方法，以增加用于盐体的语义分割的地震图像数据集中的样本数量。我们的方法使用深度学习模型来生成对地震图像贴片的对和各自的盐掩模，以便数据增强。第一型号是变形式自动化器，负责产生盐体掩模的斑块。第二是条件归一化流量模型，其接收所生成的掩码作为输入并生成相关的地震图像斑块。我们通过比较了在两个合成地震图像的数据集中比较了用于语义分割的十个不同状态的十个不同状态的性能的十个不同状态的性能，从两个合成地震图像的数据集中进行了评估。拟议的方法在所有比较模型中都会产生8.57的平均改善。最好的结果是通过DEEPLABV3模型变体实现的，这在我们的增强时培训了95.17的iou得分。此外，我们的提案表现优于六种选择的数据增强方法，并通过从弹性转换的增强来实现我们的DA，实现了9.77的比较中最显着的改进。最后，我们示出该方法通过实现与在较小的上下文尺寸上获得的结果相当的结果来适应更大的上下文尺寸。

Multi-script Handwritten Digit Recognition Using Multi-task Learning
Authors Mesay Samuel Gondere, Lars Schmidt Thieme, Durga Prasad Sharma, Randolf Scholz
手写的数字识别是机器学习中的广泛研究区域之一。除了在Mnist DataSet上的手写数字识别方面的更广泛的研究外，还有许多关于各种脚本识别的研究工作。然而，对于多脚本数字识别并不是很常见，这鼓励开发强大和多用途系统。另外，在多脚本数字识别上工作，可以将脚本分类视为相关任务的脚本分类。显然，使用相关任务中包含的信息，多任务学习通过电感转移来提高模型性能。因此，在本研究中，将研究使用多任务学习的多脚本手写的数字识别。作为证明问题解决方案的具体情况，Amharic手写字符识别也将是实验的。研究了三个脚本的手写数字，包括拉丁语，阿拉伯语和kannada，表明，具有对各个任务的重新制定的多项任务模型已经显示出有前途的结果。在这项研究中，提出了一种使用各个任务预测的新方式，以帮助分类性能并规范不同的损失以获得主要任务的目的。此发现优于基线和传统的多任务学习模型。更重要的是，它避免了需要加权不同损失的任务损失，这是多任务学习中的挑战之一。

Towards Total Recall in Industrial Anomaly Detection
Authors Karsten Roth, Latha Pemula, Joaquin Zepeda, Bernhard Sch lkopf, Thomas Brox, Peter Gehler
能够发现有缺陷的部件是大规模工业制造中的关键组成部分。我们在这项工作中解决的特殊挑战是冷启动问题适合使用标称无缺陷示例图像的模型。虽然每个级别的手工制作的解决方案是可能的，但目标是构建自动在许多不同任务上同时运行的系统。最好的PEFORMING方法将嵌入与异常检测模型的Imagenet模型组合。在本文中，我们在此工作行中扩展并提出了PatchCore，它使用最大代表性的名义补丁功能。 PatchCore提供竞争力的推理时间，同时实现检测和本地化的最先进性能。在标准数据集MVTEC广告中，PACKCORE实现了图像级异常检测AUROC评分为99.1，而不是与下一个最佳竞争对手相比的错误。我们进一步报告了两个额外数据集的竞争结果，并在少数样品制度中找到了竞争结果。

BEiT: BERT Pre-Training of Image Transformers
Authors Hangbo Bao, Li Dong, Furu Wei
我们介绍了一个自我监督的视觉表达模型Beit，其代表来自图像变压器的双向编码器表示。在自然语言处理区域开发的BERT之后，我们向前拉视觉变压器提出了一个蒙面的图像建模任务。具体地，每个图像在我们的预训练中具有两个视图，即，诸如16x16像素的图像补丁以及Visual tokens i.e.，离散令牌。我们首先将原始图像授予视觉令牌。然后我们随机掩盖一些图像修补程序并将其送入骨干变压器。预训练目标是根据损坏的图像补丁恢复原始的视觉令牌。在Pre训练Beit之后，我们通过在佩带的编码器上附加任务图层直接微调下游任务的模型参数。图像分类和语义分割的实验结果表明，我们的模型通过先前的预培训方法实现了竞争力。例如，基本尺寸BEIT在Imagenet 1K上实现了83.2前1个精度，从划痕Deit训练81.8具有相同的设置，显着优化。此外，大尺寸BEIT仅使用Imagenet 1K获得86.3，甚至优于vit L，在想象成22K 85.2上有监督的预训练。代码和预磨料型号可用

Spot the Difference: Topological Anomaly Detection via Geometric Alignment
Authors Steffen Czolbe, Aasa Feragen, Oswin Krause
几何对齐出现在各种应用中，从域间适配，最佳运输和机器学习光流量中的归一化流量，以及在计算机视觉中的学习中学到的生物医学成像中的可变形登记。经常性挑战是域的对齐，其拓扑在下游分析中常规忽略的问题不同样的问题。作为解决这种对准问题的第一步，我们提出了一种无监督的拓扑差异检测算法。该模型基于条件变形自动编码器，并检测关于登记步骤的参考的拓扑异常。我们考虑在空间变化和B意外转换下的图像中的拓扑变化。我们的方法是在图像中无监督异常检测的代理任务验证。

A Spacecraft Dataset for Detection, Segmentation and Parts Recognition
Authors Dung Anh Hoang, Bo Chen, Tat Jun Chin
几乎所有现代生活的各个方面都依赖于太空技术。由于伟大的计算机愿景促进了一般的基于深度学习的技术，特别是在几十年中，世界目睹了深入学习的越来越多，在解决空间应用中的问题，如自动驾驶机器人，示踪剂，像机器人这样的昆虫宇宙和健康监测航天器。这些只是在深度学习的帮助下具有高级空间产业的一些突出示例。然而，深度学习模型的成功需要大量的培训数据来进行体面的性能，而另一方面，有很多有限的公共空间数据集，用于深入学习模型的培训。目前，没有用于基于空间的对象检测或实例分段的公共数据集，部分原因是手动注释对象分割掩码，因为它们需要像素级标记时非常耗时，更不用说从空间获得图像的挑战。在本文中，我们的目标是通过释放用于航天器检测，实例分割和部分识别的数据集来填补这种差距。这项工作的主要贡献是使用空间站和卫星图像的数据集的开发，具有丰富的注释，包括用自动过程和手动努力的混合物获得的空间盒和掩模的横向箱和掩模。我们还提供对象检测和实例分段中的最先进方法的评估作为数据集的基准。可以在下载所提出的数据集的链接

Weakly-Supervised Photo-realistic Texture Generation for 3D Face Reconstruction
Authors Xiangnan Yin, Di Huang, Zehua Fu, Yunhong Wang, Liming Chen
虽然最近在3D面部重建方面取得了很大进展，但最先前的工作已经致力于预测准确和细粒度的3D形状。相比之下，相对较少的工作侧重于产生高保真面纹理。与照片现实2D面貌图像生成的繁荣相比，尚未研究高保真3D面纹理生成。在本文中，我们提出了一种新的UV地图生成模型，其预测来自单个面部图像的UV映射。该模型由UV采样器和UV发生器组成。通过选择性地对输入面部图像S像素进行采样并调整它们的相对位置，UV采样器产生不完整的UV地图，可以忠实地重建原始面。不完整的UV地图中缺少纹理由UV发生器填充。培训基于由3DMM纹理和输入面纹理混合的伪接地真理，从而弱监督。要处理伪紫外线图中的伪影，可以利用多个部分UV映射鉴别器。

Generating Thermal Human Faces for Physiological Assessment Using Thermal Sensor Auxiliary Labels
Authors Catherine Ordun, Edward Raff, Sanjay Purushotham
热图像揭示了关于人类压力，炎症迹象和可见图像中无法看到的情绪的重要生理信息。提供一种从可见图像产生热面的方法对于远程医疗社区来说是非常有价值的，以便显示该医疗信息。据我们所知，热VT面平移可见有限的作品，并且许多电流工作变得相反的方向，以产生来自热监测图像电视的可见面进行执法应用。结果，我们介绍了FAVTGAN，该VT GAN使用与辅助传感器标签预测网络的PIX2PIX图像转换模型用于从可见图像产生热面。由于大多数电视方法仅在一个热传感器汲取的一个数据源上培训，因此我们将数据集与面孔和城市的培训结合起来。这些组合数据从类似的传感器捕获，以便引导训练和转移学习任务，特别是有价值的，因为可见热面数据集是有限的。与单独的单个数据集上的训练相比，这些组合数据集上的实验表明，FavTan表示生成的热面的SSIM和PSNR分数增加。

Computer-aided Interpretable Features for Leaf Image Classification
Authors Jayani P. G. Lakshika, Thiyanga S. Talagala
植物物种识别是耗时，昂贵，并且需要大量的努力和专业知识。最近，许多研究人员使用深入学习方法来使用植物图像直接对植物进行分类。虽然深入学习模式取得了巨大的成功，但缺乏可解释性限制了他们的广泛应用。为了克服这一点，我们探讨了从植物叶片图像中提取的可解释，可测量和计算机辅助特征的使用。图像处理是特征提取中最具挑战性和关键步骤之一。图像处理的目的是通过去除不期望的失真来改善叶图像。我们算法的主要图像处理步骤涉及我将原始图像转换为RGB红色绿色蓝色图像，II灰度缩放，III高斯平滑，IV二进制阈值，V删除茎，VI关闭孔和VII调整大小。图像处理后的下一步是从植物叶片图像中提取特征。我们介绍了52个计算上有效的功能来分类植物物种。这些功能主要分为四组，因为II形状的特征，II基于颜色的特征，III基于纹理的特征，以及IV Scagnostic功能。长度，宽度，面积，纹理相关，单调和粗糙度是为了命名其中很少。我们探讨了在监督学习和无监督的学习环境下歧视兴趣阶层的功能的能力。为此，监督维度降低技术，线性判别分析LDA和无监督的维度降低技术，主要成分分析PCA用于转换和可视化数字图像空间的图像到特征空间。结果表明，在监督和无监督的学习设置下，该特征足以区分兴趣的课程。

Mutation Sensitive Correlation Filter for Real-Time UAV Tracking with Adaptive Hybrid Label
Authors Guangze Zheng, Changhong Fu, Junjie Ye, Fuling Lin, Fangqiang Ding
无人机的空中车辆无人机的视觉跟踪面临着众多挑战，例如，对象运动和闭塞。这些挑战通常引入目标外观的意外突变并导致跟踪失败。然而，由于预定标签，基于普遍的判别相关滤波器DCF基于诱变的跟踪器对目标突变不敏感，其仅仅专注于训练区域的中心。同时，由遮挡或类似物体引起的外观突变通常会导致错误信息的不可避免地学习。为了应对外观突变，本文提出了一种基于DCF的基于DCF的方法，以增强具有适应性杂交标签的敏感性和抗突变，即MSCF。理想标签与相关滤波器共同优化，仍然是时间的一致性。此外，施加一种新的突变测量，施加称为突变威胁因子MTF以动态校正标签。广泛使用的UAV基准进行了相当大的实验。结果表明，MSCF跟踪器的性能超过了基于技术和基于深的跟踪器的其他26状态。具有38帧的实时速度，所提出的方法足以让UAV跟踪佣金。

Relation Modeling in Spatio-Temporal Action Localization
Authors Yutong Feng, Jianwen Jiang, Ziyuan Huang, Zhiwu Qing, Xiang Wang, Shiwei Zhang, Mingqian Tang, Yue Gao
本文介绍了CVPR 2021的AVA动力学交叉挑战的解决方案。我们的解决方案利用了多种类型的时空模型方法检测，并采用培训策略来集成多个关系建模，以结束多个关系建模到两者结束训练大规模视频数据集。还调查了使用记忆库和长尾分布的FINETUNING，以进一步提高性能。在本文中，我们详细介绍了我们解决方案的实施，并提供了实验结果和相应的讨论。我们终于在AVA动力学测试集上实现了40.67张地图。

Real-time Pose and Shape Reconstruction of Two Interacting Hands With a Single Depth Camera
Authors Franziska Mueller, Micah Davis, Florian Bernard, Oleksandr Sotnychenko, Mickeal Verschoor, Miguel A. Otaduy, Dan Casas, Christian Theobalt
我们提出了一种用于两个强烈互动手的实时姿态和形状重建的新方法。我们的方法是结合有利性质的广泛列表的前两手跟踪解决方案，即它的标记较少，使用单个消费级别深度相机，实时运行，处理帧间和帧内冲突，并自动调整给用户S手形状。为了实现这一点，我们将最近的参数化手姿和形状模型和基于深神经网络的密集对应预测器嵌入到合适的能量最小化框架中。对于训练对应预测网络，我们基于物理仿真综合了两只手数据集，该物理模拟包括手部姿势和形状注释，同时避免手部穿透。为了达到实时速率，我们在非线性最小二乘问题方面短语拟合，以便可以基于基于高效的GAUSE Newton优化器来优化能量。我们在以前的工作中显示的场景中显示了最先进的场景，包括紧张的两只手掌，显着的手部闭塞和手势相互作用。

Demographic Fairness in Face Identification: The Watchlist Imbalance Effect
Authors Pawel Drozdowski, Christian Rathgeb, Christoph Busch
最近，不同的研究人员发现，面部数据库的图库组合可以诱导对面部识别系统的性能差异，其中将探测图像与所有存储的参考图像进行比较以达到生物识别决定。这种负效应被称为观察列表不平衡效果。在这项工作中，我们向理论上估计的方法估计了对生物识别系统的效果的方法，因为其在人口统计组和所使用的画廊的组成上给出了其验证性能。此外，我们使用开源Accface面部识别系统向公共学术Morph数据库的不同组合的人口亚群，即女性和男性进行识别实验的结果。结果表明，即使在验证方案中的性能差异不太明显，数据库组合物对生物识别系统中的性能差异产生了巨大影响。本研究代表了对观察列表不平衡效应的第一次详细分析，这预计将对面部识别领域的未来研究具有高兴趣。

Object detection and Autoencoder-based 6D pose estimation for highly cluttered Bin Picking
Authors Timon H fer, Faranak Shamsafar, Nuri Benbarka, Andreas Zell
Bin采摘是工业环境和机器人的核心问题，主要模块为6D姿势估计。然而，当涉及到小物体时，工业深度传感器缺乏准确性。因此，我们提出了一种在具有小对象的高度杂乱场景中的姿势估计框架，其主要依赖于RGB数据并利用仅用于姿势细化的深度信息。在这项工作中，我们比较对象检测和姿势估计的合成数据生成方法，并引入姿势过滤算法，确定最准确的估计姿势。我们会做我们的

Hotel Recognition via Latent Image Embedding
Authors Boris Tseytlin, Ilya Makarov
深受深度度量学习的酒店识别问题。我们概述了现有的方法，并提出了对对比增生损失的对比损失的修改。我们构建一个强大的管道，用于基准测试度量学习模型，并对酒店50k和Cub200数据集进行实验。对比增长的三态损失显示在50k酒店达到更好的检索。我们开源我们的代码。

A Clinically Inspired Approach for Melanoma classification
Authors Prathyusha Akundi, Soumyasis Gun, Jayanthi Sivaswamy
黑色素瘤是由于皮肤病死亡而导致死亡的主要原因，因此，对黑素瘤的早期和有效诊断感兴趣。当前对黑色素瘤的自动诊断方法使用图案识别或分析识别，如ABCDE不对称，边界，颜色，直径和不断的标准。然而，在实践中，一种差分方法，其中检测到异常值丑小鸭并用于评估奈维病变。在计算机辅助诊断中的差异识别尚未探索差异识别，但可能有益，因为它可以为导出的决定提供临床理由。我们通过执行邻近Nevi的患者患者对比分析IPCA来介绍一种识别和量化丑陋鸭草的方法。然后将其包含在CAD系统设计中进行黑素瘤检测。该设计可确保灵活地处理无法实现IPCA的情况。我们在公共数据集上的实验表明，取决于使用强大的效率网络或中度强大的VGG或Reset Classifier，可以帮助将检测的灵敏度提升到4.0至8.9的检测的灵敏度。

Color2Style: Real-Time Exemplar-Based Image Colorization with Self-Reference Learning and Deep Feature Modulation
Authors Hengyuan Zhao, Wenhao Wu, Yihao Liu, Dongliang He
遗产黑白照片充满了人们的怀旧和过去的光荣回忆。为了更好地重温，在本文中，我们介绍了一个名为Color2Style的基于更深的示例性图像着色方法，以通过用充满活力的颜色填充它们来复活这些灰度图像介质。通常，由于难以获得输入和地理图像对的难度，通常采用无监测和未配对的训练。为了训练示例性的彩色模型，当前算法通常努力实现两个程序，我预先检索具有高相似性的大量参考图像，这是不可避免的和繁琐的II设计复杂模块以将参考图像的颜色传输到传输参考图像的颜色，以便将参考图像的颜色传输到传输到参考图像的颜色来传输参考图像的颜色通过计算和利用它们之间的深度语义对应，例如非本地操作，灰度图像。与以前的方法相反，我们在一端解决和简化上述两个步骤以结束学习程序。首先，我们采用自增强的自我参考训练方案，其中参考图像由来自原始彩色的图形变换产生，由此可以以配对方式配制训练。其次，代替计算复杂和莫名的对应图，我们的方法利用简单且有效的深度特征调制DFM模块，该模块将从参考图像中提取的颜色嵌入物注射到输入灰度图像的深表示中。这种设计更轻便和可理解，实现了实时处理速度的吸引力。此外，我们的模型不需要多种损失函数和正则化术语，如现有方法，但只有两个广泛使用的损耗功能。代码和模型将可用

Compositional Sketch Search
Authors Alexander Black, Tu Bui, Long Mai, Hailin Jin, John Collomosse
我们介绍了一种使用描述多个对象的外观和相对位置的自由手写来搜索图像集合的算法。基于素描的图像检索SBIR方法主要匹配包含单个主导对象不变的查询到其位置。我们的工作利用图纸作为指定整个场景组成的简明和直观的代表。我们训练卷积神经网络CNN，以将屏蔽的视觉特征进行编码，将其汇集到编码组合物中对象的空间关系和外观的空间描述符。在三层损耗下训练CNN骨架作为暹罗网络产生了用于测量组成相似度的公制搜索嵌入，这可以通过应用产品量化有效地利用以供视觉搜索。

SAR Image Classification Based on Spiking Neural Network through Spike-Time Dependent Plasticity and Gradient Descent
Authors Jiankun Chen, Xiaolan Qiu, Chibiao Ding, Yirong Wu
目前，基于卷积神经网络CNN的合成孔径雷达SAR图像分类方法面临着一些问题，例如抗噪声阻力差和泛化能力。尖峰神经网络SNN是智力的核心组成部分之一，具有良好的应用前景。本文根据具有复杂时空时间信息的尖峰序列，基于SNN的无监督和监督学习的完整SAR图像分类器。我们首先阐述了尖峰神经元模型，SNN的接受领域，以及尖峰序列的构建。然后，我们提出了一种基于STDP的无监督学习算法和基于梯度下降的监督学习算法。在MSTAR数据集中的三类图像中单层和双层无监督学习SNN的平均分类准确性分别为80.8和85.1。此外，无监督学习的收敛输出尖峰序列可以用作教学信号。基于TensoRFlow框架，从底部构建单层监督学习SNN，分类精度达到90.05。通过比较SNN和CNNS之间的抗噪声和模型参数，验证了SNN的有效性和优势。重现我们的实验的代码可以在URL上获得

Zero-sample surface defect detection and classification based on semantic feedback neural network
Authors Yibo Guo, Yiming Fan, Zhiyang Xiang, Haidi Wang, Wenhua Meng, Mingliang Xu
缺陷检测和分类技术已从传统的人工视野发生变化到当前的智能自动化检查，但大多数当前的缺陷检测方法都是基于数据驱动方法的训练相关检测模型，考虑到收集一些样本数据的难度工业领域。我们将零射击学习技术应用于工业领域。针对现有潜在特征指南的问题属性注意LFGAA零拍摄图像分类网络，输出潜在属性和人工定义的属性在语义空间中不同，这导致模型性能下降的问题，提出了基于的LGFAA网络通过构建语义嵌入式模块和反馈机制来改进的模型性能和改进的模型性能。同时，对于零拍摄学习的常见域移位问题，基于CO训练算法的思想，使用不同视图之间的差异信息来彼此学习，我们提出了一种集合CO训练算法，可自适应地减少从多个角度嵌入图像标签中的预测误差。在零拍数据集和工业领域中的气缸衬套数据集进行各种实验提供了竞争力的结果。

Cascading Convolutional Temporal Colour Constancy
Authors Matteo Rizzo, Cristina Conati, Daesik Jang, Hui Hu
计算颜色恒定CCC包括估计场景中的一个或多个光源的颜色并使用它们去除不需要的色变失真。许多研究专注于单幅图像对CCC的发光体估计，几次尝试利用相关图像序列中的时间信息，例如，视频中的帧，称为时间颜色常量TCC的任务。用于TCC的技术是TCCNET，一种深入学习架构，它使用CONMLSTM来聚合由CNN子模块以序列中的每个图像产生的编码。我们将该架构扩展了具有不同型号，该架构通过用C4代替TCCNET子模块，用于CCC定位图像II的现有方法II添加级联策略来执行发光体估计的迭代改进。我们在最近发布的TCC基准测试中测试了我们的模型，并实现了超越现有技术的结果。分析了发光体估计数量对性能的影响，我们表明可以通过在序列中少量选定的帧上训练模型来减少推理时间，同时保持可比的精度。

Direction-aware Feature-level Frequency Decomposition for Single Image Deraining
Authors Sen Deng, Yidan Feng, Mingqiang Wei, Haoran Xie, Yiping Chen, Jonathan Li, Xiao Ping Zhang, Jing Qin
我们提出了一种新的方向意识的特征级频率分解网络，用于单幅图像。与现有解决方案相比，所提出的网络具有三种令人信服的特性。首先，与以前的算法不同，我们建议在特征级别而不是图像级别执行频率分解，允许在训练过程中包含包含细节的结构和高频图的低频图。其次，我们进一步在低频贴图和高频映射之间建立通信信道，以交互式捕获来自高频贴图的结构，并将它们加回低频贴图，同时从低频贴图提取细节并将其发送回高频图，从而消除雨条纹，同时保留输入图像中更精细的特征。第三，与所有方向一致的卷积滤波器不同的现有算法不同，我们提出了一个方向意识的过滤器，以捕获雨条的方向，以更有效地彻底地清除雨条的输入图像。我们在三个代表性数据集中广泛评估了所提出的方法和实验结果，证实了我们的方法始终如一地优于艺术派威算法的状态。

Image Feature Information Extraction for Interest Point Detection: A Comprehensive Review
Authors Junfeng Jing, Tian Gao, Weichuan Zhang, Yongsheng Gao, Changming Sun
兴趣点检测是计算机视觉和图像处理中最基本和最严重的问题之一。在本文中，我们对感兴趣点检测的图像特征信息进行了全面的图像特征信息IFI提取技术。为了系统地介绍现有的兴趣点检测方法如何从输入图像中提取IFI，我们提出了一种用于感兴趣点检测的IFI提取技术的分类。根据该分类法，我们讨论了不同类型的IFI提取技术进行兴趣点检测。此外，我们确定与现有的IFI提取技术相关的主要未解决的问题，用于感兴趣点检测和之前未讨论的任何感兴趣点检测方法。提供了现有的流行数据集和评估标准，并评估并讨论了18个现有技术的表演。此外，详细阐述了对IFI提取技术的未来研究方向。

ReS2tAC -- UAV-Borne Real-Time SGM Stereo Optimized for Embedded ARM and CUDA Devices
Authors Boitumelo Ruf, Jonas Mohrs, Martin Weinmann, Stefan Hinz, J rgen Beyerer
随着低成本机器人系统的出现，如无人驾驶飞行器，嵌入式高性能图像处理的重要性增加了。长期以来，FPGA是唯一能够高性能计算的处理硬件，而同时保持低功耗，对于嵌入式系统是必不可少的。然而，最近增加了基于GPU的系统的可用性，例如由ARM CPU和NVIDIA TEGRA GPU组成的NVIDIA Jetson系列，允许在图形硬件上大规模并行嵌入计算。考虑到这一点，我们提出了一种在ARM和CUDA的设备上实时嵌入式立体声处理的方法，该设备是基于流行和广泛使用的半全局匹配算法。在此，我们通过使用大规模并行计算，以及使用霓虹内在机构来优化嵌入式臂CPU上的矢量化SIMD处理算法的嵌入式CUDA GPU算法优化嵌入式CUDA GPU算法。我们已经在两个公共立体声基准数据集上评估了不同配置的方法，以证明它们可以达到3.3的错误率。此外，我们的实验表明，在VGA图像分辨率上，我们的方法的最快配置达到了高达46个FP。最后，在一个具体情况下具体的定性评估中，我们已经评估了我们方法的功耗，并在连接到DJI矩阵210v2 RTK无人空中车辆UAV的DJI歧管2g上部署它，证明了其实时立体声处理的适用性无人机。

Encouraging Intra-Class Diversity Through a Reverse Contrastive Loss for Better Single-Source Domain Generalization
Authors Thomas Duboudin imagine , Emmanuel Dellandr a, Corentin Abgrall, Gilles H naff, Liming Chen
当在培训数据领域之外测试时，传统的深度学习算法通常无法概括。因为一旦一个学习的模型部署数据分布可以动态地在现实生活中应用的改变，在本文中，我们感兴趣的是单一来源域泛化SDG其目的是开发能够从一个单一的培训域概括测试在没有信息深学习算法域名可在培训时间提供。首先，我们设计了两个简单的MNISTbased SDG基准，即MNIST颜色SDG MP和MNIST颜色SDG起来，这突出困难增加1类相关训练域模式缺少SDG MP，或2个不相关的两个不同的基本SDG问题类SDG UP，在测试数据域。这与当前域泛化DG基准相比鲜明对比，该基准与不同的相关性和变化因子混合，从而在基准测试DG算法时难以解开成功或失效因素。我们进一步通过我们的简单的基准，即MNIST颜色SDG MP，并显示该问题SDG MP主要是，尽管在发展DG算法努力了十年未解决的评价艺术SDG算法几个州。最后，我们还提出了部分逆转对比损失，鼓励类的内多样性，发现少密切相关的模式，应对SDG MP，并表明，该方法是在我们的MNIST颜色SDG MP基准是非常有效的。

Mixed Model OCR Training on Historical Latin Script for Out-of-the-Box Recognition and Finetuning
Authors Christian Reul, Christoph Wick, Maximilian N th, Andreas B ttner, Maximilian Wehner, Uwe Springmann
为了完全自动将光学字符识别OCR应用于拉丁文脚本的历史印刷，我们报告我们的努力在盒子中施加外，我们努力构建一个广泛适用的多边识别模型，以左右2个左右2的字符错误率CER。此外，我们展示了如何进一步向特定的印刷类进一步开发到特定的手动和计算工作。混合或多边形模型在各种各样的材料上培训，从15日到19世纪的年龄，排版各种类型的护腿和抗谜，以及其他类型的语言，德国，拉丁语和法语。优化我们组合的结果，如预先预订，数据增强和投票等OCR培训的建立技术。此外，我们使用各种预处理方法来丰富培训数据并获得更强大的模型。我们还实现了两级方法，首先在所有可用的，大量不平衡数据上列车，然后通过对所选择的更平衡子集进行培训来改进输出。 29以前看不见的书籍的评估导致1.73的CER，优于一个广泛使用的标准模型，即近40的CER为2.84。从我们的混合模型开始训练一些看不见的早期现代拉丁书籍，从我们的混合模型导致1.47的CER，与从上述标准模型的训练相比，培训和高达30的培训相比，增长50次。我们的新混合模型是公开可供社区开放的。

Vision-Language Navigation with Random Environmental Mixup
Authors Chong Liu, Fengda Zhu, Xiaojun Chang, Xiaodan Liang, Yi Dong Shen
Vision语言导航VLN任务要求代理通过步骤逐步导航，同时感知视觉观察并理解自然语言指令。大数据偏置，这是由小数据量表和大型导航空间之间的视差比率引起的，使得VLN任务具有挑战性。以前的作品提出了各种数据增强方法来减少数据偏差。但是，这些作品不会明确降低不同房间场景的数据偏差。因此，该代理将覆盖所见的场景并在看不见的场景中实现较差的导航性能。为了解决这个问题，我们提出了随机环境混合REM方法，它通过混合环境为增强数据产生交叉连接的房屋场景。具体地，我们首先根据每个场景的房间连接图选择键视点。然后，我们交叉连接不同场景的关键视图以构建增强场景。最后，我们在交叉连接场景中生成增强的指令路径对。基准数据集的实验结果表明，我们通过REM的增强数据帮助代理商会降低所看到和看不见的环境之间的性能差距，提高整体性能，使我们的模型成为标准VLN基准上的最佳现有方法。

Reverse Engineering of Generative Models: Inferring Model Hyperparameters from Generated Images
Authors Vishal Asnani, Xi Yin, Tal Hassner, Xiaoming Liu
艺术状态的SOTA生成模型GMS可以合成难以为人类的照片逼真的图像来区分真实照片。我们建议执行GM的逆向工程，从这些模型生成的图像中推断模型超参数。我们定义了一种新颖的问题，模型解析，因为通过检查其生成的图像来估计通用网络架构和培训损失功能，这是一个似乎对人类不可能的任务。为了解决这个问题，我们提出了一种与两个组件的框架，该组件是指纹估计网络FEN，其通过用四个约束训练来估计来自生成的图像，以鼓励指纹具有预测网络的解析网络PN，其预测网络估计指纹的架构和损失函数。为了评估我们的方法，我们收集一个带有100k图像的假图像数据集，由100 GM生成。广泛的实验表明，令人鼓舞的结果在解析看不见的模型的超级参数方面。最后，我们的指纹估计可以利用DeepFake检测和图像归因，因为我们通过报告SOTA在最近的Celeb DF和图像归因基准上显示。

Domain Adaptive SiamRPN++ for Object Tracking in the Wild
Authors Zhongzhou Zhang, Lei Zhang
受益于大规模培训数据，基于暹罗的物体跟踪的最近进步已经取得了正常序列上的引人注目的结果。虽然基于暹罗的跟踪器假设培训和测试数据遵循相同的分布。假设有一组有雾或多雨的测试序列，不能保证在正常图像上培训的跟踪器对属于其他域的数据表现良好。在对象检测和语义分割区域中已经讨论了训练和测试数据之间的域移位问题，然而，尚未对视觉跟踪进行调查。为此，基于SIAMRPN，我们介绍了一个域自适应SIAMRPN，即DASIAMRPN，以提高跟踪器的跨域可转换性和鲁棒性。灵感来自距离理论，我们呈现了两个域自适应模块，像素域适配PDA和语义域适配SDA。 PDA模块对齐模板和搜索区域图像的特征映射，以消除天气，照明等引起的像素级域移位。SDA模块对齐跟踪目标S外观的特征表示，以消除语义级域移位。 PDA和SDA模块通过以侵权培训方式学习域分类器来减少域视差。域分类器强制执行网络以学习域不变功能表示。在两个不同结构域的标准数据集上进行广泛的实验，包括合成有雾和TIR序列，这证明了所提出的跟踪器的可转换性和域适应性。

Keep CALM and Improve Visual Feature Attribution
Authors Jae Myung Kim, Junsuk Choe, Zeynep Akata, Seong Joon Oh
类激活映射或凸轮一直是多个愿景任务的特征归因方法的基石。其简单性和有效性导致了广泛的应用在视觉预测和弱监督本地化任务中的应用。但是，Cam有自己的缺点。归因映射的计算依赖于不属于训练计算图的临时校准步骤，使我们难以理解归因值的真实含义。在本文中，通过明确地结合编码提示位置的潜变量来改进CAM以在制定中识别，从而将归属映射归入训练计算图。由此产生的模型，类激活潜在映射或平静，接受期望最大化算法培训。我们的实验表明，平静地识别比凸轮和其他视觉归属基线更准确地识别图像分类器的判别属性。平静还显示出对弱监督对象本地化基准的现有技术的性能改进。我们的代码可供选择

A Hybrid mmWave and Camera System for Long-Range Depth Imaging
Authors Diana Zhang, Akarsh Prabhakara, Sirajum Munir, Aswin Sankaranarayanan, Swarun Kumar
由于MMWAVE无线电频率的高带宽，MM波雷达提供出色的深度分辨率。然而，它们本质上从角度分辨率差，这是比相机系统更差的数量级，因此不是能够隔离的3D成像解决方案。我们提出了Metamoran，该系统结合了雷达和摄像机系统的互补优势，以高方位角分辨率在几十米高的高精度下获得深度图像，高精度，全部来自单个固定的有利程度。 Metamoran通过应用于路边安全基础设施，监控和广域映射，使得富裕的远程深度成像。我们的主要洞察力是使用计算机视觉技术（包括图像分割和单眼深度估计）从相机中使用高方位角分辨率，以获得对象形状并使用这些作为我们的新型镜面波束形成算法的前沿。我们还将这种算法设计在杂乱的环境中，具有薄的反射和部分遮挡的场景。我们在200多个场景中对Metamoran S深度成像和传感能力进行了详细的评估。我们的评估表明，Metamoran估计，与28厘米的中值误差，与单眼雷达相机基线相比，与单眼雷达相机基线相比，相比单眼雷达相机基线相比，对物体的深度估计高达60米的深度。

G$^2$DA: Geometry-Guided Dual-Alignment Learning for RGB-Infrared Person Re-Identification
Authors Lin Wan, Zongyuan Sun, Qianyan Jing, Yehansen Chen, Lijing Lu, Zhihang Li
RGB红外IR人员RE识别旨在检索异构模式之间的兴趣，患有由不同感官设备引起的大型模塑差异。现有方法主要关注全球水平的方式对齐，而忽视样品水平的模态分歧，在一定程度上导致性能下降。本文试图从解决样本水平模态差异找到RGB IR REID解决方案，并提出了一种几何指导双对准学习框架G 2 DA，它共同增强了模态不变性，并加强了具有人类拓扑结构的特征，以提高整体匹配性能。具体而言，G 2Da用姿势估计器提取精确的身体部位特征，用作辅助全局描述符中的丢失的本地细节的语义桥。基于提取的局部和全局特征，引入了从最佳运输中得出的新的分布限制以减轻细粒样的样品水平方式的模态间隙。在两种模式的双方关系之外，它还测量了不同部分的结构相似性，因此多级别特征和它们的关系在共同的特征空间中保持一致。考虑到固有的人体拓扑信息，我们进一步提前了一种几何指导图形学习模块来优化每个零件特征，其中可以强调相关区域，而无意义的区域被抑制，有效地促进了鲁棒特征学习。两个标准基准数据集的广泛实验验证了我们所提出的方法的优势，对最先进的方法产生竞争性能。

Learning to Aggregate and Personalize 3D Face from In-the-Wild Photo Collection
Authors Zhenyu Zhang, Yanhao Ge, Renwang Chen, Ying Tai, Yan Yan, Jian Yang, Chengjie Wang, Jilin Li, Feiyue Huang
非参数面建模旨在仅从没有形状假设的图像重建3D面。虽然预测了合理的面部细节，但模型倾向于过度取决于局部颜色外观并遭受模糊的噪音。为了解决此类问题，本文提出了一种新颖的学习，用于汇总和个性化无监督的鲁棒3D面部建模的LAP框架。该方法而不是使用受控环境，而是隐式解散来自无约束的照片集的ID一致和场景特定面。具体地，为了学习ID一致的面，LAP基于新颖的课程学习方法自适应地聚集了身份的内在面部因素，具有宽松的一致性损失。为了使面部适应个性化场景，我们提出了一种新颖的属性炼油网络，可以使用目标属性和细节修改ID一致面。基于所提出的方法，我们从有意义的图像面部结构和可能更高的分辨率制作无监督的3D面部建模。与基准展示圈的大量实验展示圈恢复了卓越的面部形状和纹理，与有或没有先前和监督的艺术SOTA方法相比。

Cluster-guided Asymmetric Contrastive Learning for Unsupervised Person Re-Identification
Authors Mingkun Li, Chun Guang Li, Jun Guo
未经监督的人重新识别RE ID旨在将行人图像与无监督设置中不同的相机视图匹配。未经监督者RE ID的现有方法通常基于群集群集的伪标签构建。然而，聚类的质量大量取决于学习特征的质量，这些功能的质量压倒地由图像中的颜色绝大地占主导地位，特别是在无监督的环境中。在本文中，我们提出了一种针对无监督者RE ID的集群引导的不对比对比学习CACL方法，其中利用集群结构来指导特征学习在适当设计的不对称对比学习框架中。具体而言，我们提出了一种新的聚类水平对比损失，以帮助暹罗网络有效地在不同数据增强视图内和之间的集群结构中的特征学习中的不变性。在三个基准数据集中进行的广泛实验表明了我们提案的卓越表现。

Canonical Face Embeddings
Authors David McNeely White, Ben Sattelberg, Nathaniel Blanchard, Ross Beveridge
我们展示了证据表明，许多常见的卷积神经网络CNNS接受过面部验证的CNN，学习旋转几乎等同的功能。更具体地，我们证明了一个面部验证模型S嵌入物I.E。最后一层激活可以直接与旋转或线性变换之后直接与另一模型S嵌入式进行比较，具有很小的性能损失。使用IJB C 1 1验证在训练数据集，CNN架构，角度损失的方式变化的基于架CNN的架子CNN的架子验证模型中的十种现代的组合中进行了演示。或者达到平均值真正的接受率为0.96，假接受率为0.01。当代替评估从两个CNN生成的嵌入物时，其中一个CNN S嵌入具有线性变换的映射，使用相同的验证范例映射到0.95的平均值。限制这些线性映射仅执行旋转产生的平均真实接受率为0.91。这些映射存在表明，通过培训或结构的变化来学习共同的表示。诸如此类可能具有广泛影响的发现，我们提供了一个应用程序，其中脸部嵌入可以使用有限数量的样本来匿名。

Efficient Facial Expression Analysis For Dimensional Affect Recognition Using Geometric Features
Authors Vassilios Vonikakis, Stefan Winkler
尽管他们持续受欢迎，但影响识别的分类方法有局限性，特别是在现实生活中。影响的尺寸模型为识别微妙表达和更细粒度的分析提供了重要的优势。我们介绍了一个简单但有效的面部表情分析FEA系统，用于尺寸影响，仅基于几何特征和偏最小二乘PLS回归。该系统联合学会从一组面部图像中估算唤醒和价额定值。所提出的方法是强大，高效，并且对当代深度学习模型表现出可比的性能，同时需要一小部分计算资源。

Dynamic Distillation Network for Cross-Domain Few-Shot Recognition with Unlabeled Data
Authors Ashraful Islam, Chun Fu Chen, Rameswar Panda, Leonid Karlinsky, Rogerio Feris, Richard J. Radke
大多数现有的作品在很少的镜头学习依赖于Meta学习网络的大型基础数据集，该数据集通常是与目标数据集相同的域。我们解决跨域的问题很少的镜头学习，基础和目标域之间存在大移位。与未标记的目标数据的横域几乎拍摄的问题很大程度上是在文献中毫无压紧的。启动是使用自我训练解决此问题的第一个方法。但是，它使用标记为基础数据集的固定教师预先磨削，为未标记的目标样本创建软标签。由于基础数据集和未标记的数据集来自不同的域，将基本数据集的类域中的目标图像投影，具有固定的预磨模模型可能是子最佳的。我们提出了一种简单的动态蒸馏基础方法，便于从新型基础数据集中的未标记图像。我们通过从教师网络的未标记图像的弱增强版本计算预测并将其与来自学生网络的强大版本匹配的预测来施加一致性正常化。教师网络的参数被更新为学生网络参数的指数移动平均值。我们表明，所提出的网络了解可以轻松适应目标域的表示，即使它尚未在预先预测阶段的目标特定类别训练。我们的模型优于现有技术的现有状态4.4拍摄1次，3.6在BSCD FSL基准中的5次拍摄分类，并在传统域名射门学习任务中显示了竞争性能。我们的代码将可用

DFM: A Performance Baseline for Deep Feature Matching
Authors Ufuk Efe, Kutalmis Gokalp Ince, A. Aydin Alatan
提出了一种新颖的图像匹配方法，其利用由搁架深神经网络提取的学习特征来获得有希望的性能。该方法使用预先训练的VGG架构作为特征提取器，并且不需要特定的任何额外训练来改善匹配。受到心理区域的良好概念的启发，例如精神旋转范式，由于初步几何变换估计而进行初始翘曲。这些估计简单地基于待匹配的图像的VGG网络输出终端层的最近邻居的密集匹配。在该初始对准之后，在参考和对准图像之间再次重复相同的方法以分层方式达到良好的本地化和匹配性能。我们的算法以平均匹配的精度MMA实现了0.57和0.80的总体分数，分别在HPAPTES数据集上分别匹配1像素和2个像素阈值，这表明了比现有技术的更好的性能。

Flow Guided Transformable Bottleneck Networks for Motion Retargeting
Authors Jian Ren, Menglei Chai, Oliver J. Woodford, Kyle Olszewski, Sergey Tulyakov
人类议案retrargeting旨在将一个人的运动转移到驾驶视频或一组图像中给另一个人。现有努力从每个目标人员利用长期训练视频来训练主题特定运动转移模型。然而，这种方法的可扩展性是有限的，因为每个模型只能为给定的目标主体生成视频，并且这种培训视频是获得和过程的劳动力集约化。很少拍摄运动传输技术，只需要目标中的一个或几个图像，最近引起了相当大的关注。方法解决此任务通常使用2D或显式的3D表示来传输运动，并且在这样做时，牺牲准确的几何建模或结束以结束学习的统计数据。灵感来自可转换的瓶颈网络，它呈现了刚性物体的新颖观点和操纵，我们提出了一种基于图像内容的隐式体积表示的方法，然后可以使用体积流场在空间上操纵。我们解决了如何在不同身体姿势聚合信息的挑战性问题，学习流场，其允许将内容与高度刚性人体对象的高度刚性人体的输入图像的相应区域组合成单个隐式体积表示。这使我们能够仅从移动人们的视频来学习我们的3D表示。使用3D对象理解和结束到结束学习渲染，这种明显的新颖表示提供了艺术图像生成质量的状态，如我们的定量和定性评估所示。

Potato Crop Stress Identification in Aerial Images using Deep Learning-based Object Detection
Authors Sujata Butte, Aleksandar Vakanski, Kasia Duellman, Haotian Wang, Amin Mirkouei
最近关于遥感和基于深度学习的应用在精密农业中的应用研究表明了改善作物管理和农业生产环境影响的潜力。尽管有希望的结果，但这些技术对于实际情况部署的实际相关性需要新颖的算法，用于分析农业图像和自然场地图像的鲁棒。本文介绍了使用深神经网络分析马铃薯作物的空中图像的方法。主要目标是展示在植物水平的健康与强调作物的自动空间识别。具体而言，我们检查早产植物衰老导致赤褐色伯班鹬马铃薯植物的干旱胁迫。所提出的深度学习模型命名为Retina Unet AG，是Retina Unet Jaeger等人的变种，2018年，并包括从低级语义密集表示地图到特征金字塔网络的连接。本文还介绍了用独奏无人机飞行器携带的鹦鹉红杉相机获取的现场图像的数据集。实验验证证明了区分健康和强调植物在现场图像中的能力，实现了0.74的平均骰子评分系数。与对象检测的艺术深度学习模型的相关状态的比较揭示了所提出的方法对于手头的任务是有效的。此处应用的方法有利于评估和识别马铃薯作物应激早期植物衰老在这种情况下在真实条件下收集的天然空中野外图像中产生的干旱胁迫。

Learning Deep Morphological Networks with Neural Architecture Search
Authors Yufei Hu, Nacim Belkhir, Jesus Angulo, Angela Yao, Gianni Franchi
通过顺序执行线性和非线性过程来产生深神经网络DNN。使用线性和非线性过程的组合对于产生足够深的特征空间至关重要。大多数非线性运算符是激活函数或池功能的推导。数学形态是数学的分支，为各种图像处理问题提供非线性运营商。我们调查在本文结束时结束结束深入学习框架的效用。 DNN旨在获得特定工作的现实表现。形态学算子提供拓扑描述符，其传达关于图像中描绘的物体的形状的突出信息。我们提出了一种基于Meta学习的方法，将形态运算符纳入DNN。学习的架构演示了我们的新形态操作如何显着提高各种任务的DNN性能，包括图像分类和边缘检测。

Face Age Progression With Attribute Manipulation
Authors Sinzith Tatikonda, Athira Nambiar, Anurag Mittal
面部是人识别的主要方法之一。在老化过程中，人类的脸部容易出现许多因素，例如时间，属性，天气和其他主题的特定变化。面部衰老的文献中没有很好地研究这些因素的影响。在本文中，我们在这方面提出了一种新的整体模型。，具有属性操纵FAWAM的面部年龄进展，即在不同年龄的生成面部图像，同时改变属性和其他主题特定特征。我们以自下而上的方式解决任务，作为两个子模块I.E.面对年龄的进展和面部属性操纵。对于面部老化，我们使用具有金字塔生成的对抗网络的属性意识的面部老化模型，可以模拟年龄特异性面部变化，同时保持内在的主题特定特征。对于面部属性操纵，使用所需属性操纵年龄处理的面部图像，同时保留其他细节不变，利用属性生成的对抗网络架构。我们在标准大规模数据集中进行广泛的分析，我们的模型定量和定性地实现了显着性能。

Self-Supervised Learning with Kernel Dependence Maximization
Authors Yazhe Li, Roman Pogodin, Danica J. Sutherland, Arthur Gretton
从统计依赖角度来看，我们接近自我监督的图像表示的学习，提出了与希尔伯特施密特独立性标准SSL HSIC的自我监督学习。 SSL HSIC最大化了图像和图像标识的转换版本的表示之间的依赖性，同时最小化这些特征的内核方差。这种自我监督的学习框架产生了对Infonce的新了解，在不同变换之间的相互信息中的变分下限。虽然已知MI本身具有可能导致毫无意义的表现出来的病理学，但其界限更好地表明它表明它用略微不同的规范器隐含地逼近SSL HSIC。我们的方法也向我们深入了解拜来，因为SSL HSIC同样了解了样本的当地社区。 SSL HSIC允许我们直接在批量大小中直接优化统计依赖性，而无限制的数据假设或间接互信息估计。 SSL HSIC培训或没有目标网络，SSL HSIC与Imagenet上的标准线性评估，半导体监督学习和转移到其他分类，深度估计和对象识别等分类和视觉任务的标准线性评估。

Efficient Micro-Structured Weight Unification for Neural Network Compression
Authors Sheng Lin, Wei Jiang, Wei Wang, Kaidi Xu, Yanzhi Wang, Shan Liu, Songnan Li
压缩深度神经网络DNN模型以缓解存储和计算要求对于实际应用至关重要，特别是对于资源限制设备。尽管能够减少合理量的模型参数，之前的非结构化或结构化的重量修剪方法可以很难真正地加速推理，其是由于非结构化稀疏性的差或由于结构修剪网络的低稀疏速率而导致的硬件兼容性差。旨在减少存储和计算，以及保留原始任务性能，我们提出了一种在硬件兼容的微结构化水平的广义权重统一框架，以实现大量的压缩和加速度。统一所选微结构块的重量系数以减少块的存储和计算而不改变神经元连接，当所有统一系数被设置为零时转向微结构化修枝特殊情况，其中神经元连接因此存储和计算被完全删除。此外，我们开发了一种基于乘法器ADMM的交替方向方法的有效培训框架，它将我们的复杂约束优化转换为单独可解决的子问题。通过迭代地优化子问题，可以通过高压缩比和低性能劣化确保所需的微结构。我们使用各种基准模型和数据集进行了广泛的方法，用于不同的应用程序。实验结果表明了最先进的性能。

A White Paper on Neural Network Quantization
Authors Markus Nagel, Marios Fournarakis, Rana Ali Amjad, Yelysei Bondarenko, Mart van Baalen, Tijmen Blankevoort
虽然神经网络在许多应用中提出了前沿，但它们通常以高计算成本来。降低神经网络推论的功率和延迟是关键，如果我们希望将现代网络集成到具有严格的功率和计算要求的边缘设备中。神经网络量化是实现这些节省的最有效的方法之一，但它引起的额外噪声可能导致精度下降。在本白皮书中，我们引入了用于减轻量化噪声对网络S性能的影响的最先进的算法，同时保持低位权重和激活。我们从硬件动机开始介绍量化，然后考虑两个主要类算法训练量化PTQ和量化意识训练QAT。 PTQ不需要重新培训或标记数据，因此是一种轻量级按钮的量化方法。在大多数情况下，PTQ足以实现8位量化，以靠近浮点精度。 QAT需要进行微调和访问标记的培训数据，但能够使用竞争结果较低的比特量化。对于这两种解决方案，我们提供了基于现有文献和广泛实验的测试管道，这些实验导致了普通深度学习模型和任务的最先进性。

Physion: Evaluating Physical Prediction from Vision in Humans and Machines
Authors Daniel M. Bear, Elias Wang, Damian Mrowca, Felix J. Binder, Hsiau Yu Fish Tung, R.T. Pramod, Cameron Holdaway, Sirui Tao, Kevin Smith, Li Fei Fei, Nancy Kanwisher, Joshua B. Tenenbaum, Daniel L.K. Yamins, Judith E. Fan
虽然机器学习算法在许多具有挑战性的视觉任务中，但目前尚不清楚他们可以对普通的现实世界体力事件进行预测。在这里，我们介绍了一个视觉和物理预测基准，精确地测量这种能力。在实际模拟各种各样的物理现象刚性和柔软的身体碰撞中，稳定的多目标配置，滚动和滑动，射弹动作我们的数据集比现有的基准更全面的挑战。此外，我们为我们的刺激收集了人类的反应，以便与人类判断相比，模型预测可以直接相比。我们比较架构中的算法数组，学习目标，输入输出结构以及培训数据，以培训他们对各种物理预测的能力进行培训。我们发现图形神经网络具有访问物理状态最佳捕获人类行为的神经网络，而在仅接受视觉输入的模型中，那些具有目标表示或预先威胁的人最佳，但远远缩短人类准确性。这表明，提取物理有意义的场景表示是实现人类像视觉预测的主要瓶颈。因此，我们展示了我们的基准测试如何识别改进和衡量身体理解的关键方面的进展。

SUPER-ADAM: Faster and Universal Framework of Adaptive Gradients
Authors Feihu Huang, Junyi Li, Heng Huang
自适应梯度方法对解决许多机器学习问题表示出色的性能。尽管最近研究了多种自适应方法，但它们主要关注经验或理论方面，并且通过使用特定的自适应学习率，仅适用于特定问题。希望为解决一般问题的理论保证设计自适应梯度的实际算法的普遍框架。为了填补这一差距，我们通过引入包含大多数现有自适应梯度形式的通用自适应矩阵来提出更快和普遍的自适应梯度框架。此外，我们的框架可以灵活地集成了减少技术的势头和方差。特别是，我们的新颖框架为非凸框设置下的自适应梯度方法提供了收敛分析支持。在理论分析中，我们证明我们的新算法可以实现TILDE O EPSILON 3的最佳已知复杂性，用于查找ePSILON固定点的非渗透点，其与随机平滑非凸优化的下限匹配。在数值实验中，我们采用各种深度学习任务来验证我们的算法始终如一地优于现有的自适应算法。

Optimal Latent Vector Alignment for Unsupervised Domain Adaptation in Medical Image Segmentation
Authors Dawood Al Chanti, Diana Mateus
本文解决了分段的域移位问题。作为解决方案，我们提出了基于变分自动编码器VAE和最优传输OT理论的新颖和轻质无监督域适应方法。由于VAE，我们的模型了解遵循正常分布的共享交叉域潜空间，这减少了域移位。为了保证有效的细分，我们的共享潜像旨在为模拟形状而不是强度变化。我们进一步依赖于OT丢失来匹配并对齐潜在空间中的两个域之间的剩余差异。我们证明了OLVA S的效力，对公共多模态整个心脏分段MM WHS数据集进行多个心脏结构的分割，其中源域由带注释的3D MR图像和3D CTS的未标记的目标域组成。我们的结果显示出显着的改进，额外的余量为12.5骰子分数，同时经常生成培训方法。

Automated triaging of head MRI examinations using convolutional neural networks
Authors David A. Wood, Sina Kafiabadi, Ayisha Al Busaidi, Emily Guilhem, Antanas Montvila, Siddharth Agarwal, Jeremy Lynch, Matthew Townend, Gareth Barker, Sebastien Ourselin, James H. Cole, Thomas C. Booth
对头部磁共振成像MRI考试的不断增长的需求以及全球放射科学家的短缺导致报告世界各地扫描的时间增加。对于许多神经系统条件，这种延迟可能导致发病率和死亡率增加。通过在成像时识别出现异常并确定这些扫描的报告，通过识别异常来减少异常检查的报告时间。在这项工作中，我们提出了一种卷积神经网络，用于检测文本T 2加权头MRI扫描中的临床相关异常。使用经过验证的神经产物报告分类器，我们生成了来自两个英国大型医院的标记数据集43,754扫描，用于模型培训，并在接收器运行曲线AUC 0.943下展示了由神经产物组织的800个扫描的测试集的准确分类区域。重要的是，当扫描扫描的扫描时，模型广泛地从其他医院兼顾Delta Auc LEQ 0.02扫描。仿真研究表明，我们的模型将在两天至14天和两天至14天和两个医院的9天至5天内减少了异常检查的平均报告时间，证明了在临床分类环境中使用的可行性。

Automatic linear measurements of the fetal brain on MRI with deep neural networks
Authors Netanell Avisdris, Bossmat Yehuda, Ori Ben Zvi, Daphna Link Sourani, Liat Ben Sira, Elka Miller, Elena Zharkov, Dafna Ben Bashat, Leo Joskowicz
及时，准确可靠的胎儿脑发育评估对于减少胎儿和母亲的短期和长期风险至关重要。胎儿MRI越来越多地用于胎儿脑评估。对于胎儿脑评估重要的三个关键生物鉴定线性测量是脑比例的脑比例CBD，骨比例BBD和反式小脑直径TCD，通过专家放射科学家在参考切片上手动获得，这是耗时和容易对人为错误的误区。本研究的目的是开发一种从胎儿脑MRI计算CBD，BBD和TCD测量的全自动方法。输入是胎儿脑MRI体积，其可包括胎体和母腹部。输出是计算测量值的测量值和参考切片。遵循手动测量原理的方法包括五个阶段1计算感兴趣区域的计算，该区域包括具有各向异性3D U Net分类器2参考切片选择的胎儿脑与卷积神经网络3切片明智的胎儿脑结构分割多种多类UN净分类器4计算胎儿脑中乳腺线和胎儿脑取向，以及测量的5计算。对于214体积的CBD，BBD和TCD测量的实验结果产生平均值1 1差异，分别为1.55mm，1.45mm和1.23mm，分别为3.92mm，3.98mm和2.25mm的平坦ALTMAN 95置信区间CI 95。这些结果类似于手动观察者变异性。从MR成像计算胎儿脑的生物识别线性测量的所提出的自动方法实现了人类水平性能。它具有在正常和病理病例中评估胎儿脑生物学的有用方法，以及改善常规临床实践。

How Modular Should Neural Module Networks Be for Systematic Generalization?
Authors Vanessa D Amario, Tomotake Sasaki, Xavier Boix
神经模块网络NMNS瞄准VQA的视觉问题，通过构成解决子任务。 NMNS是实现系统概括的有希望的策略，即克服培训分配中的偏见因素。然而，促进系统概括的NMN的方面尚不完全理解。在本文中，我们证明了模块化定义的阶段和程度对系统概括具有很大的影响。在三个VQA数据集Mnist的一系列实验中，具有多个属性，Sqoop和Clevr Cogent，我们的结果表明，调整网络中的模块化程度，尤其是在图像编码器阶段，达到更高的系统泛化。这些发现导致新的NMN架构，在系统泛化方面胜过先前的纽约州架构。

EuroCrops: A Pan-European Dataset for Time Series Crop Type Classification
Authors Maja Schneider, Amelie Broszeit, Marco K rner
我们呈现Eurocrops，一个基于自我声明的现场注释的数据集，用于培训和评估作物类型分类和映射的方法，以及其获取和协调过程。由此，我们的目标是通过地球观测和遥感来丰富数据驱动土地覆盖分类的研究工作和讨论。此外，通过包含在欧盟欧盟所有国家的补贴控制范围内聚集的自我声明，该数据集突出了在跨国层面运行时遇到的困难和陷阱。因此，我们还介绍了新的分类计划HCAT ID，旨在捕获源自行政和代理数据库的参考数据的所有方面。为了解决遥感和计算机视觉和机器学习社区的研究人员，我们以不同的格式和处理级别发布数据集。

Perceptually-inspired super-resolution of compressed videos
Authors Di Ma, Mariana Afonso, Fan Zhang, David R. Bull
空间分辨率适应是一种经常用于视频压缩的技术，以增强编码效率。该方法编码输入视频的较低分辨率版本，并在解码期间重建原始分辨率。最近的工作代替使用传统的采样过滤器，基于卷积神经网络CNNS采用先进的超分辨率方法，以进一步提高重建质量。这些方法通常接受训练，以最小化基于像素的损失，例如平均方形错误MSE，尽管这种类型的损耗度量与主观意见不合适。在本文中，提出了使用改进的CNN模型的压缩视频的空间上采样的感知自发的超分辨率方法M SRANG，该模型已经在具有感知损失函数的压缩内容上使用生成的对抗性网络GaN进行训练。该方法与HEVC HM 16.20集成，并使用随机接入配置对JVET常见测试条件UHD测试序列进行了评估。结果表明，原始HM 16.20的显而易见的感知质量改善，基于感知质量度量VMAF，平均比特率为35.6 BJ NTEGAARD Delta测量。

Contextualizing Multiple Tasks via Learning to Decompose
Authors Han Jia Ye, Da Wei Zhou, Lanqing Hong, Zhenguo Li, Xiu Shen Wei, De Chuan Zhan
一个单一的实例可以具备多个肖像，并根据不同的背景，与他人揭示不同关系。这些歧义增加了在任务中存在一个概念或混合概念时学习更广泛的模型的难度。我们提出了一种普遍的方法，学习为两种情况分解网络引导，这两个情况都通过Meta学习模型来概念发现概念发现的概念发现的表示是在上下文中分解和调整的情况。通过在采样的伪任务中的情况下对多个潜在组件的全面视图，Leadnet了解通过在内部和对象之间结合那些丰富的语义来自动选择合适的概念。 Leadnet在各种应用中展示了其优越性，包括探索混淆任务，分发识别和几次拍摄图像分类的多种视图。

ResDepth: A Deep Prior For 3D Reconstruction From High-resolution Satellite Images
Authors Corinne Stucker, Konrad Schindler
现代光学卫星传感器使得高分辨率立体声重建。但是在观察地球从太空推动立体声匹配时挑战成像条件。在实践中，由此产生的数字表面模型DSMS相当嘈杂，并且通常不会达到高分辨率诸如3D城市建模的高分辨率应用所需的准确性。可以说，基于低电平图像相似性的立体对应不足，并且应该与超越基本局部平滑度超出预期表面几何的先验知识。为此，我们介绍了Resptepth，这是一个卷积神经网络，其在示例数据之前学习如此表达几何。 Restepth在调节图像上的细化时改进初始原始的立体声DSM。即，它充当智能，学习的后处理过滤器，可以无缝地补充任何立体声匹配管道。在一系列实验中，我们发现所提出的方法始终如一地改善了定量和定性的立体声DSM。我们表明，网络权重中的先前编码捕获了城市设计的有意义的几何特征，这也概括了不同的地区，甚至从一个城市到另一个城市。此外，我们证明，通过对各种立体对的训练，RESPTH可以在成像条件和采集几何体中获得足够的不变性。

Cine-MRI detection of abdominal adhesions with spatio-temporal deep learning
Authors Bram de Wilde, Richard P. G. ten Broek, Henkjan Huisman
粘连是腹部手术后慢性疼痛的重要原因。腹阴MRI最近的发展使得不侵入性诊断的粘连。通过在运动期间没有滑动运动，在Cine MRI上鉴定粘连。粘连的诊断和映射可提高疼痛患者的管理。腹部粘连的检测来自辐射学和深度学习的视角挑战。我们专注于在矢状腹部MRI系列中进行分类或缺乏粘连。我们尝试了以围绕Concrecru架构为中心的Spatio Temporal Deake学习架构。包括Reset的混合架构，后跟Concgru模型允许对整个时间序列进行分类。与单独的独立reset相比，具有两个时间点的灵感到期输入，我们显示分类性能的增加，Auroc为0.74至0.83 p 0.05。我们的全部时间分类方法仅为整个架构增加了少量5个参数，这可能对于具有时间维度的其他医学成像问题可能是有用的。

Mean Embeddings with Test-Time Data Augmentation for Ensembling of Representations
Authors Arsenii Ashukha, Andrei Atanov, Dmitry Vetrov
对集合的一组模型的平均预测被广泛用于提高深度学习模型的预测性能和不确定性估计。同时，许多机器学习系统，如搜索，匹配和推荐系统，严重依赖于嵌入式。遗憾的是，由于独立培训的模型的功能未对准，嵌入式，不能用一个天真的深层合奏来改善。在这项工作中，我们研究了表示的集合，并提出了具有测试时间增强Metta简单但是进行了合并表示的嵌入式的嵌入式。经验证明，METTA显着提高了对监督和自我监督模型的想象网的线性评估的质量。更令人兴奋，我们绘制MetTA，图像检索和转换不变模型之间的连接。我们认为，将合奏的成功传播到推理更高的质量表示是将开辟许多新应用的重要步骤。

Revisiting the Calibration of Modern Neural Networks
Authors Matthias Minderer, Josip Djolonga, Rob Romijnders, Frances Hubis, Xiaohua Zhai, Neil Houlsby, Dustin Tran, Mario Lucic
准确估计预测不确定性模型校准对于安全应用神经网络是必不可少的。已经报道了许多现代神经网络中的错误情况，表明更新的趋势，更准确的模型产生了不良校准的预测。在这里，我们为最近的艺术图像分类模型进行重新审视这个问题。我们系统地涉及模型校准和准确性，并发现最新的模型，特别是那些不使用卷曲的模型是最好的校准之一。在先前的模型代表中观察到的趋势，例如具有分配换档或模型大小的校准的衰减，在最近的架构中不太明显。我们还表明，模型规模和预威胁量不完全解释这些差异，表明架构是校准特性的主要决定因素。

End-to-End Learning of Keypoint Representations for Continuous Control from Images
Authors Rinu Boney, Alexander Ilin, Juho Kannala
在许多控制问题中，包括视觉，可以从场景中对象的位置推断出最佳控制。可以使用关键点表示此信息，这是输入图像中的空间位置列表。以前的作品显示，使用编码器解码器架构的无监督前培训期间了解的关键点表示可以为控制任务提供良好的功能。在本文中，我们表明可以学习最终的Keypoint表示结束，而无需无监督的预训练，解码器或额外损失。我们所提出的架构由一个可差异的keypoint提取器组成，其将估计的关键点的坐标直接馈送到软演员批评代理。所提出的算法对Deepmind控制套件任务的最新状态产生了竞争力的性能。

A Value-Function-based Interior-point Method for Non-convex Bi-level Optimization
Authors Risheng Liu, Xuan Liu, Xiaoming Yuan, Shangzhi Zeng, Jin Zhang
双级优化模型能够以实际兴趣捕获各种复杂的学习任务。由于寻求求解BI级程序的效率，基于梯度的方法在机器学习界中获得了普及。在这项工作中，我们提出了一种新的基于梯度的解决方案方案，即基于BI电平函数的内点方法BVFIM。在日志屏障内部点方案的主要思想之后，我们惩罚较低级别问题的正则化值函数到高级目标。通过进一步求解一系列可分辨率的无约束近似问题，因此我们得到了顺序编程方案。我们方案的数值优势依赖于，当应用梯度方法来解决近似问题时，我们成功地避免计算任何昂贵的Hessian载体或雅可比矢量产品。我们证明了收敛，而无需对上层或较低级别的任何凸起假设。实验证明了所提出的BVFIM对非凸双级问题的效率。

Wavelength-based Attributed Deep Neural Network for Underwater Image Restoration
Authors Prasen Kumar Sharma, Ira Bisht, Arijit Sur
通常，水下图像由于在通过水的不均匀衰减而导致的较低对比度和高色扭曲。另外，衰减程度随波长而导致的颜色不对称遍历。尽管使用深度学习的水下图像恢复UIR具有多产作品，但在各个网络工程中尚未解决上述不对称性。作为第一新颖性，本文示出了基于颜色信道的遍历范围的正确接收字段大小上下文归因于UIR的任务的实质性增益。此外，重要的是抑制无关的多语学特征并增加模型的代表性。因此，作为第二新颖性，我们已经纳入了一部分的跳过机制，以便于自适应地改进学习的多语境特征。所提出的框架，称为深波峰，使用传统的像素明智和特征的成本函数进行优化。已经进行了广泛的实验，以表明该方案在基准数据集上的现有最佳出版文献中的效果。更重要的是，我们已经展示了各种高级视觉任务，例如水下图像语义分割和潜水员2D姿态估计的全面验证增强的图像。展示我们真实世界表现的示例视频可用于URL

Non-Gradient Manifold Neural Network
Authors Rui Zhang, Ziheng Jiao, Hongyuan Zhang, Xuelong Li
深度神经网络DNN通常需要数千个迭代来通过梯度下降来优化，因此具有缓慢的收敛性。另外，SoftMax作为决策层可以在分类期间忽略数据的分布信息。旨在解决所引用的问题，我们提出了一种基于非梯度优化的新型歧管神经网络，即封闭式解决方案。考虑到激活函数通常可逆，我们通过前脊回归和低等级向后近似重建网络，这实现了快速收敛。此外，通过统一柔性Stiefel歧管和自适应支持向量机，我们设计了新的决策层，其有效地符合数据的歧管结构和标签信息。因此，共同非梯度优化方法旨在以封闭形式的结果生成网络。最终，广泛的实验验证了模型的卓越性能。

Robust Out-of-Distribution Detection on Deep Probabilistic Generative Models
Authors Jaemoo Choi, Changyeon Yoon, Jeongwoo Bae, Myungjoo Kang
出于分发OOD检测是机器学习系统中的重要任务，可确保其可靠性和安全性。深层概率生成模型通过估计数据样本的可能性，促进了ood检测。但是，这些模型经常为特定的异常值分配可疑的高可能性。最近的几项作品通过培训具有辅助异常值的神经网络来解决了这个问题，这是通过扰乱输入数据而生成的。在本文中，我们发现某些OOD数据集失败了这些方法。因此，我们建议在没有异常曝光的情况下运行的新检测度量。我们观察到，与先前的异常曝光方法相比，我们的指标对图像的不同变化是强大的。此外，我们的拟议评分既不需要辅助型号也没有额外的培训。相反，本文利用了新的视角下的似然比统计，从给定的单个深度概率生成模型提取真正的性质。我们还应用一个新颖的数值近似以实现快速实现。最后，我们展示了各种概率生成模型的综合实验，并表明我们的方法实现了最先进的性能。

Scaling Neural Tangent Kernels via Sketching and Random Features
Authors Amir Zandieh, Insu Han, Haim Avron, Neta Shoham, Chaewon Kim, Jinwoo Shin
神经切线内核NTK表征无限宽神经网络的行为，通过梯度下降训练在最小的方形损失下训练。最近的作品还报告说，NTK回归可以在小刻度数据集接受培训的主要宽阔的神经网络中占据优势。然而，内核方法的计算复杂性限制了大规模学习任务的使用。为了加速NTK学习，我们设计了NTK的近输入稀疏时间近似算法，通过绘制弧余松内核的多项式扩展我们的用于NTK CNTK的卷积对应物的草图可以在像素数量中使用线性运行时转换任何图像。此外，我们通过基于利用弧余核的利用分数采样与草图算法来证明NTK矩阵的光谱近似保证。我们在各种大规模回归和分类任务上基准测试我们的方法，并显示在我们的CNTK功能上培训的线性回归线符合CIFAR 10数据集上精确CNTK的准确性，同时实现了150倍的加速。

A Lightweight ReLU-Based Feature Fusion for Aerial Scene Classification
Authors Md Adnan Arefeen, Sumaiya Tabassum Nimi, Md Yusuf Sarwar Uddin, Zhu Li
本文提出了一种基于转移学习的航空场景分类问题的模型施工技术。我们的技术核心是一个名为Relu基于Relu的特征融合RBFF的层选择策略，其从基于预先预先的CNN的单个对象图像分类模型，即MobileNetv2提取特征映射，并构建用于空中场景分类任务的模型。 RBFF堆栈从批量归一化层中提取的一些选定块的批量归一化层，其中基于这些块中存在的Relu激活层的特性来选择候选块。然后，使用尺寸减少算法将特征向量压缩成低维特征空间，我们在该尺寸减少算法上训练了用于航空图像的分类的低成本SVM分类器。我们根据提取特征关于我们分类管道的意义验证了我们选择的选择特征。 RBFF显着不涉及基础CNN模型的任何培训，除了分类器的几个参数，这使得该技术对实际部署非常有效。尽管在多种空域数据集的准确性方面，所构造的模型尽管很轻，但最近提出了几种模型。

Defending Touch-based Continuous Authentication Systems from Active Adversaries Using Generative Adversarial Networks
Authors Mohit Agrawal, Pragyan Mehrotra, Rajesh Kumar, Rajiv Ratn Shah
以前的研究表明，普遍研究的香草型连续认证系统V TCA易于人口攻击。本文提出了一种新型生成的对抗网络辅助TCAS G TCAS框架，对人口袭击表现出更多的恢复力。 G TCAS框架在与智能手机和平板电脑对互动的117名用户的数据集上进行了测试。平均而言，对于智能手机的V TCAS的FALSE接受率超过G TCAS的速率远远高于G TCAS 13。同样地，与平板电脑的G TCAS 6相比，V TCAS的FARS的增加为25。

Simon Says: Evaluating and Mitigating Bias in Pruned Neural Networks with Knowledge Distillation
Authors Cody Blakeney, Nathaniel Huish, Yan Yan, Ziliang Zong
近年来，AI无处不在的部署在算法偏见，歧视和公平方面提出了极大的担忧。与传统形式的人类造成的传统形式或由人类引起的歧视，由AI产生的算法偏差更为摘要，因此更难以解释和缓解。目前文献中存在清晰的差距，评估和减轻修剪神经网络中的偏差。在这项工作中，我们努力解决评估，减轻和解释修剪神经网络诱导偏差的具有挑战性的问题。我们的论文进行了三项贡献。首先，我们提出了两个简单但有效的指标，组合误差方差CEV和对称距离误差SDE，以定量评估修剪模型的抗偏置预防质量。其次，我们证明了知识蒸馏可以减轻修剪神经网络中的诱导偏差，即使有不平衡的数据集。第三，我们揭示了模型相似性与修剪引起的偏差具有强烈的相关性，这提供了一种强大的方法来解释为什么偏差发生在修剪的神经网络中。我们的代码可供选择

Learning Stable Classifiers by Transferring Unstable Features
Authors Yujia Bao, Shiyu Chang, Regina Barzilay
我们在存在虚假相关性的情况下研究转移学习。我们通过实验证明，直接转移稳定的特征提取器在源任务上学习可能不会消除目标任务的这些偏差。但是，我们假设源任务中的不稳定功能和目标任务中的不稳定功能直接相关。通过显式通知目标分类器源任务的不稳定功能，我们可以规范目标任务中的偏差。具体地，我们通过对源任务中的不同数据环境形成对比来编码不稳定特征的表示。在目标任务中，我们通过最小化所有集群的最坏情况风险来实现来自此表示的数据，并实现稳健性。我们在文本和图像分类上评估我们的方法。经验结果表明，我们的算法能够在目标任务上保持鲁棒性，以12个传输设置的绝对精度优于最佳基线。我们的代码可供选择

Temporal Consistency Checks to Detect LiDAR Spoofing Attacks on Autonomous Vehicle Perception
Authors Chengzeng You, Zhongyuan Hau, Soteris Demetriou
LIDAR传感器广泛用于自主车辆中，以便更好地感知能够让驾驶决策更安全的环境。最近的工作已经表现出严重的激光乐队欺骗攻击，令人震惊的后果。特别是，模型水平LIDAR欺骗攻击旨在将假深度测量注入到由3D对象探测器错误地检测到的引出重影对象，从而导致危险的驾驶决策。在这项工作中，我们探讨了运动作为用于检测此类攻击的真正物体的物理不变性。基于此，我们提出了一种通用方法，3D时间一致性检查3D TC2，其利用来自运动预测的时空时间信息来验证由3D对象检测器检测的对象。我们的3D TC2原型的初步设计和实现演示了非常有希望的性能，提供超过98个攻击检测率，召回91用于检测欺骗车辆车辆物体，并且能够在41Hz实现实时检测

Highdicom: A Python library for standardized encoding of image annotations and machine learning model outputs in pathology and radiology
Authors Christopher P. Bridge, Chris Gorman, Steven Pieper, Sean W. Doyle, Jochen K. Lennerz, Jayashree Kalpathy Cramer, David A. Clunie, Andriy Y. Fedorov, Markus D. Herrmann
机器学习正在彻底改变基于图像的病理学和放射学的诊断。 ML模型显示有前途的研究环境结果，但它们缺乏互操作性是临床集成和评估的主要障碍。 DICOM A标准指定用于数字图像和相关信息的表示和通信的信息对象定义和服务，包括图像导出的注释和分析结果。然而，标准的复杂性代表了它在ML社区中采用的障碍，并为软件库和工具创造了简化使用DICOM格式的数据集的工具。在这里，我们介绍了高级应用程序，为Python编程语言提供了一个高级应用程序编程接口，该语言摘要摘要标准的低级细节，并在几行Python代码中以DICOM格式进行编码和解码图像派生信息。高层库与图像处理和机器学习的广泛蟒蛇生态系统联系在一起。同时，通过简化DICOM兼容文件的创建和解析，HIGHDICOM实现了与将用于训练和运行ML模型的数据的医学成像系统实现互操作性，并最终通信和存储模型输出以进行临床使用。我们通过用载玻片显微镜和计算机断层摄影成像进行实验来证明，通过弥合这两个生态系统，高层探测器使开发人员能够在病理学和放射学中培训和评估现有技术和放射线的状态，同时符合DICOM标准并与临床系统互操作符合临床系统所有阶段。为了促进ML研究和简化ML模型开发和部署过程的标准化，我们将图书馆提供免费和开源。

Learning Audio-Visual Dereverberation
Authors Changan Chen, Wei Sun, David Harwath, Kristen Grauman
从反射表面的音频和环境中的音频反射不仅会降低人类感知的语音质量，而且严重影响自动语音识别的准确性。前后工作尝试仅根据音频模态删除混响。我们的想法是从音频视觉观察中学习DeReverberate演讲。围绕人类扬声器的视觉环境揭示了关于房间几何形状，材料和扬声器位置的重要提示，所有这些都会影响音频流中的精确混响效果。我们介绍了视觉上通知的音频VIDA，结束了最终方法，学会根据观察到的声音和视觉场景来消除混响。为了支持这项新任务，我们开发了一个大规模的数据集，使用现实世界3D扫描的现实声学效果，提供各种房间声学。展示我们对语音增强，语音识别和扬声器识别的模拟和真实图像的方法，我们展示了实现最新性能的状态，并且基本上改善了传统的音频仅限方法。项目页面

CathAI: Fully Automated Interpretation of Coronary Angiograms Using Neural Networks
Authors Robert Avram, Jeffrey E. Olgin, Alvin Wan, Zeeshan Ahmed, Louis Verreault Julien, Sean Abreau, Derek Wan, Joseph E. Gonzalez, Derek Y. So, Krishan Soni, Geoffrey H. Tison
冠心病CHD是美国和全球成人死亡的主要原因，冠状动脉血管造影程序是诊断和临床管理决策的主要网关。冠状动脉血管造影的解释的护理标准取决于医师运营商的特设视觉评估。然而，血管造影的临时视觉解释是可重复的，高度变化和偏见的易变量。在这里，我们首次展示了使用一系列深神经网络算法来估算冠状动脉狭窄的完全自动血管造影解释。我们开发的算法流水线，被称为CathaI在完成所需的任务序列中实现了最先进的性能的状态，以完成未选择的现实世界血管造影的自动解释所需的任务。 CathaI算法1 2证明了阳性预测值，灵敏度和F1得分为90，以识别左或右冠状动脉血管造影检测的投影角度和93个，主要的解剖结构。为了预测阻塞性冠状动脉狭窄70狭窄，CathaI算法4在接收器操作特性曲线AUC下显示出0.862 95ci 0.843 0.880的区域。当在另一个国家的医疗保健系统中验证时，Cathai Auc为0.869 95 CI 0.830 0.907，以预测阻塞性冠状动脉狭窄。我们的结果表明，多个目的内置的神经网络可以按顺序运行，以完成现实世界血管造影自动分析所需的复杂系列任务。 CathaI的部署可能有助于提高冠状动脉狭窄评估中的标准化和再现性，同时为算法血管造影解释的未来任务提供强大的基础。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com

hitrjj

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
【AI视野·今日CV 计算机视觉论文速览第220期】Wed, 16 Jun 2021

AI视野·今日CS.CV 计算机视觉论文速览Wed, 16 Jun 2021Totally 76 papers????上期速览✈更多精彩请移步主页Daily Computer Vision PapersIs this Harmful? Learning to Predict Harmfulness Ratings from Video Authors Johan Edstedt, Johan Karlsson, Francisca Benavente, Anette Novak, Am
复制链接

扫一扫