【AI视野·今日CV 计算机视觉论文速览第223期】Mon, 21 Jun 2021

最新推荐文章于 2024-07-24 20:06:37 发布

hitrjj

最新推荐文章于 2024-07-24 20:06:37 发布

阅读量872

点赞数

CC 4.0 BY-SA版权

分类专栏： Transformer 计算机视觉 Papers 文章标签：计算机视觉三维深度学习顶会 cvpr 视觉

本文链接：https://blog.csdn.net/u014636245/article/details/118094045

Papers 同时被 3 个专栏收录

456 篇文章

订阅专栏

计算机视觉

377 篇文章

订阅专栏

Transformer

36 篇文章

订阅专栏

这篇博客文章概述了计算机视觉和深度学习领域的最新研究，涵盖了从端到端的时空动作检测到基于Transformer的检测方法，再到对抗性攻击的防御策略。研究还涉及了光污染减轻、旋转不变性学习、语义分割、实时交通轨迹跟踪和医学图像分析等多个领域。这些进展展示了深度学习在解决复杂视觉任务和提高模型鲁棒性方面的潜力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

AI视野·今日CS.CV 计算机视觉论文速览
Mon, 21 Jun 2021
Totally 62 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Computer Vision Papers

End-to-end Temporal Action Detection with Transformer
Authors Xiaolong Liu, Qimeng Wang, Yao Hu, Xu Tang, Song Bai, Xiang Bai
时间动作检测TAD旨在确定未经过微的视频中每个动作实例的语义标签和边界。它是视频理解的基本任务，在TAD中取得了重大进展。以前的方法涉及多个阶段或网络以及手动设计的规则或操作，从而效率和灵活性。在这里，我们构建一个结束于变压器的TAD的结束框架，被称为Tadtr，它同时将所有动作实例预测为一组并行标签和时间位置。 Tadtr能够通过选择性地参加视频中的许多片段来自适应地提取制作动作预测所需的时间上下文信息。它大大简化了TAD的管道，比以前的探测器快得多。我们的方法在HACS段和Thumos14上实现了最新性能，以及ActivityNet 1.3上的竞争性能。我们的代码将在URL提供

How to train your ViT? Data, Augmentation, and Regularization in Vision Transformers
Authors Andreas Steiner, Alexander Kolesnikov, Xiaohua Zhai, Ross Wightman, Jakob Uszkoreit, Lucas Beyer
视觉变压器Vit已被证明可以对各种视觉应用进行高度竞争的性能，例如图像分类，对象检测和语义图像分割。与卷积神经网络相比，视觉变压器S较弱的电感偏差通常被发现在较小训练数据集上训练时，在短时间内依赖模型正则化或数据增强AuGreg。我们进行系统的实证研究，以更好地了解培训数据量，Augreg，模型规模和计算预算之间的相互作用。作为本研究的一个结果，我们发现增加的计算和Augreg的组合可以产生具有与在竞争中的培训数据训练的模型相同的性能的模型，我们在公共想象21K数据集上培训各种尺寸的vit模型或者优于他们的对应物，培训更大，但不公开的JFT 300M数据集。

Bridging the Gap Between Object Detection and User Intent via Query-Modulation
Authors Marco Fornoni, Chaochao Yan, Liangchen Luo, Kimberly Wilber, Alex Stark, Yin Cui, Boqing Gong, Andrew Howard
通过通过摄像机或图片与对象交互时，用户通常具有特定的意图。例如，他们可能想要执行视觉搜索。但是，大多数对象检测模型忽略了用户意图，依赖于图像像素作为唯一输入。这通常会导致不正确的结果，例如对感兴趣的对象缺乏高置信度检测，或用错误的类标签检测。在本文中，我们调查调制标准对象探测器的技术，以明确占用户意图的，表示为简单查询的嵌入。与标准对象探测器相比，查询调制检测器在检测对象的对象的对象时显示出优异的性能。由于从标准对象检测注释合成的大规模训练数据，查询调制检测器也可以优于专门的参考表达式识别系统。此外，它们可以同时培训以解决查询调制检测和标准对象检测。

VSAC: Efficient and Accurate Estimator for H and F
Authors Maksym Ivashechkin, Daniel Barath, Jiri Matas
我们展示了VSAC，Ransac类型强大的估算器，具有许多新奇。它从引入独立内层的概念中提出了显着提高了主导平面处理的功效，并且还允许在没有误报的情况下允许靠近错误拒绝错误。本地优化过程及其应用程序得到改善，以便平均仅运行一次。进一步的技术改进包括通过高斯消除的自适应顺序假设验证和有效的模型估计。四个标准数据集的实验表明，VSAC比其所有前辈更快，并在CPU上平均运行1 2毫秒。它是两个数量级，但像Magsac一样更精确，目前最精确的两个视图几何估计。在EVD，HPatches，Phototourism和Kusvod2数据集的重复运行中，它永远不会失败。

A Coarse-to-Fine Instance Segmentation Network with Learning Boundary Representation
Authors Feng Luo, Bin Bin Gao, Jiangpeng Yan, Xiu Li
自显着效率以来，基于边界的实例分割已经引起了很多关注。然而，现有方法遭受长距离回归的困难。在本文中，我们提出了一个粗略的模块来解决问题。在粗略阶段生成近似边界点，然后对这些点的特征进行采样并馈送到精细预测的精细回归。它结束了最终可训练，因为模块中的差分采样操作很好地支持。此外，我们设计了一个整体边界意识分支，并介绍了辅助回归的实例。我们的方法配备了Reset 101，我们的方法在Coco DataSet上实现了31.7个掩模AP，具有单级培训和测试，优于基线1.3掩模AP，具有少于1个参数和GFLOPS。实验还表明，与具有轻型设计和简单管道的现有边界方法相比，我们的提出方法实现了竞争性能。

A Dynamic Spatial-temporal Attention Network for Early Anticipation of Traffic Accidents
Authors Muhammad Monjurul Karim, Yu Li, Ruwen Qin, Zhaozheng Yin
最近，自动车辆和配备先进的驾驶员辅助系统ADA的人正在出现。他们与人类驱动因素经营的常规人员分享道路。为确保乘客和其他道路使用者的保证安全，自动车辆和ADA是必不可少的，以预测自然驾驶场景的交通事故。交通代理的动态空间时间相互作用是复杂的，并且在Dashcam视频数据中深入地嵌入了预测未来事故的视觉提示。因此，早期的交通事故仍然是一个挑战。为此，本文提出了一种动态的空间临时注意DSTA网络，用于从Dashcam视频中提前预期交通事故。所提出的DSTA网络学习选择具有名为动态时间关注DTA的模块的视频序列的判别时间片段。它还学会专注于带有名为动态空间注意DSA的另一个模块的帧的信息空间区域。事故的空间时间关系特征以及场景外观特征与门控复发单元GRU网络共同学习。 DSTA网络对两个基准数据集的实验评估确认它已超过最先进的性能。彻底的消融研究评估了DSTA网络的各个组成部分的贡献，揭示了网络如何实现这种性能。此外，本文提出了一种新的策略，这些策略融合了两个互补模型的预测分数，并验证了其有效性进一步提高了早期事故预期的性能。

Toward Fault Detection in Industrial Welding Processes with Deep Learning and Data Augmentation
Authors Jibinraj Antony, Dr. Florian Schlather, Georgij Safronov, Markus Schmitz, Prof. Dr. Kristof Van Laerhoven
随着计算机愿景领域的深度学习模型的兴起，其在工业过程中申请的新可能性证明了回报了很大的利益。尽管如此，对高度标准化的工业流程的机器学习的实际适合仍在辩论中。本文考虑了激光束焊接质量控制的用例，解决了AI工具对AI工具的工业实现的挑战。我们使用来自Tensorflow对象检测API的对象检测算法，并使用转移学习使它们适应我们的用例。我们开发的基线模型被用作基准并评估，并与经过数据集缩放和超参数调谐的模型进行比较。我们发现，通过图像增强的数据集的适度缩放导致联盟iou和召回交叉口的改进，而高水平的增强和缩放可能导致结果的恶化。最后，我们将结果置于底层用例的角度，并评估其契合。

All You Can Embed: Natural Language based Vehicle Retrieval with Spatio-Temporal Transformers
Authors Carmelo Scribano, Davide Sapienza, Giorgia Franchini, Micaela Verucchi, Marko Bertogna
将自然语言与视力相结合代表了人工智能领域的独特而有趣的挑战。基于自然语言的车辆检索的AI城市挑战赛道赛道专注于将视觉和文本信息相结合的问题，适用于智能城市用例。在本文中，我们展示了所有可以嵌入Ayce，一个模块化解决方案，以将单车跟踪序列与自然语言相关联。所提出的架构的主构造块是我伯特提供了嵌入文本描述，II卷积骨干以及变压器模型来嵌入视觉信息。对于检索模型的训练，提出了三重级边缘损失的变化来学习视觉和语言嵌入之间的距离测量。该代码公开可用

Self-supervised Video Representation Learning with Cross-Stream Prototypical Contrasting
Authors Martine Toering, Ioannis Gatopoulos, Maarten Stol, Vincent Tao Hu
实例级对比度学习技术依赖于数据增强和对比损失功能，在视觉表现学习领域找到了巨大的成功。然而，它们不适合利用视频的丰富动态结构，因为在许多增强实例上进行操作。在本文中，我们提出了一种视频十字流原型对比，这是一种从RGB和光学流程视图中预测一致的原型分配，在样本组上操作。具体地，我们替换优化过程，同时优化其中一个流，所有视图都映射到一组流原型向量。除了匹配预测之外的所有视图之外，预测每个作业都预先预测，推动较近其分配的原型的表示。结果，学习了更有效的视频嵌入具有加入运动信息的视频嵌入，而不明确需要推断期间光流量计算。我们在最近的邻居视频检索和动作识别上获得最新的状态，在使用R 2 1 D骨架上的UCF101和17.2上使用S3D主干90.5上的UCF101，优先于UCF101上的最佳选择。

Virtual Temporal Samples for Recurrent Neural Networks: applied to semantic segmentation in agriculture
Authors Alireza Ahmadi, Michael Halstead, Chris McCool
本文探讨了在农业机器人背景下执行时间语义细分的可能性，而没有时间标记的数据。我们通过建议从标记的静止图像生成虚拟时间样本来实现这一目标。这允许我们没有额外的注释工作，以产生几乎标记的时间序列。通常，为了训练经常性神经网络RNN，需要来自视频时间序列的标记样本，这是费力的，并且在这个方向上具有效仿的工作。通过生成虚拟时间样本，我们证明可以训练轻量级RNN以对两个具有挑战性的农业数据集进行语义分割。我们的结果表明，通过使用虚拟样品培训时间语义分段器，我们可以分别通过甜椒和甜菜Datasets上的4.6和4.9的绝对量增加性能。这表明我们的虚拟数据增强技术能够在不使用复杂的合成数据生成技术的情况下在时间上准确地对农业图像进行准确地分类农业图像，也不是标记大量时间序列的开销。

Towards Distraction-Robust Active Visual Tracking
Authors Fangwei Zhong, Peng Sun, Wenhan Luo, Tingyun Yan, Yizhou Wang
在积极的视觉跟踪中，当分散注意力出现的物体时，它是众所周知的困难，因为分散的人通常通过遮挡目标或带来令人困惑的外观来误导跟踪器。为了解决这个问题，我们提出了一个混合的合作竞争多代理游戏，其中目标和多个干扰者形成一个合作团队，以便对追踪者进行竞争，并使它无法遵循。通过在我们的游戏中学习，多样化分散注意力的分散注意力自然出现，从而揭示了跟踪器的弱点，这有助于提高跟踪器的分散稳健性。为了有效的学习，我们提出了一堆实用方法，包括奖励功能，为追踪者，跨莫代尔教师学生学习策略以及跟踪器的经常性注意机制。实验结果表明，我们的跟踪器执行所需的分散稳健的活动视觉跟踪，并且可以广泛地概括为未经看不见的环境。我们还表明，多代理游戏可用于对抗追踪器的稳健性。

hSMAL: Detailed Horse Shape and Pose Reconstruction for Motion Pattern Recognition
Authors Ci Li, Nima Ghorbani, Sofia Broom , Maheen Rashid, Michael J. Black, Elin Hernlund, Hedvig Kjellstr m, Silvia Zuffi
本文介绍了我们对马动运动模型的行为分析初步工作。我们的方法是基于Smal模型，一种铰接式统计模型的动物形状。根据从37匹马玩具中学到的新模板，骨架和形状空间，我们为马匹定义了一种新颖的Smal模型。我们在重建从3D MoCap数据和图像中重建马的汉姆尔模型的准确性。我们将HSMAL模型应用于视频的跛足检测问题，在那里我们将模型符合图像以恢复3D姿势并在姿势数据上培训ST GCN网络。与在MoCAP点上培训的相同网络的比较说明了我们方法的好处。

Discerning Generic Event Boundaries in Long-Form Wild Videos
Authors Ayush K Rai, Tarun Krishna, Julia Dietlmeier, Kevin McGuinness, Alan F Smeaton, Noel E O Connor
探测通用，分类免费事件边界Invideos代表了朝向全球视频理解的重大进步。在本文中，我们介绍了一种基于次流3D卷积架构中的两条流的技术实现边界检测技术，其可以学习来自视频的时空时间特征。我们的工作受到了CVPR2021长形视频理解Loveu车间的基因事件边界检测挑战部分.Througoutoutouthout我们提供的纸张进行了深入分析，对所获得的结果进行解释。

Combined Person Classification with Airborne Optical Sectioning
Authors Indrajit Kurmi, David C. Schedl, Oliver Bimber
已经证明了完全自主的无人机，在强闭锁的森林树冠下发现丢失或受伤的人。空中光学切片AOS，一种新颖的合成孔径成像技术，以及基于深度学习的分类，可以在现实的搜索和救援条件下进行高检测率。我们证明可以通过组合来自多个AOS的分类而不是单一积分图像来显着抑制错误检测，并且可以通过组合分类来显着抑制错误的检测。这提高了尤其是在闭塞的情况下进行分类率。为了使这一点成为可能，我们修改了AOS成像过程，以支持随后的积分之间的大重叠，从而实现实时和船上扫描和处理高达10 M秒的地面。

Residual Contrastive Learning for Joint Demosaicking and Denoising
Authors Nanqing Dong, Matteo Maggioni, Yongxin Yang, Eduardo P rez Pellitero, Ales Leonardis, Steven McDonagh
对比学习CL的突破推动了RGB图像高级视觉任务中自我监督学习SSL的最近成功。然而，CL仍然为低级视觉任务而仍然被定义，例如在原始领域中的联合脱索和去噪JDD。为了弥合这种方法论差距，我们提出了一种关于原始图像的新型方法，残留对比学习RCL旨在为JDD学习有意义的表示。我们的工作是假设每个原始图像中包含的噪声依赖于信号，因此来自相同原始图像的两种作物应具有比来自不同原始图像的两种作物更类似的噪声分布。我们使用残留物作为歧视特征和地球移动器的距离，以测量对比损失的分布分配。为了评估所提出的CL策略，我们模拟了一系列无监督的JDD实验，具有由合成信号依赖噪声损坏的大规模数据，我们为无监督JDD任务设置了具有未知随机噪声方差的新基准。我们的实证研究不仅验证了CL可以应用于分布式C.F.特征，但在噪声的统计数据未知时，还暴露了先前非ML和SSL JDD方法的鲁棒性，从而提供了一些进一步的洞察信号依赖性噪声问题。

Contrastive Learning of Generalized Game Representations
Authors Chintan Trivedi, Antonios Liapis, Georgios N. Yannakakis
通过他们的像素代表游戏提供了一种有希望的建设通用和多功能游戏模型的方法。虽然游戏不仅仅是图像，但在游戏像素上培训的神经网络模型通常捕获图像的视觉风格而不是游戏内容的差异。结果，即使在相同类型的类似游戏中，这种模型也不能呈现良好。在本文中，我们建立了最近的对比学习的进步，并展示了在游戏中的代表学习的好处。学习对比游戏的图像不仅以更有效的方式对游戏进行分类，它还产生了通过忽略视觉风格和聚焦的更有意义的方式分隔游戏的模型，而不是在他们的内容上。我们的成果在175场比赛中包含100K图像的体育视频游戏的大型数据集，10场比赛的流派表明，与传统的监督学习相比，对比学习更适合学习广义游戏表示。本研究的结果为我们越来越接近通用视觉编码器，可以在以前看不见的游戏中重复使用，而无需再培训或微调。

Light Pollution Reduction in Nighttime Photography
Authors Chang Liu, Xiaolin Wu
夜间摄影师往往受到不必要的人造灯的光线污染的困扰。在大气中的气溶胶散射后，人造灯可以通过减少对比度和动态范围并引起危险来淹没星光并降低夜间图像的质量。在本文中，我们开发了一种物理基础的光污染降低LPR算法，可以大大缓解感知质量的上述降解，并恢复夜空原始状态。所提出的LPR算法成功的关键是一种逆方法，估计地面人造灯的空间辐射分布和光谱特征。进行了广泛的实验以评估LPR算法的功效和局限性。

Training or Architecture? How to Incorporate Invariance in Neural Networks
Authors Kanchana Vaishnavi Gandikota, Jonas Geiping, Zorah L hner, Adam Czapli ski, Michael Moeller
许多应用需要鲁棒性，或理想地是神经网络的不变性，以对输入数据的某些变换。最常见的是，通过使用对抗性培训或定义自动包括所需的不变性的网络架构来解决这一要求。不幸的是，后者往往依赖于争取所有可能的变换的能力，这使得这种方法在很大程度上不可行，对于无限的无限变换，例如任意旋转或缩放。在这项工作中，我们提出了一种通过根据固定标准从可能连续的轨道中选择一个元素来提供针对组动作的可忽略网络架构的方法。简而言之，我们打算在将数据送入实际网络之前撤消任何可能的转换。我们分析这些方法的性质，将它们扩展到等值网络，并在鲁棒性方面展示其优势以及在几个数值示例中的计算效率。特别地，我们研究了对图像的旋转的鲁棒性，这可能仅适用于离散伪影以及3D点云分类的可提供的旋转和缩放不变性。

Learning and Meshing from Deep Implicit Surface Networks Using an Efficient Implementation of Analytic Marching
Authors Jiabao Lei, Kui Jia, Yi Ma
对象或场景表面的重建在计算机视觉，计算机图形和机器人中具有巨大的应用。在本文中，我们研究了关于从零电平集的隐式场函数恢复表面网格的基本问题，其零电平集捕获底层表面。为了实现目标，现有方法依赖于传统的网格化算法，同时承诺，由于使用离散空间采样在游行多维数据集中使用离散空间采样，它们遭受了精度丧失。考虑到具有校正的线性单元的激活的MLP将其输入空间分区为多个线性区域，我们有动力将此本地线性与多边形网格所需的所需结果所拥有的相同属性连接。更具体地，我们识别由线性区域，由基于MLP的隐式功能，分析单元和与函数S零电平IsoSurface相关联的分析单元和分析面进行划分。我们证明，在温和条件下，已识别的分析面保证连接和形成封闭的分段平面表面。基于定理，我们提出了一种分析行进算法，分析单元中的游行，以精确地恢复由隐式曲面网络捕获的网格。我们还表明，我们的理论和算法同样适用于具有快捷连接和最大池的高级MLP。鉴于分析行进的并行性质，我们为AnalyticMesh提供了一种软件包，该软件包通过CUDA并行计算支持隐式曲面网络的高效网格，以及用于高效下游处理的网格简化。我们使用隐式地面网络将我们的方法应用于不同的生成形状建模的设置。广泛的实验表明了我们在啮合精度和效率方面对现有方法的优势。

EPIC-KITCHENS-100 Unsupervised Domain Adaptation Challenge for Action Recognition 2021: Team M3EM Technical Report
Authors Lijin Yang, Yifei Huang, Yusuke Sugano, Yoichi Sato
在本报告中，我们描述了向2021史诗厨房提交的技术细节100令人无监督的域名适应行动认可挑战。已经证明利用多种方式使无监督的域适应UDA任务受益。在这项工作中，我们呈现多模态相互增强模块M3EM，深度模块，用于共同考虑来自多个模型的信息，以查找域中最可转换的表示。我们通过实现两个子模块来实现这一点，用于使用其他方式的上下文增强每个模态。第一子模块通过语义空间交换跨模式的信息，而第二子模块基于所有方式的共识找到最可转换的空间区域。

Shape Prior Non-Uniform Sampling Guided Real-time Stereo 3D Object Detection
Authors A. Gao, J. Cao, Y. Pang
由于其高精度，基于Pseudo Lidar的3D对象探测器具有普及。然而，这些方法需要密集的深度监督并遭受较差的速度。为了解决这两个问题，最近引入的RTS3D构建了一个有效的4D特征一致性嵌入FCE空间，用于对象的中间表示而无需深度监控。 FCE Space将整个对象区域分成3D均匀网格潜空间，用于特征采样点生成，忽略不同对象区域的重要性。然而，我们认为，与内部区域相比，外部区域对准确的3D检测起着更重要的作用。为了从外部区域编码更多信息，我们提出了一种现有的非统一采样策略，其在内部区域中执行致密采样和内部区域的稀疏采样。结果，从外部区域采样更多点，提取更多有用的特征以进行3D检测。此外，为了增强每个采样点的特征辨别，我们提出了一个高级语义增强FCE模块，以利用更加上下文信息并更好地抑制噪声。执行关于基提数据集的实验以显示所提出的方法的有效性。与基线RTS3D相比，我们所提出的方法几乎没有额外的网络参数对AP3D有2.57个改进。此外，我们所提出的方法优于现有技术的状态而无需实时速度的额外监督。

Equivariance-bridged SO(2)-Invariant Representation Learning using Graph Convolutional Network
Authors Sungwon Hwang, Hyungtae Lim, Hyun Myung
培训卷积神经网络CNN以稳健抵抗旋转主要是通过数据增强完成的。在本文中，强调了研究方向的另一个渐进视野，以鼓励通过实现网络的结构旋转不变性来促进对数据增强的依赖。提出了深度的设备桥接所以2个不变网络，以回应这种视觉。首先，提出自加权最近邻居图卷积网络SWN GCN，用于在图像的图表表示上实现图形卷积网络GCN，以获取旋转等级的表示，因为GCN更适合于构建比基于光谱图卷积的深度网络的网络。然后，最终通过全局平均池间隙获得不变的表示，适用于从SWN GCN检索的等级顶点集中聚合高维表示的置换不变操作。我们的方法在旋转的MNIST和CIFAR 10图像上实现了艺术图像分类性能的状态，其中模型仅使用非增强数据集进行培训。对表示的不变性的定量验证还展示了SWN GCN过度旋转的深度表示的强不变性。

Advanced Hough-based method for on-device document localization
Authors D.V. Tropin, A.M. Ershov, D.P. Nikolaev, V.V. Arlazarov
对设备文档识别系统的需求随着更严格的隐私和安全要求的出现而增加。在这样的系统中，没有从终端设备到第三方信息处理服务器的数据传输。响应时间对设备文档识别的用户体验至关重要。结合离散GPU的不可用，强大的CPU或智能手机等消费者级终端设备上的大型RAM容量，时间限制对设备执行的应用算法的计算复杂性进行了显着的限制。

Towards interpreting computer vision based on transformation invariant optimization
Authors Chen Li, Jinzhe Jiang, Xin Zhang, Tonghuan Zhang, Yaqian Zhao, Dongdong Jiang, RenGang Li
解释深度神经网络DNN如何使预测是人工智能中的一个重要领域，其妨碍了DNN的广泛应用。读者的可视化有助于我们了解DNN的愿景。在本工作中，可以通过后传播方法生成可以激活到目标类的神经网络的可视化图像。这里，应用旋转和缩放操作来引入图像生成过程中的变换不变性，我们在可视化效果中找到了显着改善。最后，我们展示了一些案例，这种方法可以帮助我们深入了解神经网络。

HifiFace: 3D Shape and Semantic Prior Guided High Fidelity Face Swapping
Authors Yuhan Wang, Xu Chen, Junwei Zhu, Wenqing Chu, Ying Tai, Chengjie Wang, Jilin Li, Yongjian Wu, Feiyue Huang, Rongrong Ji
在这项工作中，我们提出了一种高保真性面部交换方法，称为HIFIFACE，可以很好地保护源面的面部形状并产生照片现实结果。与其他现有面部交换工作不同，只使用面部识别模型来保持身份相似性，我们提出了3D形状意识的身份，以控制面部形状与3DMM和3D面重建方法的几何监控。同时，我们介绍了语义面部融合模块，以优化编码器和解码器特征的组合，并使自适应混合使得结果更具照片逼真。野外面孔的广泛实验表明，我们的方法可以保持更好的身份，特别是在面部形状上，并且可以产生比以前的现有技术的最新状态更好的照片现实结果。

Multi-Granularity Network with Modal Attention for Dense Affective Understanding
Authors Baoming Yan, Lin Wang, Ke Gao, Bo Gao, Xiao Liu, Chao Ban, Jiang Yang, Xiaobo Li
视频创建和推荐期望通过视频内容预测诱发表达的视频情感理解。在最近的EEV挑战中，提出了一种密集的情感理解任务，需要帧级情感预测。在本文中，我们提出了一种具有模态注意力MGN MA的多粒度网络，其采用多粒度特征，以更好地描述目标帧。具体地，可以将多粒度特征分成帧级，剪辑级别和视频级别特征，其对应于视力突出内容，语义上下文和视频主题信息。然后，模态注意融合模块旨在熔断多粒度特征，并强调更多的感情相关模块。最后，融合特征被送入专家Moe分类器的混合物中以预测表达式。进一步采用模型集合后处理，所提出的方法在EEV挑战中实现了0.02292的相关得分。

Novelty Detection via Contrastive Learning with Negative Data Augmentation
Authors Chengwei Chen, Yuan Xie, Shaohui Lin, Ruizhi Qiao, Jian Zhou, Xin Tan, Yi Zhang, Lizhuang Ma
新颖性检测是确定查询示例是否与学习培训分布不同的过程。以前的方法试图通过生成的对抗网络GAN学习正常样本的表示。然而，它们将遭受不稳定的培训，模式下降和低鉴别能力。最近，各种借口任务如图所示。已经提出了新颖性检测中自我监督学习的旋转预测和聚类。然而，学习的潜在特征仍然是低鉴别性。我们通过引入新的解码器编码器框架来克服这些问题。首先，通过将初始化的潜伏向量映射到图像来学习表示，解码器来学习表示，生成网络A.k.a.。特别地，通过考虑训练数据的整个分布来初始化该向量，以避免模式下降问题。其次，对比网络A.K.A.编码器旨在通过互信息估计来学习比较，该估计直接帮助生成网络通过使用负数据增强策略来获得更辨别的表示。广泛的实验表明，我们的模型在切割边缘新奇探测器上具有显着的优越性，并在一些新颖的检测基准上实现了新的最新状态，例如新颖的检测基准。 cifar10和dcast。此外，与其他基于普遍的新颖性检测方法相比，我们的模型对训练训练更稳定。

A Framework for Real-time Traffic Trajectory Tracking, Speed Estimation, and Driver Behavior Calibration at Urban Intersections Using Virtual Traffic Lanes
Authors Awad Abdelhalim, Montasir Abbas, Bhavi Bharat Kotha, Alfred Wicks
在以前的一项研究中，我们介绍了一个用于实时车辆检测，跟踪和在城市交叉路口的三步框架的三步框架。在这项研究中，我们展示了一种案例研究，其掺入了通过VT Lane获得的高度精确的轨迹和运动分类，以便在城市交叉路口速度估算和驾驶员行为校准的目的。首先，我们使用高度仪表的车辆来验证从视频推断获得的估计速度。速度验证的结果表明，我们的方法可以实时估计检测到的车辆的平均行进速度，其误差为0.19米秒，这相当于研究中的平均观察到的行驶速度的2。发现分辨率为30Hz分辨率的瞬时速度估计，平均误差分别为0.21米秒和0.86米秒，用于自由流动和拥挤的交通状况。然后，我们使用估计的速度来校准研究领域的车辆的驾驶员行为模型的参数。结果表明，校准模型以平均误差为0.45米秒的驾驶行为，表明使用该框架的高潜力，用于自动化的汽车的大规模校准，从路边交通视频数据的模型，这可能导致大量改进通过微观模拟在交通建模中。

Light Lies: Optical Adversarial Attack
Authors Kyu Lim Kim, Jeong Soo Kim, Seung Ri Song, Jun Ho Choi, Chul Min Joo, Jong Seok Lee
对普发的攻击进行了大量工作，该攻击攻击将难以察觉的噪声注入图像以恶化深层模型的图像分类性能。然而，大多数现有研究考虑了数字像素域中的攻击，其中已经记录了由图像传感器获取的图像传感器和量化的图像。本文首次介绍了一种光学对抗攻击，其物理地改变到达图像传感器的光场信息，使得分类模型产生错误分类。更具体地，我们使用放置在照相系统中的空间光调制器来调制傅里叶域中的光的相位。通过基于梯度的优化获得调制器的操作参数，以最大化交叉熵并最小化失真。我们对基于模拟和真实硬件光学系统的实验，证明了所提出的光学攻击的可行性。还证实，在扰动模式和分类结果方面，所提出的攻击与球形像差，散游，散焦和散光等常见的光学畴畸变完全不同。

Medical Matting: A New Perspective on Medical Segmentation with Uncertainty
Authors Lin Wang, Lie Ju, Donghao Zhang, Xin Wang, Wanji He, Yelin Huang, Zhiwen Yang, Xuan Yao, Xin Zhao, Xiufen Ye, Zongyuan Ge
在医学图像分割中，难以用二元面膜准确地标记含糊不清的区域，特别是在处理小病变时。因此，通过在多个注释的条件下使用二元掩模来达成共识是冒险家达成共识的挑战。然而，这些区域可能包含有利于诊断的解剖结构。引入了不确定性来研究这些情况。然而，不确定性通常通过多种试验方式预测之间的差异来衡量。它不直观，图像中没有确切的对应。灵感来自图像消光，我们将消光作为软分割方法和新的视角来处理，代表不确定的地区进入医学场景，即医疗垫子。更具体地说，因为没有可用的医疗消光数据集，我们首先用alpha遮罩标记了两个医疗数据集。其次，应用于自然形象的消光方法不适合医疗场景，因此我们提出了一种新的架构，以连续生成二元面罩和alpha遮罩。第三，引入不确定性地图以突出二元结果的含糊不清地区，提高消光性能。在这些数据集上评估，所提出的模型通过大边缘的艺术消光算法的表现优于状态，并且α遮罩被证明是比二元掩模更有效的标记形式。

Quantized Neural Networks via {-1, +1} Encoding Decomposition and Acceleration
Authors Qigong Sun, Xiufang Li, Fanhua Shang, Hongying Liu, Kang Yang, Licheng Jiao, Zhouchen Lin
深度神经网络DNN的培训总是需要进行计算和数据存储的密集资源。因此，DNN不能有效地应用于移动电话和嵌入式设备，这严重限制了它们在工业应用中的适用性。为了解决这个问题，我们提出了一种新颖的编码方案，使用1,1，将量化的神经网络Qnns分解为多分支二进制网络，这可以通过按位操作提供有效地实现，即Xnor和BitCount来实现模型压缩，计算加速度和资源保存。通过使用我们的方法，用户可以根据其要求和硬件资源任意实现不同的编码校验。所提出的机制非常适合在数据存储和计算方面使用FPGA和ASIC，这为智能芯片提供了可行的想法。我们验证了我们对大规模图像分类的方法的有效性，例如，想象，对象检测和语义分割任务。特别是，我们具有低比特编码的方法仍然可以实现几乎与其高比特对应物相同的性能。

Smoothed Multi-View Subspace Clustering
Authors Peng Chen, Liang Liu, Zhengrui Ma, Zhao Kang
近年来，多视图子空间聚类因跨多种视图的互补配置而导致的性能令人印象深刻。但是，多视图数据可能非常复杂，并且不容易在现实世界应用中群集。大多数现有方法在原始数据上运行，可能无法获得最佳解决方案。在这项工作中，我们提出了一种新的多视图聚类方法，通过采用新颖的技术，即图表滤波来提出名为平滑的多视图子空间聚类SMVSC的多视图聚类方法，以获得每个视图的平滑表示，其中类似的数据点具有类似的特征值。具体地，它通过应用低通滤波器保留图形几何特征。因此，它产生了聚类友好表示，并极大地促进了下游聚类任务。基准数据集的广泛实验验证了我们方法的优势。分析表明，图形过滤增加了类的可分离性。

Towards Clustering-friendly Representations: Subspace Clustering via Graph Filtering
Authors Zhengrui Ma, Zhao Kang, Guangchun Luo, Ling Tian
在许多应用程序中显示了特定任务的合适数据表示是至关重要的。子空间群集的成功取决于假设数据可以分为不同的子空间。但是，由于原始数据可能不可分为子空间，因此，这种简单的假设并不总是保持。为了恢复聚类友好表示并促进随后的聚类，我们提出了一种图形过滤方法，可以实现平滑的表示。具体地，它通过应用低通滤波器来提取用于聚类的有用数据表示来注入图形相似度。关于图像和文档聚类数据集的广泛实验表明我们的方法改善了艺术子空间集群技术的状态。特别是，其具有深度学习方法的可比性表现强调了简单的图形过滤方案对许多现实世界应用的有效性。一个消融研究表明，图形过滤可以去除噪声，保持图像中的结构，并提高类的可分离性。

Analyzing Adversarial Robustness of Deep Neural Networks in Pixel Space: a Semantic Perspective
Authors Lina Wang, Xingshu Chen, Yulong Wang, Yawei Yue, Yi Zhu, Xuemei Zeng, Wei Wang
深神经网络对对抗的脆弱性的脆弱性，通过修改具有令人无法察觉的扰动到误导网络产生不正确的产出来制作的恶意制作的对抗性示例产生了不正确的产出，揭示了缺乏鲁棒性并带来安全问题。以前的作品研究了图像水平上的图像分类器的对抗鲁棒性，并且不分青红皂白地使用图像中的所有像素信息，缺乏图像的像素空间中具有不同语义含义的区域的探索。在这项工作中，我们通过提出在分段图像的不同区域中通过像素寻找可能的扰动像素来填充该间隙并探索对抗图像的像素空间。 CIFAR 10和ImageNet上的广泛实验结果验证了仅在图像的某些像素中搜索修改的像素，可以成功地启动一个像素的对手攻击而不需要整个图像的所有像素，并且存在多个散落在不同的易受攻击点图像的区域。我们还表明，图像上不同区域的对抗鲁棒性因其包含的语义信息的数量而变化。

Medical Image Analysis on Left Atrial LGE MRI for Atrial Fibrillation Studies: A Review
Authors Lei Li, Veronika A. Zimmer, Julia A. Schnabel, Xiahai Zhuang
晚钆增强磁共振成像LGE MRI通常用于可视化和量化左心房LA疤痕。疤痕的位置和程度提供了心理生理学和心房颤动AF的病理生理学和进展的重要信息。因此，LGE MRI的LA ScAR分割和量化可用于AF患者的计算机辅助诊断和治疗分层。由于手动描绘可能是耗时的并且受到内部和专家的可变性，因此非常需要自动化这种计算，这然事件仍在挑战和研究。

RSG: A Simple but Effective Module for Learning Imbalanced Datasets
Authors Jianfeng Wang, Thomas Lukasiewicz, Xiaolin Hu, Jianfei Cai, Zhenghua Xu
在实践中广泛存在的不平衡数据集在训练深度神经模型中造成巨大级别的普遍挑战的巨大挑战。在这项工作中，将一个新的稀有类样本发生器RSG进行了一个唯一的问题。 RSG旨在在培训期间生成一些新的样品稀有阶级，特别是以下优势1，使用和高通用的方便，因为它可以很容易地集成到卷积神经网络中，并且它与不同的丢失功能有效并且，在训练阶段期间使用了2，因此，在测试阶段的深度神经网络上没有施加广告的附加负担。在广泛的实验评估中，凭借RSG的有效性。此外，通过Leveragingsrsg，我们获得了竞争结果，即在LT，ImageNet LT和Inattations 2018上的Provest Lt，ImageNet LT和Inattations的新技术上获得了竞争结果。源代码可用

Effective Model Sparsification by Scheduled Grow-and-Prune Methods
Authors Xiaolong Ma, Minghai Qin, Fei Sun, Zejiang Hou, Kun Yuan, Yi Xu, Yanzhi Wang, Yen Kuang Chen, Rong Jin, Yuan Xie
深神经网络DNNS在解决许多现实世界问题方面都是有效的。较大的DNN模型通常表现出更好的质量，例如，准确性，但它们过度的计算导致长期训练和推理时间。模型稀疏可以减少计算和内存成本，同时保持模型质量。大多数现有的稀疏算法单向移除权重，而其他人则随机或贪婪地探索每层中的小的权重子集。算法的低效率降低了可实现的稀疏性水平。此外，许多算法仍然需要预训练的密集模型，因此遭受大的内存占地面积和长训练时间。在本文中，我们提出了一种新颖的计划生长和修剪差距方法，而无需预先培训密集模型。它通过反复将层的子集重复地致密，然后在一些训练后重新修剪稀疏来解决以前的作品的缺点。实验表明，这种模型可以在80个稀疏在各种任务上匹配或击败高度优化的密集模型的质量，例如图像分类，客观检测，3D对象分割和翻译。它们还优于其他艺术SOTA修剪方法的其他状态，包括从预训练的密集模型中修剪。作为示例，通过间隙获得的90稀疏RESET 50在想象中实现77.9前1个精度，提高了SOTA的结果1.5。

Dual-Teacher Class-Incremental Learning With Data-Free Generative Replay
Authors Yoojin Choi, Mostafa El Khamy, Jungwon Lee
本文提出了两种新颖的知识转移技巧，用于课堂增量学习CIL。首先，我们通过使用来自生成模型的合成样本来提出数据免费生成重放DF GR来减轻CIL中的灾难性遗忘。在传统的生成重放中，生成模型是预先训练的旧数据，并在额外的存储器中共享以供以后的增量学习。在我们提出的DF GR中，我们根据过去训练有素的分类模型，我们从划痕中培训一台生成模型，而无需使用任何培训数据，因此我们缩短共享预培训的生成模型的成本。其次，我们向两位教师介绍双人教师信息蒸馏DT ID，从两位教师到一名学生。在CIL中，我们使用DT ID基于旧类的预训练模型和预先接受新类的新数据培训的另一模型来逐步学习新类。我们在最先进的CIL方法之一上实施了提出的方案，并显示了CIFAR 100和Imagenet数据集的性能改进。

Deep reinforcement learning with automated label extraction from clinical reports accurately classifies 3D MRI brain volumes
Authors Joseph Stember, Hrithwik Shalu
目的图像分类可能是成像AI中最基本的任务。但是，标记图像是耗时和繁琐的。我们最近展示了强化学习RL可以以高精度分类2D片MRI脑图像。在这里，我们首先使图像分类进行超速图像分类的两个重要步骤，我们自动从临床报告中提取类标签。其次，我们将先前的2D分类工作扩展到我们机构的完全3D图像卷。因此，我们在第1部分进行如下进行操作，我们使用SBERT自然语言处理方法自动提取来自报告的标签。然后，在第2部分中，我们使用这些标签与RL培训一个用于3D图像卷的分类Deep Q网络DQN。

Guided Integrated Gradients: An Adaptive Path Method for Removing Noise
Authors Andrei Kapishnikov, Subhashini Venugopalan, Besim Avci, Ben Wedin, Michael Terry, Tolga Bolukbasi
集成梯度IG是深度神经网络的常用特征归因方法。虽然IG具有许多所需的属性，但是该方法通常在应用于视觉模型时在与预测类相关的区域中产生虚假的噪声像素归属。虽然此前已注意到，但大多数现有解决方案旨在通过明确降低所产生的归属中的噪声来解决症状。在这项工作中，我们表明问题的原因之一是沿IG路径的噪声累积。为了最大限度地减少噪声源的效果，我们建议调整归属路径本身将路径调节不仅在图像上，还要对所解释的模型进行调节。我们将Adaptive Path方法推出APM，作为路径方法的泛化，引导IG作为APM的特定实例。经验上，引导IG产生与模型S预测和正在解释的输入图像更好地对齐的显着图。我们通过定性和定量实验表明，在几乎每个实验中引导IG优于其他相关方法。

Efficient Self-supervised Vision Transformers for Representation Learning
Authors Chunyuan Li, Jianwei Yang, Pengchuan Zhang, Mei Gao, Bin Xiao, Xiyang Dai, Lu Yuan, Jianfeng Gao
本文研究了两个技术为显影自我监督视觉变压器ESVIT进行视觉表现学习。首先，我们通过全面的实证研究表明，具有稀疏自我关注的多阶段架构可以显着降低建模复杂性，但具有损失图像区域之间捕获细粒度对应的能力的成本。其次，我们提出了一种新的预训练任务，该区域匹配允许模型捕获细粒度的区域依赖性，结果显着提高了学习的视觉表现的质量。我们的研究结果表明，组合两种技术，ESVIT在想象齿线性探测评估上实现了81.3前面的1，优于现有技术，围绕吞吐量的顺序幅度。在转移到下游线性分类任务时，ESVIT在18个数据集中的17个中超过其监管对应物。代码和模型将公开可用。

Discovering Relationships between Object Categories via Universal Canonical Maps
Authors Natalia Neverova, Artsiom Sanakoyeu, Patrick Labatut, David Novotny, Andrea Vedaldi
我们共同地解决了学习多种类别可变形对象的几何形状的问题。最近的工作表明，可以学习若干类别的相关对象的统一密度姿态预测器。但是，培训此类模型需要手动初始化分类间对应关系。这是次优，所得模型未能将正确的对应保持正确，因为学习单个类别。在本文中，我们表明，可以自动学习改进的对应关系作为学习类别特定密度姿态预测器的自然副产品。为此，我们使用统一嵌入的不同类别和图像和类别之间表达对应关系。然后，我们使用后者来强制执行两个约束对称间域周期一致性和新的非对称图像到类别周期一致性。如果没有任何手动注释的帧间分类对应关系，我们获得了最先进的对准结果，优于匹配3D形状的专用方法。此外，新型模型也比前后工作的密集姿态预测的任务更好。

DeepLab2: A TensorFlow Library for Deep Labeling
Authors Mark Weber, Huiyu Wang, Siyuan Qiao, Jun Xie, Maxwell D. Collins, Yukun Zhu, Liangzhe Yuan, Dahun Kim, Qihang Yu, Daniel Cremers, Laura Leal Taixe, Alan L. Yuille, Florian Schroff, Hartwig Adam, Liang Chieh Chen
Deebplab2是用于深层标记的Tensorflow库，旨在提供一种技术，易于使用Tensorflow CodeBase进行计算机视觉中的一般密集像素预测问题。 Deeplab2包括我们最近开发的Deeplab模型变体，其中包含普拉的检查站以及模型培训和评估代码，使社区能够重现并进一步改进艺术系统的状态。为了展示DEEPLAB2的有效性，我们的Panoptic Deeblab采用轴向脚踏板作为网络骨架，在CityScaspes验证集中实现了68.0 PQ或83.5 Miou，只有单级推断和Imagenet 1K净化检查点。我们希望公开分享我们的图书馆可以促进未来对密集像素标签任务的研究，并设想这项技术的新应用。代码在URL上公开提供

CT Image Synthesis Using Weakly Supervised Segmentation and Geometric Inter-Label Relations For COVID Image Analysis
Authors Dwarikanath Mahapatra, Ankur Singh
虽然医学图像分割是计算机辅助诊断的重要任务，但PixelWise手动注释的高专业知识要求使其成为一个具有挑战性和耗时的任务。由于传统的数据增强没有完全代表训练集的底层分布，因此在从不同源捕获的图像上测试时，训练型的模型具有不同的性能。大多数关于数据增强的图像合成的最新工作忽略了不同解剖标签之间的交错几何关系。通过学习不同解剖标签之间的关系，我们提出了对基于GaN的医学图像合成方法的改进。我们使用弱监管的分割方法来获取使用的图像的像素级语义标签映射，这些标签映射用于学习语义标签的几何形状和形状的内在关系。潜在空间可变采样从基础图像中产生不同生成的图像并提高稳健性。我们使用我们的方法从我们的方法中培训从肺CT图像分割Covid 19感染区域的网络。所提出的方法优于公共数据集的艺术分段方法的状态。消融研究还展示了整合几何和多样性的益处。

Residual Error: a New Performance Measure for Adversarial Robustness
Authors Hossein Aboutalebi, Mohammad Javad Shafiee, Michelle Karg, Christian Scharfenberger, Alexander Wong
尽管过去十年的深度学习的重大进展，但极为广泛的深入学习的主要挑战是他们对对抗攻击的脆弱性。在普遍扰动数据存在下使错误预测的这种敏感性使得深度神经网络难以为某些现实世界采用任务关键应用。虽然大部分研究重点围绕着侵犯示例创造和对抗的硬化，但评估对抗鲁棒性的性能措施领域并不熟悉。本研究提出了这种研究，呈现了残余误差的概念，这是一种新的性能措施，不仅可以评估各种样品水平的深神经网络的对抗鲁棒性，而且可以用于区分对抗性和非对手的例子以方便对于对抗的例子检测。此外，我们介绍了一种混合模型，用于以易于易行的方式近似残差误差。使用图像分类的实验结果证明了所提出的剩余误差度量来评估几个众所周知的深神经网络架构的有效性和功效。因此，这些结果说明了所提出的措施可以是一种有用的工具，不仅可以评估任务批判情景中使用的深度神经网络的鲁棒性，而且还在对流技术强大的模型的设计中。

Non-Iterative Phase Retrieval With Cascaded Neural Networks
Authors Tobias Uelwer, Tobias Hoffmann, Stefan Harmeling
傅立叶相检索是仅给出其傅里叶变换的大小的信号的问题。基于优化的方法，如建立的Gerchberg Saxton或混合输入输出算法，在重建来自不是超自采样的幅度的重建图像时斗争。这激励了学习方法的应用，该方法允许在学习阶段之后从非过采样幅度测量重建。在本文中，我们希望通过深度神经网络级联推动这些学习方法的极限，该级联从其非过采样的傅里叶幅度上连续地重建图像的不同分辨率。我们在四个不同的数据集Mnist，Emnist，Fashion Mnist和KMnist上评估我们的方法，并证明它能够提高对其他非迭代方法和基于优化的方法的性能。

Steerable Partial Differential Operators for Equivariant Neural Networks
Authors Erik Jenner, Maurice Weiler
最近在等世地区的深度学习工作与物理学相同。基础空间上的字段是两个受试者中的基本实体，因此这些字段之间的成本映射。然而，在深度学习中，这些地图通常由带内核的卷曲定义，而它们是物理学中的部分差分运算符PDO。在深入学习的背景下，在深入学习的背景下发展方面的PDO理论可能会使这些科目更加紧密，并导致更强烈的思想流动。在这项工作中，我们推出了G值的G值约束，其特征在于特征传染媒介字段之间的PDO时，用于任意对称组G.然后我们充分解决了几个重要组的这一限制。我们将我们的解决方案用作卷积层的替代品的等价下降，并在该角色中基准。最后，我们基于Schwartz分布式为施瓦茨分布的框架开发了一个框架，统一了经典卷积和差分运算符，并介绍了两者之间的关系。

World-GAN: a Generative Model for Minecraft Worlds
Authors Maren Awiszus, Frederik Schubert, Bodo Rosenhahn
这项工作介绍了世界GaN，从一个例子中通过机器学习执行数据驱动程序内容生成的第一种方法。基于3D生成对冲网络GAN架构，我们能够从给定的样本创建任意大小的世界代码段。我们评估了我们对社区的创作以及与Minecraft世界发生器产生的结构的方法。我们的方法是由使用Word2VEC 1引入的自然语言处理NLP中使用的密集表示的动机。拟议的Block2Vec表示使世界GAN独立于不同块的数量，这可以在MINECRAFT中变化很多，并且能够产生更大的级别。最后，我们演示了改变这个新的表示空间允许我们更改已训练的发生器的生成样式。 World GaN使其用户能够根据他们的作品的部分生成Minecraft Worlds。

Debiased Subjective Assessment of Real-World Image Enhancement
Authors Cao Peibei. Wang Zhangyang, Ma Kede
在现实世界形象增强中，如果不可能获取地面真理数据，则经常具有挑战性，防止采用客观质量评估的距离指标。因此，人们常常诉诸主观质量评估，最简单，最可靠的评估图像增强方法。传统的主观测试需要手动预先选择一小一组视觉示例，这可能由于所选择的样本2所选择的样本2算法偏差所选择的样本的极其稀疏的分布而受到三个偏置偏差偏差。由于进一步潜在的樱桃采摘测试结果，主观偏见。这最终使现实世界图像的领域更加艺术而不是科学。在这里，我们通过自动采样一组自适应和不同的图像来采取措施进行脱遍传统主观评估以进行后续测试。这是通过将样品选择铸造成增强剂与所选输入图像之间的分集之间的关节最大化来实现的。对此产生的增强图像的仔细视觉检查提供了增强算法的脱叠排名。我们展示了我们使用三种流行的和实际要求的图像增强任务脱落，超分辨率和低光增强的主观评估方法。

Improved Radar Localization on Lidar Maps Using Shared Embedding
Authors Huan Yin, Yue Wang, Rong Xiong
我们提出了一种解决雷达全球本地化的异构定位框架，并在预构建的激光雷达地图上进行跟踪。为了弥合传感方式的差距，构建深度神经网络以为雷达扫描和激光雷达地图创建共享嵌入空间。这里学习的特征嵌入对于相似性测量支持，从而分别改善MAP检索和数据匹配。在Robotcar和Mulran数据集中，我们展示了建议框架的有效性与扫描上下文和rall的比较。此外，与原始竞争相比，所提出的姿势跟踪管道具有较少的神经网络。

Accumulative Poisoning Attacks on Real-time Data
Authors Tianyu Pang, Xiao Yang, Yinpeng Dong, Hang Su, Jun Zhu
从不受信任的来源收集培训数据将机器学习服务暴露给中毒对手，恶意操纵培训数据以降低模型精度。当在离线数据集接受培训时，中毒对手必须在训练前提前注入中毒数据，并且将这些中毒批次喂养到模型中的顺序是随机的。相比之下，实用的系统更常见于依次捕获的实时数据进行精细调整，在这种情况下，其中中毒对手可以根据当前模型状态动态毒药每个数据批次。在本文中，我们专注于实时设置，并提出了一种新的攻击策略，该攻击策略与中毒攻击秘密地分担了累计阶段，即，不影响精度放大毒性触发批次的破坏性效果。通过模拟在线学习和联合学习CIFAR 10，我们表明模型精度将在累积阶段后触发批次上的单个更新步骤显着下降。我们的工作验证了一个精心设计但简单的攻击策略可以大大放大中毒效果，无需探索复杂的技术。

Indicators of Attack Failure: Debugging and Improving Optimization of Adversarial Examples
Authors Maura Pintor, Luca Demetrio, Angelo Sotgiu, Giovanni Manca, Ambra Demontis, Nicholas Carlini, Battista Biggio, Fabio Roli
评估机器学习模型的鲁棒性对抗对抗例子是一个具有挑战性的问题。已经证明许多防御通过导致基于梯度的攻击失败来提供虚假的安全感，并且在更严格的评估下被打破了。虽然已经提出了准则和最佳实践来改善当前的对抗鲁棒性评估，但缺乏自动测试和调试工具使得难以以系统的方式应用这些建议。在这项工作中，我们通过定义一组定量指标来克服这些限制，该限制揭示了在优化基于梯度的攻击中的常见失败，以及在系统评估协议中提出特定缓解策略。我们广泛的实验分析表明，该拟议的失效指标可用于可视化，调试和改善当前的对抗鲁棒性评估，为自动化和系统化当前的对抗鲁棒性评估提供第一步。我们的开源代码可用

Evolving GANs: When Contradictions Turn into Compliance
Authors Sauptik Dhar, Javad Heydari, Samarth Tripathi, Unmesh Kurup, Mohak Shah
标签数据的有限可用性使任何受监督的学习问题具有挑战性。替代学习设置，如半监督和Universum学习减轻了对标记数据的依赖性，但仍需要大量的未标记数据，这可能无法获得或昂贵。基于GaN的合成数据生成方法通过生成合成样本来提高手头的任务来显示承诺。然而，这些样品不能用于其他目的。在本文中，我们提出了一个GaN游戏，在有限的数据设置下提供了改进的鉴别器精度，同时产生了现实的合成数据。这提供了添加的优势，即现在生成的数据可以用于其他类似的任务。我们提供理论担保和实证结果支持我们的方法。

A Unified Generative Adversarial Network Training via Self-Labeling and Self-Attention
Authors Tomoki Watanabe, Paolo Favaro
我们提出了一种新的GaN培训计划，可以以统一的方式处理任何级别的标签。我们的计划介绍了一种人为标记形式，可以在可用时纳入手动定义的标签，并在它们之间引起对齐。为了定义人为标签，我们利用了假设，即神经网络生成器可以更容易地培训，以便将附近的潜在矢量映射到具有语义相似性的数据，而不是单独的类别。我们使用生成的数据样本及其相应的人工调节标签来培训分类器。然后将分类器用于自我标记真实数据。为了提高自我标签的准确性，我们还使用分类器的指数移动平均值。但是，由于分类器仍然会造成错误，特别是在训练的开始时，我们还通过自我注意，通过使用实际数据样本的标签来改进标签，仅当分类器输出高分类概率得分时。我们评估我们在CIFAR 10，STL 10和SVHN上的方法，并表明自我标签和自我注意力始终如一地提高所产生数据的质量。更令人惊讶的是，我们发现所提出的计划甚至可以倾向于课程的条件GAN。

Development of a conversing and body temperature scanning autonomously navigating robot to help screen for COVID-19
Authors Ryan Kim
在整个Covid 19大流行中，患者展示的最常见的症状发烧，导致使用温度扫描作为先发制人的措施来检测病毒的潜在载体。具有手持式温度计的人类员工已被用来履行这项任务，但这会使它们面临风险，因为它们不能物理偏移，这种方法的顺序性导致巨大的不便和效率低。该解决方案是一种自动导航的机器人，能够对话和扫描人们的温度来检测Covid 19的Fredes和帮助屏幕。为了满足这个目标，机器人必须能够自主，2检测和跟踪人员，3获取如果超过38℃，则个人温度读取和与它们相反。使用面部跟踪算法和由热摄像头，智能手机和聊天设备组成的端部执行器，使用自动导航移动机器人。目标是开发一个执行上述任务的功能解决方案。此外，将提出遇到的技术挑战及其工程解决方案，并将为在接近商业化时纳入的增强建议。

GEM: A General Evaluation Benchmark for Multimodal Tasks
Authors Lin Su, Nan Duan, Edward Cui, Lei Ji, Chenfei Wu, Huaishao Luo, Yongfei Liu, Ming Zhong, Taroon Bharti, Arun Sacheti
在本文中，我们将GEM作为多式化任务的一般评估基准。不同于现有的数据集，如胶水，超级格，XGLue和Xtreme，主要关注自然语言任务，宝石是一个大规模的视觉语言基准，由Gem I组成的图像语言任务和Gem V用于视频语言任务。与现有的多模式数据集（如Mscoco和Flicker30K为图像语言任务，YouScook2和MSR VTT），用于视频语言任务，GEM不仅是涵盖图像语言任务和视频语言任务的最大的视觉语言数据集，而且还标记为多种语言。我们还为此基准提供了两个基线模型。我们将发布数据集，代码和基线模型，旨在推进多语言多式化研究的发展。

AI-Enabled Ultra-Low-Dose CT Reconstruction
Authors Weiwen Wu, Chuang Niu, Shadi Ebrahimian, Hengyong Yu, Mannu Kalra, Ge Wang
由Alara与合理可取的原则一样低，超低剂量CT重建是一个圣杯，以最大限度地减少癌症风险和遗传损害，特别是儿童。随着医疗CT技术的发展，迭代算法广泛用于从低剂量扫描重建体面的CT图像。最近，人工智能AI技术在进一步减少CT辐射剂量到下一个水平方面表现出了很大的希望。在本文中，我们证明AI供电CT重建提供与射线照相相当的超低剂量水平的诊断图像质量。具体地，在这里，我们开发了一个分裂的展开网格，如替代重建糖网络，其中深入学习，物理建模和图像是先前的。来自临床数据集的重建结果表明，可以使用来自36个投影的糖来重建优异的图像。这种方法有可能改变未来的医疗保健。

Hybrid graph convolutional neural networks for landmark-based anatomical segmentation
Authors Nicol s Gaggion, Lucas Mansilla, Diego Milone, Enzo Ferrante
在这项工作中，我们解决了解剖结构的基于地标的分割问题。我们提出Hybrodgnet，该编码器解码器神经结构，其结合了用于图像特征编码的标准卷积，具有图形卷积神经网络，用于解码解剖结构的合理表示。考虑到胸部X射线图像中的其他标准地标和基于像素基于解剖分割的标准地标和基于像素的模型来基准测试，发现Hybridgnet对图像遮挡更加强大。我们还表明它可用于从像素级注释构建基于地标基的分段。我们的实验结果表明，Hybridgnet通过通过光谱卷积自然地结合在解码过程中的形状约束中产生准确和解剖学的地标的分割。

A Distance-based Separability Measure for Internal Cluster Validation
Authors Shuyue Guan, Murray Loew
为了评估聚类结果是集群分析的重要组成部分。由于在典型的无监督学习中没有针对群集的真实类标签，因此已经创建了许多使用预测标签和数据的内部群集有效性指数CVI。没有真正的标签，要设计有效的CVI难以创建聚类方法。并且具有更多的CVI至关重要，因为没有通用的CVI，可用于测量所有数据集，并且没有针对没有真标选择的群集选择适当的CVI的具体方法。因此，要应用各种CVI来评估聚类结果是必要的。在本文中，我们提出了一种基于数据可分离性测量的新型内部CVI基于距离的可分离指标DSI。我们将DSI与八个内部CVI的DSI进行了比较，包括从早期DUNN 1974到最近的CVDD 2019和一个外部CVI作为地面真理，通过在12个真实和97个合成数据集上使用五个聚类算法的聚类结果。结果显示DSI是一种有效，独特，竞争力的CVI，用于其他比较的CVI。我们还总结了一般过程来评估CVI，并创建了CVIS结果比较的秩差度量。

Synthetic COVID-19 Chest X-ray Dataset for Computer-Aided Diagnosis
Authors Hasib Zunair, A. Ben Hamza
我们介绍了一个名为Synthetic Covid 19胸X射线数据集的新数据集，用于训练机器学习模型。 DataSet由21,295种合成Covid 19胸X射线图像组成，用于计算机辅助诊断。通过无监督域适应方法产生的这些图像具有高质量。我们发现合成型图像不仅在大幅不平衡条件下用作额外的培训数据时，不仅可以提高各种深度学习架构的性能，而且很快地检测目标课程。我们还发现，当仅在合成图像上培训时也可以实现可比性的性能。此外，合成Covid 19图像的凸起特征表明分布与非Covid 19类显着不同，从而实现了正确的决策边界。我们希望Covid 19的这种高保真胸部X射线图像的可用性19将鼓励诊断和或管理工具的开发进展。

PyKale: Knowledge-Aware Machine Learning from Multiple Sources in Python
Authors Haiping Lu, Xianyuan Liu, Robert Turner, Peizhen Bai, Raivo E Koot, Shuo Zhou, Mustafa Chasmai, Lawrence Schobs
机器学习是一项通用技术，持有许多跨学科研究问题的承诺。然而，当大多数机器学习工具分别在不同区域开发的大多数机器学习工具时，在交叉学科界限中存在重大障碍。我们为Pykale提供了一个Python库，用于了解图形，图像，文本和视频的知识意识机器，以启用和加速跨学科研究。我们根据标准软件工程实践制定新的绿色机器学习指南，并提出了一种基于流水线的应用程序编程接口API。 Pykale侧重于利用多种来源的知识，以实现准确和可解释的预测，从而支持多式化学习和转移学习，特别是具有最新的深度学习和维度减少模型的领域适应。我们在Pytorch上构建Pykale并利用丰富的Pytorch生态系统。我们的管道基础设计通过减少重复和冗余，重用现有资源以及跨区域的回收学习模型来实现标准化和极简主义，采用标准化和极简主义，拥有绿色机器学习概念。我们通过生物信息学，知识图形，图像视频识别和医学成像中的示例展示其跨学科性质。

AtrialGeneral: Domain Generalization for Left Atrial Segmentation of Multi-Center LGE MRIs
Authors Lei Li, Veronika A. Zimmer, Julia A. Schnabel, Xiahai Zhuang
晚期钆增强磁共振成像LGE MRI的左心房LA分段是规划心房颤动治疗所需的关键步骤。然而，由于图像质量差，La形状的高度差，La形状和洛基边界不明显，来自LGE MRI的自动LA分割仍然具有挑战性。虽然基于深度学习的方法可以提供有前途的LA分段结果，但它们通常概括到看不见的域名，例如来自不同扫描仪和或站点的数据。在这项工作中，我们从不同的中心收集210 LGE MRI，具有不同的图像质量。为了评估LA分段任务上模型的域泛化能力，我们为来自多中心LGE MRI的LA分段采用了四个常用的语义分段网络。此外，我们研究了三个域泛化策略，即直方图匹配，基于互信的表示，以及随机样式传输，其中证明了一个简单的直方图匹配是最有效的。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com