【AI视野·今日CV 计算机视觉论文速览第222期】Fri, 18 Jun 2021_disc21 the 2021 image similarity dataset and chall-CSDN博客

本文链接：https://blog.csdn.net/u014636245/article/details/118032968

AI视野·今日CS.CV 计算机视觉论文速览
Fri, 18 Jun 2021
Totally 66 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Computer Vision Papers

IFCNet: A Benchmark Dataset for IFC Entity Classification
Authors Christoph Emunds, Nicolas Pauen, Veronika Richter, J r me Frisch, Christoph van Treeck
增强BIM域特定软件产品之间的互操作性和信息交流是建筑，工程，建筑和运营行业的一个重要方面。最近的研究开始研究机器领域的方法和深度学习，以获得BIM模型的语义富集。但是，对这些机器学习算法的培训和评估需要足够大而全面的数据集。这项工作介绍了IFCnet，一个数据集，其单一实体IFC文件的数据集，其具有包含几何和语义信息的广泛IFC类。仅使用对象的几何信息，实验表明，三种不同的深度学习模型能够实现良好的分类性能。

Visual Correspondence Hallucination: Towards Geometric Reasoning
Authors Hugo Germain, Vincent Lepetit, Guillaume Bourmaud
给定一对部分重叠的源和目标图像和源图像中的关键点，目标图像中的关键点S对应者可以是可见的，遮挡的或在视野之外。本地特征匹配方法只能在可见时识别通信的位置，而人类也可以通过几何推理在视野之外幻析其位置。在本文中，我们通过培训网络来弥合该差距来输出对应的位置上的峰值概率分布，而不管这对应力，无论是可见的，遮挡的，还是在视野之外。我们通过实验证明，该网络确实能够对看不见的图像对的相应幻觉。我们还将此网络应用于相机姿态估计问题，发现它比基于竞争对手的艺术匹配的艺术状态的状态明显更强大。

Multi-Label Learning from Single Positive Labels
Authors Elijah Cole, Oisin Mac Aodha, Titouan Lorieul, Pietro Perona, Dan Morris, Nebojsa Jojic
预测给定图像的所有适用标签被称为多标签分类。与标准多级案例相比，每个图像只有一个标签，它对向多标签分类的培训数据注释训练数据有很大挑战。当潜在标签的数量很大，人类的注释器发现难以为每个培训图像提及所有适用的标签。此外，在一些设置中，检测是本质上的困难。在高分辨率图像中找到小对象实例。因此，多标签培训数据通常被错误的底片困扰。我们考虑这个问题的最困难的版本，其中annotator只为每个图像提供一个相关标签。结果，培训集每台图像只有一个正标签，没有确认的否定。我们探讨了跨越四个不同的多标签图像分类数据集的缺少标签的特殊情况，用于线性分类器和结束到结束精细调谐的深网络。我们将现有的多标签丢失扩展到此设置，并提出了在培训期间约束预期正标签数量的新型变体。令人惊讶的是，我们表明，在某些情况下，尽管有明显更少的确认标签培训，但在某些情况下可以接近完全标记的分类器的性能。

Learning to Predict Visual Attributes in the Wild
Authors Khoi Pham, Kushal Kafle, Zhe Lin, Zhihong Ding, Scott Cohen, Quan Tran, Abhinav Shrivastava
Visual属性构成在场景中包含的大部分信息。可以使用各种属性来描述对象，这些属性描绘了他们的视觉外观颜色，纹理，几何形状，大小，姿势和其他内在属性状态，动作。现有工作主要仅限于对特定域中的属性预测研究。在本文中，我们在Wild Visual属性预测数据集中引入了大规模的大规模，该数据集由超过260K对象实例组成的超过927K属性注释。正式地，对象属性预测是一个多标签分类问题，必须预测适用于对象的所有属性。由于大量属性，标签稀疏性，数据不平衡和对象遮挡，我们的数据集对现有方法带来了重大挑战。为此，我们提出了几种系统地解决了这些挑战的技术，包括利用低级别的CNN功能，具有多跳关注，重新重量和重采样技术，新颖的负标签扩展方案以及一种新颖的监督属性意识到的基础模型对比学习算法。使用这些技术，我们实现了附近的3.7地图和5.7整体F1积分对现有技术的改进。有关VAW数据集的进一步详细信息可以找到

MoDist: Motion Distillation for Self-supervised Video Representation Learning
Authors Fanyi Xiao, Joseph Tighe, Davide Modolo
我们将Modist作为一种新颖的方法，将动作信息明确地蒸发到自我监督的视频表示中。与以前的视频表示学习方法，主要从RGB输入隐式地专注于学习运动提示，我们表明，通过我们的模型方法学习的表示，更多地关注前景运动区域，从而更好地推广到下游任务。为实现这一目标，Modist在RGB视频剪辑中丰富标准对比学习目标，其具有运动途径和视觉途径之间的跨模型学习目标。我们在几个数据集中评估Modist，用于操作识别UCF101 HMDB51 SSV2以及动作检测AVA，并展示所有数据集上的艺术自我监督性能的状态。此外，我们展示了模型表示可以像在某些情况下一样有效，甚至比以完全监督所学到的代表更好。鉴于其简单性，我们希望模型主义者可以作为未来的自我监督视频代表学习研究的强大基准。

Always Be Dreaming: A New Approach for Data-Free Class-Incremental Learning
Authors James Smith, Yen Chang Hsu, Jonathan Balloch, Yilin Shen, Hongxia Jin, Zsolt Kira
当随着时间的推移逐步学习新概念时，现代计算机视觉应用遭受灾难性的遗忘。缓解这种遗忘的最成功的方法需要广泛的重播先前看到的数据，这在存在内存约束或数据合法性问题时是有问题的。在这项工作中，我们考虑了数据免费级增量学习DFCIR的高影响力，其中增量学习代理必须随着时间的推移学习新概念，而无需从过去的任务中存储生成器或培训数据。 DFCIL的一种方法是重播通过反转学习者分类模型的冻结副本产生的合成图像，但我们显示使用标准蒸馏策略时的通用类增量基准的方法失败。我们诊断了这种失败的原因，并提出了一种新的DFCOL的增量蒸馏策略，有助于改进的交叉熵培训和重要性加权特征蒸馏，并显示我们的方法最终任务准确性的绝对差异增加25.1用于常用类增量基准的DFIL方法。我们的方法甚至优于几种基于标准重放的方法，该方法存储图像的刻度。

BABEL: Bodies, Action and Behavior with English Labels
Authors Abhinanda R. Punnakkal 1 , Arjun Chandrasekaran 1 , Nikos Athanasiou 1 , Alejandra Quiros Ramirez 2 , Michael J. Black 1 1 Max Planck Institute for Intelligent Systems, 2 Universitat Konstanz
了解人类运动的语义，动作的方式和原因是一个重要问题，需要用语义标签进行人类行为的数据集。现有数据集采用两种方法之一。大规模视频数据集包含许多动作标签，但不包含地面真理3D人类运动。或者，运动捕获Mocap数据集具有精确的身体运动，但仅限于少量动作。为了解决这个问题，我们呈现Babel，一个具有语言标签的大型数据集，描述了在Mocap序列中执行的动作。 Babel由Amass的Mocap序列的行动标签组成。操作标签在两个抽象序列标签上描述了序列中的整体动作，并且帧标签描述了序列的每一帧中的所有动作。每个帧标签正精确对齐，在Mocap序列中的相应动作的持续时间内，多个动作可以重叠。 BABEL中有超过28K的序列标签和63K帧标签，属于超过250个独特的行动类别。 Babel的标签可以利用行动识别，时间动作定位，运动合成等的任务来杠杆化，以展示Babel作为基准的价值，我们评估模型对3D动作识别的性能。我们表明Babel造成了适用于现实世界情景的有趣学习挑战，并且可以作为3D行动识别进展的有用基准。数据集，基线方法和评估代码是可用的，并支持学术研究目的

XCiT: Cross-Covariance Image Transformers
Authors Alaaeldin El Nouby, Hugo Touvron, Mathilde Caron, Piotr Bojanowski, Matthijs Douze, Armand Joulin, Ivan Laptev, Natalia Neverova, Gabriel Synnaeve, Jakob Verbeek, Herv Jegou
在他们在自然语言处理中取得成功之后，变压器最近对计算机愿景表示了很多承诺。自我关注操作底层变压器会产生所有令牌之间的全球相互作用，即。单词或图像修补程序，并启用超出卷积的本地交互超出图像数据的灵活建模。然而，这种灵活性在时间和内存中具有二次复杂性，妨碍了应用于长序列和高分辨率图像。我们提出了一种转换版的自我关注，它在跨特征频道而不是令牌运行，其中交互基于键和查询之间的跨协方差矩阵。所得到的交叉协方差XCA在令牌的数量中具有线性复杂性，并且允许高分辨率的高分辨率处理。我们的交叉协方差图像变压器XCIT是在XCA之上的内置。它结合了传统变压器的准确性与卷积架构的可扩展性。通过在多个视觉基准上报告优秀的结果，包括在Imagenet 1k，对象检测和Coco上的实例分割的图像分类和自我监督特征学习，以及在ADE20K上的语义分割，包括图像分类和自我监督特征学习，验证了XCIT的效力和普遍性。

JOKR: Joint Keypoint Representation for Unsupervised Cross-Domain Motion Retargeting
Authors Ron Mokady, Rotem Tzaban, Sagie Benaim, Amit H. Bermano, Daniel Cohen Or
通过使用深神经网络，视频中无监督运动重新定位的任务已经看到了实质性的进步。虽然早期作品集中在人体或身体等特定物体前沿，但最近的工作被认为是无人监督的情况。但是，当源和目标视频具有不同的形状时，当前方法失败。为了缓解这个问题，我们介绍了Jokr一个联合关键点表示，它捕获源和目标视频共同的运动，而不需要任何对象之前或数据收集。通过使用域混淆术语，我们强制执行两个视频的无监督的关键点表示才能无法区分。这鼓励了两个域共用的运动的部分之间的解剖学，以及它们的独特外观和运动，使得产生捕获一体运动的视频，同时描绘另一个域的运动。为了使能对象具有不同比例或方向的情况，我们在Jokrs之间应用了学习仿射转换。这增加了代表性的仿射不变，在实践中扩大了各种可能的复零对。这种几何驱动表示可以进一步直观控制，例如时间相干和手动编辑。通过全面的实验，我们展示了我们对不同具有挑战性的交叉域视频对的适用性。我们在定性和定量地评估我们的方法，并证明我们的方法处理各种交叉域场景，例如不同的动物，不同的花朵和人类。通过统计指标和用户学习，我们还展示了与美术替代品的状态相比的卓越的时间一致性和视觉质量。可以找到源代码和视频

The 2021 Image Similarity Dataset and Challenge
Authors Matthijs Douze, Giorgos Tolias, Ed Pizzi, Zo Papakipos, Lowik Chanussot, Filip Radenovic, Tomas Jenicek, Maxim Maximov, Laura Leal Taix , Ismail Elezi, Ond ej Chum, Cristian Canton Ferrer
本文介绍了一种新的基准，用于大规模图像相似性检测。该基准测试用于在Neurips 21 ISC2021处的图像相似性挑战。目标是确定查询图像是否是参考语料库中的任何图像的修改副本，大小为100万。该基准标记具有各种图像变换，例如自动变换，手工制作图像编辑和基于机器的操纵。这种模仿社交媒体的真实生活案例，例如用于处理错误信息和令人反感的内容的完整性问题。根据一组基线方法的性能，图像操纵的强度以及基准的难度被校准。查询和参考集都包含绝大多数不匹配的分散组图像，这对应于大海捞针设置中的真实针，并且评估度量反映了这一点。我们预计Disc21基准测试将促进图像复制检测作为重要且具有挑战性的计算机视觉任务，并刷新现有技术。

Indian Masked Faces in the Wild Dataset
Authors Shiksha Mishra, Puspita Majumdar, Richa Singh, Mayank Vatsa
由于Covid 19大流行，佩戴面罩已成为全球公共场所的任务。面部面罩遮挡面部区域的重要部分。此外，人们佩戴不同类型的掩码，从简单的掩模到带有图形和印刷品的简单。这些构成了对面部识别算法的新挑战。研究人员最近提出了一些用于设计算法的屏蔽面部数据集，以克服蒙面的面部识别的挑战。但是，现有数据集在不受限制的环境中缺乏文化多样性和集合。像印度一样的国家，带着装有的多样性，人们不仅限于穿着传统面具，还要衣服，如薄棉印花毛巾，当地称为Gamcha，Stoles和Handkerchiefs覆盖他们的脸。在本文中，我们在Wild IMFW数据集中展示了一种新的TextBF印度蒙面面孔，其包含具有姿势，照明，分辨率和受试者佩戴的各种面具的图像的图像。我们还在提议的IMFW数据集上基准测试了现有的人脸识别模型的性能。实验结果表明存在在不同条件下存在的现有算法的局限性。

AttDLNet: Attention-based DL Network for 3D LiDAR Place Recognition
Authors Tiago Barros, Lu s Garrote, Ricardo Pereira, Cristiano Premebida, Urbano J. Nunes
深度网络已经逐步适应新的传感器方式，即3D LIDAR，这导致了自主车辆相关应用中的前所未有的成就，例如地方识别。深度模型的主要挑战之一是识别的是提取基于其相似性的有效和描述性特征表示。为了解决利用LIDAR数据的地点识别问题，本文提出了一种名为ATTDLNET的新型3D LIDAR的深度学习网络，包括编码器网络，并利用注意机制来选择性地关注长距离上下文和互连关系。建议的网络在Kitti DataSet上培训并验证，使用余弦丢失进行培训和用于验证的基于检索的地点识别管道。另外，提出了一种消融研究以评估最佳网络配置。结果表明，编码器网络功能已经非常描述，但增加了对网络的关注进一步提高了性能。从消融研究，结果表明中间编码器层具有最高的平均性能，而更深层面对取向变化更加坚固。该代码在项目网站上公开提供

Privacy-Preserving Eye-tracking Using Deep Learning
Authors Salman Seyedi, Zifan Jiang, Allan Levey, Gari D. Clifford
扩大使用像深度学习的复杂机器学习方法导致人类活动识别的爆炸，特别适用于健康。特别是，作为较大的身体传感器网络系统的一部分，面部和全身分析对于评估健康状况越来越普遍。但是，处理私有和有时保护数据的复杂模型，提高了对可识别数据潜在泄漏的担忧。在这项工作中，我们专注于在个人面部图像训练的深网络模型的情况。采用了从493个个人拍摄的全面录像，从而采用了基于眼睛跟踪的神经功能评估。输出，梯度，中间层输出，损耗和标签用作深网络的输入，其中添加支持向量机发射层识别训练数据的成员资格。推理攻击方法和相关的数学分析表明，深度学习模型中的面部特征意外存储的可能性低。在这项研究中，显示命名模型以合理的信心保留培训数据的完整性。可以在不同模型的类似条件下实现相同的过程。

To fit or not to fit: Model-based Face Reconstruction and Occlusion Segmentation from Weak Supervision
Authors Chunlu Li, Andreas Morel Forster, Thomas Vetter, Bernhard Egger, Adam Kortylewski
由于其未病的性质，从单个图像的3D面部重建是挑战。基于模型的脸部自动泊者通过弱化方式将面部模型拟合到目标图像来有效地解决了这个问题。然而，在无关的环境中，闭塞扭曲了面部重建，因为模型经常错误地试图适应闭塞面部区域。监督遮挡分割是一种可行的解决方案，以避免闭塞面部区域的配合，但它需要大量的注释训练数据。在这项工作中，我们可以准确地使基于模型的面部AutoEncoders精确地进行封闭器，而不需要在训练期间进行任何额外的监督，并且这将该模型安装在不合适的内容。为此，我们使用分段网络扩展Face AutoEncoders。分割网络决定了模型应该通过在包括像素之间的折衷中达到余额并将模型适应它们的余额来确定哪些区域，并排除像素，使模型拟合不会产生负面影响，并且在显示的像素上达到更高的整体重建精度。脸。这导致协同效应，其中遮挡分割引导面部自动统计器的训练来限制在非闭塞区域中的配合，而改进的配件使分段模型能够更好地预测被遮挡的面部区域。 Celeba HQ数据库和AR数据库的定性和定量实验验证了我们模型在改善遮挡下改善3D面部重建方面的有效性，并仅从弱监管机会实现精确的遮挡分段。可用的代码

SIFT Matching by Context Exposed
Authors Fabio Bellavia
本文调查如何通过利用匹配的上下文信息来加强本地图像描述符匹配。识别两个主要上下文，分别来自描述符空间和关键点空间。前者通常用于设计实际匹配策略，而后者根据局部空间一致性过滤匹配。在此基础上，设计了一种新的匹配策略和新的局部空间过滤器，分别命名为Blob匹配和Delaunay三角测量匹配的DTM。 Blob匹配通过合并多个策略，包括预滤波以及许多对称匹配，提供了一般的匹配框架，使得能够实现每个策略的全球改进。 DTM在Delaunay三角测量缩放和扩展之间交替进行弄清楚并调整Keypoint邻域一致性。实验评估表明，在匹配的精度和稳健性方面，DTM比现有技术相当或更好，特别是对于非平面场景。根据设计的新基准测试进行评估，用于在适用于平面和非平面场景的正确对应条件下分析匹配管道，包括最新方法以及用于参考的常见筛选匹配方法。该评估可以为未来研究的援助。

Knowledge distillation from multi-modal to mono-modal segmentation networks
Authors Minhao Hu, Matthis Maillard, Ya Zhang, Tommaso Ciceri, Giammarco La Barbera, Isabelle Bloch, Pietro Gori
近年来广泛研究了多种成像模型的多重成像方式。来自不同模式的信息的融合已经证明，在几种应用中，提高了单型模态分段的分割精度。然而，由于有限数量的医生和扫描仪，在临床环境中，通常不可能获得多种方式，并限制成本和扫描时间。大多数情况下，只获取一种模态。在本文中，我们提出了kd网，这是一个框架，用于将培训的多模态网络老师从训练的多模态网络教师转移到单声道模态一名学生。该方法是对学生网络培训的广义蒸馏框架的适应，其中在教师S输入N个模型的子集合1模型上培训。我们说明了与Brats 2018 DataSet脑肿瘤分割中提出的框架的有效性。使用不同的架构，我们表明学生网络有效地从教师学习，并在分割精度方面始终优于基线单轨模态网络。

Scale-Consistent Fusion: from Heterogeneous Local Sampling to Global Immersive Rendering
Authors Wenpeng Xing, Jie Chen, Zaifeng Yang, Qiang Wang
基于稀疏的基于图像的几何建模和新型视图综合，大型基线采样是挑战，但新兴多媒体应用的重要任务，如虚拟现实和沉浸式远程呈现。由于在这种具有挑战性的参考条件下推断可靠的深度信息的限制，现有方法未能产生令人满意的结果。随着商业灯场LF摄像机的推广，捕获LF图像LFIS就像采取常规照片一样方便，并且可以可靠地推断几何信息。这激励我们使用稀疏的LF捕获，以呈现全球高质量的新颖观点。然而，由于由各种捕获设置引起的刻度不一致，LF捕获的融合是具有挑战性的。为了克服这一挑战，我们提出了一种新的规模一致的批量重新扫描算法，其强大地对准不同捕获的差异概率卷DPV，以便进行规模一致的全局几何融合。基于投影到目标摄像机截肢的融合DPV，已经提出了新的基于学习的模块，即注意引导的多尺度残留融合模块，以及差异场引导的深度正则化模块，其全面地规范了来自异质捕获的噪声观察高质量渲染新的LFI。在STANFORD LYTRO多视图LF数据集上的定量和定性实验表明，在不同的实验设置下，所提出的方法优于差异推理和LF合成的不同实验设置。

Adversarial Visual Robustness by Causal Intervention
Authors Kaihua Tang, Mingyuan Tao, Hanwang Zhang
对抗性培训是对抗对抗例子的事实上最有希望的防御。然而，它的被动性质不可避免地阻止它免受未知攻击者的免疫力。为了实现积极主动的防御，我们需要更重要的对抗性示例的理解，超出了流行的有限威胁模型。在本文中，我们提供了对抗性脆弱性的因果关系，原因是普遍存在的学习中的混淆，攻击者正准确利用混杂效果。因此，对抗性鲁棒性的基本解决方案是因果干预。由于混淆器一般不观察起来，我们建议使用乐器变量，实现干预的情况而无需混淆观察。我们通过仪器变量CIIV定期我们的强大培训方法作为因果干预。它具有可分散的视网膜运动采样层和一致性损失，这是稳定的，保证不受梯度混淆。对MNIST，CIFAR 10和MINI Imageenet数据集应用于广谱攻击者和设置的广泛实验证明，CIIV对自适应攻击具有鲁棒性。

Dynamic Knowledge Distillation with A Single Stream Structure for RGB-DSalient Object Detection
Authors Guangyu Ren, Tania Stathaki
RGB D突出物体检测SOD在复杂环境中检测到由于数据中引入的附加深度信息，证明了其优越性。不可避免地，引入了独立的流以从深度图像提取特征，导致额外的计算和参数。这种牺牲模型尺寸以提高检测精度的方法可能会妨碍SOD问题的实际应用。为了解决这种困境，我们提出了一种动态蒸馏方法以及轻量级框架，这显着降低了参数。该方法考虑了培训阶段内教师和学生表现的因素，并动态地分配蒸馏重量，而不是在学生模型上应用固定重量。在五个公共数据集中进行了广泛的实验，以证明我们的方法可以通过78.2MB轻质结构实现竞争性能。

Deep HDR Hallucination for Inverse Tone Mapping
Authors Demetris Marnerides, Thomas Bashford Rogers, Kurt Debattista
逆色调映射ITM方法尝试从低动态范围LDR图像内容重建高动态范围HDR信息。必须扩展井暴露区域的动态范围，并且必须恢复幻觉的暴露下引起的任何缺失的信息。大多数方法都侧重于前者并且相对成功，而后者的大多数尝试没有足够的质量，甚至基于卷积神经网络的CNN。在某些作品中减少的尿素质量的主要因素是损失功能的选择。基于生成的对抗网络的工作GANS显示有希望的图像合成和LDR染色的结果，这表明GaN损失可以改善逆音映射结果。这项工作介绍了一种基于GaN的方法，使得逐渐缺失来自LDR图像的严重暴露区域的信息，并比较其与替代变化的功效。该方法具有定量竞争最先进的逆色调映射方法，为良好的饱和区域和饱和区域和曝光区域的合理幻觉提供良好的动态范围扩展。还提出了一种针对HDR含量的基于密度的标准化方法，以及针对HDR幻觉的HDR数据增强方法。

Learning to Associate Every Segment for Video Panoptic Segmentation
Authors Sanghyun Woo, Dahun Kim, Joon Young Lee, In So Kweon
跨越帧的时间对应链接像素或对象是视频模型的基本监控信号。对于对动态场景的Panoptic理解，我们进一步将此概念扩展到每个段。具体而言，我们的目标是学习粗略段级别匹配和匹配的精细像素级别。我们通过设计两种新颖的学习目标来实现这个想法。为了验证我们的建议，我们采用深度暹罗模型并培训模型，以了解两个不同级别的时间对应。，段和像素以及目标任务。在推理时间，模型独立地处理每个帧，而无需任何额外的计算和后处理。我们表明我们的每个帧推断模型可以在CityCAPES VPS和VIPER数据集上实现最新的最新状态。此外，由于其高效率，与先前的现有技术相比，该模型在3倍的一部分中运行。

Semi-Autoregressive Transformer for Image Captioning
Authors Yuanen Zhou, Yong Zhang, Zhenzhen Hu, Meng Wang
本领域的当前状态，图像标题模型采用自回归解码器，即通过在先前生成的单词上调节来生成每个单词，这导致推理期间的重等期。为了解决这个问题，最近已经提出了非自动评论图像标题模型来通过并行生成所有单词来显着加速推理的速度。然而，这些非自动评级模型不可避免地遭受大的产生质量劣化，因为它们过度消除了单词依赖性。为了在速度和质量之间进行更好的折扣，我们向图像标题进行了一个半自动评级模型，称为SACID，这使得自动增加属性在全球中，但在本地并行生成单词。基于变压器，实现SACID需要几种修改。在MSCOCO图像标题基准上的广泛实验表明，SACID可以在没有钟声和口哨的情况下实现更好的贸易。 Color Magenta URL的代码可用

Unsupervised Training Data Generation of Handwritten Formulas using Generative Adversarial Networks with Self-Attention
Authors Matthias Springstein, Eric M ller Budack, Ralph Ewerth
在图像和视频帧中识别手写数学表达式是一个困难且未解决的问题。深度对流神经网络基本上是一个有希望的方法，但通常需要大量标记的训练数据。但是，手写公式识别的任务不存在这样一个大型训练数据集。在本文中，我们介绍了一个系统，该系统创建了一大组数学表达式的综合训练示例，这些训练示例来自乳胶文档。为此目的，我们提出了一种基于新的注意力对抗网络，将渲染方程转化为手写的公式。这种方法生成的数据集包含数十万个公式，其理想的是预先预订或更复杂模型的设计。我们在Crohme 2014基准数据集上评估了我们的合成数据集和识别方法。实验结果表明了这种方法的可行性。

NeuroMorph: Unsupervised Shape Interpolation and Correspondence in One Go
Authors Marvin Eisenberger, David Novotny, Gael Kerchenbaum, Patrick Labatut, Natalia Neverova, Daniel Cremers, Andrea Vedaldi
我们呈现Neuroomorph，一种新的神经网络架构，其作为输入的两个3D形状，并且在一次上产生，即在单个馈送前进通过，平滑插值并指向它们之间的点对应。表示为变形字段的插值改变了源形状的姿势以类似于目标，而是使对象标识保持不变。 Neuroomorph使用优雅的架构，将图形卷积与全局功能池组合，以提取本地功能。在培训期间，通过近似底层形状空间歧管上的大测地测来激活该模型以创造现实变形。这种强大的几何前一允许培训我们的模型结束并以完全无监督的方式终止，而无需任何手动对应注释。神经形式适用于各种输入形状，包括来自不同对象类别的非等距对。它获得了现有技术的状态，用于既有形状对应关系和插值任务，匹配或超越多个基准测试中最近无监督和监督方法的性能。

Episode Adaptive Embedding Networks for Few-shot Learning
Authors Fangbing Liu, Qing Wang
很少拍摄的学习旨在使用每个类的少数标记实例来学习分类器。几个射击学习方法的公制学习方法进入高维空间，并根据实例嵌入的距离进行分类。然而，这种实例嵌入通常在所有剧集中共享，因此缺乏根据集分类器概括分类器的辨别力。在本文中，我们提出了一种新的方法，即Emph剧集自适应嵌入网络EAEN，以学习事件的集体特定嵌入。通过利用在每个通道像素嵌入维度的集中集中的所有情况的概率分布中，EAEN不仅可以缓解在很少拍摄学习任务中遇到的过度装箱问题，而且还可以捕获特定于集的判别特征。为了经验验证EAEN的有效性和稳健性，我们在不同通用嵌入骨干网和不同分类器的各种组合下对三种广泛使用的基准数据集进行了广泛的实验。结果表明，在本领域的状态下，EAEN在不同的环境中显着提高了大约10到20的分类精度。

using multiple losses for accurate facial age estimation
Authors Yi Zhou, Heikki Huttunen, Tapio Elomaa
年龄估计是计算机愿景中的一个基本挑战。随着卷积神经网络的进步，年龄估计的性能已经大大改善。现有方法通常将年龄估计视为分类问题。然而，年龄标签是模棱两可的，因此使分类任务困难。在本文中，我们提出了一种简单但有效的年龄估计方法，与基于分类的方法相比，改善了性能。该方法结合了四种分类损失和一个回归损失，表示不同类粒度的一个回归损失，我们将其命名为年龄粒度网。我们在CVPR Chalearn 2016数据集上验证年龄粒度净框架，并且广泛的实验表明，与任何单独的损失相比，所提出的方法可以减少预测误差。源代码链接是

Deep Subdomain Adaptation Network for Image Classification
Authors Yongchun Zhu, Fuzhen Zhuang, Jindong Wang, Guolin Ke, Jingwu Chen, Jiang Bian, Hui Xiong, Qing He
对于标记数据不可用的目标任务，域适应可以从不同的源域传输学习者。之前的深度域适应方法主要学习全局域移位，即，对齐全局源和目标分布，而不考虑不同域中的两个子域之间的关系，导致不满意的传输学习性能而不捕获细粒度信息。最近，越来越多的研究人员注意子域适应，重点介绍了相关子域的分布。然而，大多数是含有几种损耗功能的侵扰方法，并缓慢收敛。基于此，我们呈现深域适应网络DSAN，其通过基于局部最大平均差异LMMD对齐不同域的相关子域特定层激活的相关子域分布来学习传输网络。我们的DSAN非常简单但有效，不需要对抗性培训和快速融合。通过使用LMMD损耗将它们扩展，可以通过大多数馈送前向网络模型来容易地实现自适应，这可以通过回到传播有效地培训。实验表明，DSAN可以在对象识别任务和数字分类任务上实现显着的结果。我们的代码将可用

Wavelet-Packet Powered Deepfake Image Detection
Authors Moritz Wolter, Felix Blanke, Charles Tapley Hoyt, Jochen Garcke
由于神经网络变得更加能够产生现实的人工形象，他们有可能改善电影，音乐，视频游戏，并使互联网成为更具创造性和鼓舞人心的地方。然而，与此同时，最新技术可能使新的数字方式能够撒谎。作为响应，出现对多种和可靠的工具箱的需求来识别人造图像和其他内容。以前的工作主要依赖于像素空间CNN或傅里叶变换。据我们所知，迄今为止，基于小波的GaN分析和检测方法已经不存在。本文旨在填补这种差距并描述基于小波的GaN产生的图像分析和检测方法。我们评估我们对FFHQ，Celeba和LSUN源识别问题的方法，并找到改善或竞争性能。

ShuffleBlock: Shuffle to Regularize Deep Convolutional Neural Networks
Authors Sudhakar Kumawat, Gagan Kanojia, Shanmuganathan Raman
深度神经网络具有巨大的代表性，导致它们在大多数数据集中过度装备。因此，规则化它们是重要的，以减少过度装备并增强其泛化能力。最近，已经引入了通道随机操作，用于在资源高效网络中的组卷积中混合通道，以减少内存和计算。本文研究了通道随机作为深度卷积网络中的正则化技术的操作。我们展示在培训期间随机洗机频道大大降低了它们的性能，但是，在通道之间随机洗牌小斑块显着提高了它们的性能。要播种的贴片从特征映射中的相同空间位置拾取，使得当从一个通道传送到另一个通道时的贴片，充当稍后信道的结构化噪声。我们调用此方法ShuffleBlock。建议的ShuffleBlock模块易于实现，并提高了几个基线网络对CIFAR和Imagenet数据集的图像分类任务的性能。它还实现了比较许多其他正则化方法的可比性和许多情况。我们提供了在选择Shuffleblock模块的各种超公数的几个消融研究，并提出了一种进一步提高其性能的新调度方法。

THUNDR: Transformer-based 3D HUmaN Reconstruction with Markers
Authors Mihai Zanfir, Andrei Zanfir, Eduard Gabriel Bazavan, William T. Freeman, Rahul Sukthankar, Cristian Sminchisescu
我们展示了一个基于变压器的深神经网络方法，重建了人们的三维姿势和形状，给予单眼RGB图像。我们的方法的关键是一种中间3D标记表示，在那里我们的目标是将模型自由输出架构的预测力和正规化，人力化的统计人表模型的规范化，如Ghum最近引入的，表达全身统计3D人模型，训练有素的结束。我们的新型变压器的预测管道可以专注于与任务相关的图像区域，支持自我监督的制度，并确保解决方案与人类人体测量结果一致。对于完全监督和自我监督的模型，我们向人类3.6M和3DPW展示了最先进的结果，用于推断3D人类形状，联合位置和全局翻译的任务。此外，我们观察在野外收集的困难人类姿势的非常坚固的3D重建性能。

Layer Folding: Neural Network Depth Reduction using Activation Linearization
Authors Amir Ben Dror, Niv Zehngut, Avraham Raviv, Evgeny Artyomov, Ran Vitek, Roy Jevnisek
尽管深度神经网络的普遍性越来越多，但它们在资源受限设备中的适用性由于其计算负荷而受到限制。虽然现代设备具有高水平的平行度，但实时延迟仍然高度依赖于网络深度。虽然最近的作品表明，低于一定的深度，较浅的网络的宽度必须呈指数增长，我们认为神经网络通常超过这种最小深度以加速收敛和逐步提高准确性。这使我们能够改变预训练的深网络，这些深度网络已经利用了较浅的形式。我们提出了一种方法，用于学习是否可以去除非线性激活，允许将连续的线性层折叠成一个。我们将我们的方法应用于在Cifar 10和Cifar 100上预先培训的网络，并发现它们都可以转换为共享类似深度的较浅形式。最后，我们使用我们的方法为MobileNetv2和WearingNet Lite架构提供更有效的替代品在ImageNet分类任务上。

How can we learn (more) from challenges? A statistical approach to driving future algorithm development
Authors Tobias Ro , Pierangela Bruno, Annika Reinke, Manuel Wiesenfarth, Lisa Koeppel, Peter M. Full, B nyamin Pekdemir, Patrick Godau, Darya Trofimova, Fabian Isensee, Sara Moccia, Francesco Calimeri, Beat P. M ller Stich, Annette Kopp Schneider, Lena Maier Hein
挑战已成为以比较方式实现基准图像分析算法的现有方法。虽然对相同数据集的验证是一个很大的前进，但结果分析通常仅限于纯粹的排名表，但留下相关问题。具体而言，很少的努力已经投入到系统调查的系统上，其特征在于本领域的算法失败的图像。为了解决文献中的这种差距，我们1提出了一种学习挑战的统计框架，而是为腹腔镜视频中的仪器实例分割的特定任务实例化。我们的框架依赖于图像的语义元数据注释，这是一般线性混合模型GLMM分析的基础。基于2,728张图片执行的51,542个元数据注释，我们将我们的方法应用于强大的医疗仪器分割挑战挑战挑战策略的结果，并揭示了仪器的曝光不足，运动和闭塞以及烟雾或其他物体的存在背景作为算法故障的主要来源。我们随后对特定剩余问题定制的方法开发产生了一种深入的学习模型，具有最先进的整体性能和特定优势在处理以前的方法往往失败的情况下的最佳状态。由于我们的方法的客观性和通用适用性，它可能成为医学图像分析领域验证的有价值的工具。和小，交叉，移动和透明仪器零件的分割。

Multi-level Motion Attention for Human Motion Prediction
Authors Wei Mao, Miaomiao Liu, Mathieu Salzmann, Hongdong Li
人类运动预测旨在预测未来人类姿势给出历史运动。无论是基于经常性还是馈送神经网络，现有的基于学习的方法都无法模拟人类运动往往重复自己的观察，即使是复杂的运动行为和烹饪活动。在这里，我们介绍了一种基于饲料前向网络的注意，明确地利用了这种观察。特别地，代替通过构成相似性建模框架明智的注意，我们建议提取运动注意力以捕获当前运动上下文和历史运动子序列之间的相似性。在这种情况下，我们研究了不同类型的注意力，在联合，身体部位和完全姿势水平上计算。通过图形卷积网络聚合相关的过去的运动和处理结果，使我们能够有效地从长期历史中利用运动模式来预测未来的姿势。我们对人类3.6M，Amass和3DPW的实验验证了我们对期刊和非定期行动的方法的好处。由于我们的注意力模型，它在所有三个数据集上产生了最先进的结果。我们的代码可供选择

A Random CNN Sees Objects: One Inductive Bias of CNN and Its Applications
Authors Yun Hao Cao, Jianxin Wu
本文首先揭示一个令人惊讶的发现，没有任何学习，随机初始化的CNN可以令人惊讶地定位对象。也就是说，CNN具有归纳偏差，以自然地关注物体，命名为Tobias，对象在本文中处于视线。进一步分析并成功地应用于自我监督学习的经验感应偏差。鼓励CNN学习专注于前景对象的表示，通过将每个图像转换为具有不同背景的各种版本，其中前景和后台分离被托比亚引导。实验结果表明，建议的托比亚斯显着提高了下游任务，特别是对于物体检测。本文还表明，托比亚斯对不同尺寸的训练集具有一致的改进，并且更具弹性变化的图像增强。我们的代码将可用

Optical Mouse: 3D Mouse Pose From Single-View Video
Authors Bo Hu, Bryan Seybold, Shan Yang, David Ross, Avneesh Sud, Graham Ruby, Yi Liu
我们提出了一种方法来推断小鼠的3D姿势，包括四肢和脚，从单眼视频。许多人类临床条件及其相应的动物模型导致运动异常，并准确地测量尺度的3D运动提供洞察力。 3D构成改善2D表示的健康相关属性的分类。即使脚大多被遮挡，推断的姿势足以足以估计进步长度。该方法可以作为连续监测系统的一部分应用于非侵入性测量动物健康。

Federated CycleGAN for Privacy-Preserving Image-to-Image Translation
Authors Joonyoung Song, Jong Chul Ye
未经监督的图像到图像翻译方法，例如Corpergan学会使用来自不同域的未配对训练数据集将图像从一个域转换为另一个域。不幸的是，这些方法仍然需要集中收集的未配对记录，可能违反隐私和安全问题。虽然最近的联邦学习FL允许在没有数据交换的情况下培训神经网络，但FL的基本假设是所有客户端都有来自类似域的自己的训练数据，这与我们的图像不同于每个图像的图像转换场景客户端具有来自其唯一域的图像，目标是在不访问目标域数据的情况下学习不同域之间的图像转换。为了解决这个问题，我们在这里提出了一种新的联邦Cyclean架构，可以在维护数据隐私的同时以无监督的方式学习图像翻译。具体而言，我们的方法出现了一种新的观察，即Cycleangan损失可以分解为可以仅使用其数据进行评估的客户特定本地目标的总和。这种本地客观分解允许多个客户参与联合的Cyclean培训，而不会牺牲性能。此外，我们的方法采用新颖的可切换发电机和使用自适应实例标准化Adain的鉴别符号，从而显着降低了联合学习的带宽要求。我们对各种无人监督的图像翻译任务的实验结果表明，与非联邦对应相比，我们的联邦传输方案提供了可比性。

Deep Contrastive Graph Representation via Adaptive Homotopy Learning
Authors Rui Zhang, Chengjun Lu, Ziheng Jiao, Xuelong Li
同型模型是通过机器学习领域的各种研究作品利用的优秀工具。然而，由于缺乏适应性，即手动固定或调整适当的同型同型系数，其灵活性受到限制。为了解决上述问题，我们提出了一种新的自适应同型框架AH，其中使用Maclaurin二元性，使得可以自适应地获得同象征参数。因此，所提出的AH可以广泛利用以增强基于同谐波的算法。特别是，在本文中，我们申请AH到对比学习AHCL，使得它可以有效地从弱势监督学习，给予无监督学习的标签，直接和自适应地学习对比学习的软标签。因此，AHCL具有在没有任何类型的先前信息的情况下提取深度特征的自适应能力。因此，由相关自适应标签配制的亲和基质可以构造为深拉普拉斯图，其中包含输入的深表示的拓扑。最终，对基准数据集的广泛实验验证了我们方法的优势。

An Evaluation of Self-Supervised Pre-Training for Skin-Lesion Analysis
Authors Levy Chaves, Alceu Bissoto, Eduardo Valle, Sandra Avila
自我监督的预训练作为监督预先培训的转移学习的有利替代品。通过在借口任务上综合注释，自我监督允许在正常调整目标任务之前，在大量伪标签上培训模型。在这项工作中，我们评估了对皮肤病变的诊断的自我监督，将三个自我监督的管道与一个具有挑战性的监督基线进行比较，在五个测试数据集中，包括进出分发样品。我们的研究结果表明，自我监督在提高准确性和降低结果的可变性方面都具有竞争力。自我监督证明对低训练数据场景1,500和150个样本特别有用，在其中其稳定结果的能力对于提供声音结果至关重要。

Long-Short Temporal Contrastive Learning of Video Transformers
Authors Jue Wang, Gedas Bertasius, Du Tran, Lorenzo Torresani
视频变压器最近被出现为用于视频理解的3D CNN的竞争替代品。然而，由于其大量参数和减少的电感偏差，这些模型需要在大规模图像数据集上监督预先估计，以实现最佳性能。在本文中，我们经验证明了视频变换器对视频的自我监督预测数据集可以导致动作识别结果，这些结果与在大规模图像数据集上的监督预先预测，甚至是诸如想象根21K的大规模的预先预测的动作识别结果。由于基于变压器的模型在捕获延伸时间跨度捕获依赖性时，我们提出了一种简单的学习过程，其强迫模型与相同视频的短期视图相匹配。我们的方法，命名为长时间的短时对比学习LSTCL，使视频变换器能够通过预测从更长的时间范围捕获的时间上下文来学习有效的剪辑级别表示。为了展示我们的研究结果的一般性，我们使用两个不同的视频变压器架构实施和验证我们在三种不同自我监督的对比学习框架Moco V3，Byol，Simsiam下的方法，包括Swin变压器的改进变体，增强了时空时间。我们进行了彻底的消融研究，并表明LSTCL在多个视频基准上实现了竞争性能，并且代表了一种令人信服的基于图像的预折叠。

Trilateral Attention Network for Real-time Medical Image Segmentation
Authors Ghada Zamzmi, Vandana Sachdev, Sameer Antani
将医学图像的准确分割成解剖学有意义的区域对于提取定量索引或生物标志物至关重要。分割的公共管道包括感兴趣的检测阶段区域和分割阶段，其彼此独立，并且通常使用单独的深度学习网络进行。分割阶段的性能高度依赖于提取的空间特征和接收领域。在这项工作中，我们提出了一个名为Trile边注意网络Tanet的端环网，用于医学图像的实时检测和分割。 Tanet具有区域本地化模块，以及三个分割途径1手工制作的通路，手工设计卷积核，2个细节途径，具有常规卷积核，3个全球途径扩大接收领域。前两种途径编码了通过手动设计和常规内核提取的丰富手工制作和低级功能，而全局路径编码高级上下文信息。通过共同培训使用不同特征集的本地化和分割网络，在评估心脏分割的超声心动图数据集时，TANET在准确性和速度方面取得了卓越的性能。代码和模型将在Tanet GitHub页面上公开使用。

A Two-stage Multi-modal Affect Analysis Framework for Children with Autism Spectrum Disorder
Authors Jicheng Li, Anjana Bhat, Roghayeh Barmaki
自闭症谱系障碍是一种发育障碍，影响一个人的沟通和社会行为，以一种频谱中的沟通和社会行为难以让其他人的面部表情感到困难，以及通过自己的面孔呈现和沟通情绪并影响情绪和影响身体。已经做出一些努力预测和改善在游戏疗法中影响国家的儿童，这是通过游戏和游戏提高儿童社交技能的常见方法。然而，许多以前的作品仅在基准情感数据集上使用预训练的模型，并且未能考虑通常在典型的发展儿童和自闭症儿童之间的情绪。在本文中，我们提出了一个开源两级多模态方法，利用声学和视觉提示预测三个主要影响儿童的患儿的影响态势，消极和中立在现实世界的播放方案中，并实现了整体准确性72 40。这项工作提出了一种新颖的方式来将人类专业知识和机器智能组合通过提出两个阶段的模式来实现ASD影响识别。

The Fishnet Open Images Database: A Dataset for Fish Detection and Fine-Grained Categorization in Fisheries
Authors Justin Kay, Matt Merrifield
基于相机的电子监控EM系统越来越多地部署在车载商业捕鱼船上，以收集渔业管理和监管的基本数据。这些系统产生了大量的视频数据，这些数据必须由人类专家在土地上进行审查。计算机愿景可以通过自动检测和分类鱼类来协助这一过程，但是该领域的现有公共数据缺乏妨碍了进展。为了解决这个问题，我们展示了Fishnet Open Images数据库，是用于鱼类检测和细粒度分类的EM图像的大型数据集。数据集包含86,029个图像，其中包含34个对象类，使其成为迄今为止的渔业EM Imagery的最大和最多的公共数据集。它包括物种，偏斜类分布，恶劣天气条件和混沌船员活动之间的EM数据视觉相似性的许多特征挑战。我们评估现有检测和分类算法的性能，并证明数据集可以作为渔业计算机视觉算法开发的具有挑战性的基准。数据集可用

Insights into Data through Model Behaviour: An Explainability-driven Strategy for Data Auditing for Responsible Computer Vision Applications
Authors Alexander Wong, Adam Dorfman, Paul McInnis, Hayden Gunraj
在这项研究中，我们采取了出发并探索了解释性驱动的策略来数据审核，其中通过在暴露于数据时的虚拟模型原型的行为的定量解释性的定量解释性地发现了可操作的洞察。我们通过审核两个受欢迎的医疗基准数据集来展示该策略，并发现隐藏的数据质量问题导致深入学习模型，以出于错误的原因进行预测。然后利用来自这种解释性驱动的数据审计策略获得的可操作的见解来解决发现的问题，以使得具有适当的预测行为的高性能的深度学习模型。希望是，这种解释性驱动的策略可以互动的数据驱动策略，以便于为计算机视觉应用程序的机器学习算法进行更负责任的开发。

Positional Contrastive Learning for VolumetricMedical Image Segmentation
Authors Dewen Zeng, Yawen Wu, Xinrong Hu, Xiaowei Xu, Haiyun Yuan, Meiping Huang, Jian Zhuang, Jingtong Hu, Yiyu Shi
深度学习的成功大量取决于大型标签培训集的可用性。但是，由于严格的隐私问题和昂贵的标记努力，很难在医学图像领域获得大型标记数据集。对比学习，一种无监督的学习技术，已经证明了来自未标记数据的学习图像级别表示。然后可以将学习的编码器传输或微调，以提高具有有限标签的下游任务的性能。对比学学习的关键步骤是产生对比数据对的生成，其对于自然图像分类相对简单，而是由于在数据集中存在相同的组织或器官而对医学图像分割非常具有挑战性。结果，当应用于医学图像分割时，最重要的是对比的学习框架不可避免地引入了许多假阴性对并导致降级的分割质量。为了解决这个问题，我们提出了一种新的位置对比学学习PCL框架，通过利用体积体图像中的位置信息来产生对比数据对。 CT和MRI数据集上的实验结果表明，与Semi监督设置和转移学习设置中的现有方法相比，所提出的PCL方法可以大大提高分割性能。

Deformation Driven Seq2Seq Longitudinal Tumor and Organs-at-Risk Prediction for Radiotherapy
Authors Donghoon Lee, Sadegh R Alam, Jue Jiang, Pengpeng Zhang, Saad Nadeem, Yu Chi Hu
目的放射疗法在治疗期间呈现风险OAR预测纵向肿瘤和器官的独特挑战和临床要求。挑战包括肿瘤炎症水肿和辐射诱导器官几何的变化，而临床要求在输入输出序列中的灵活性在输入输出序列时，以更新滚动基础上的预测，以及与预处理成像信息的所有预测的接地有关响应和毒性的关系自适应放射治疗评估。方法来处理上述挑战并遵守临床要求，我们提出了一种基于卷积的序列模型的新型3D序列，基于卷积的长短短期内存Convlstm，在各个时间点和参考预处理计划之间使用一系列变形传染媒介字段DVF。 CTS预测未来的解剖变形和严重肿瘤体积的变化以及临界桨。通过使用骰子系数和相互信息度量的训练数据的子集采用超参数优化来创建高质量的DVF培训数据。我们在两个放射疗法数据集上验证了一个公开的头部和颈部数据集28例手动轮廓前，中期和治疗后CTS的患者，以及内部非小细胞肺癌数据集63例手动轮廓规划CT和6每周CBCT。结果使用DVF表示和跳过连接克服了传统图像表示的Convlstm预测的模糊问题。第4,5和6周肺GTV预测的平均和标准偏差为0.83μm0.09,0.82μm0.08和0.81μm0.10，并用于后处理同侧和对侧腮腺，为0.81 pm 0.06和0.06 0.85 pm 0.02。

SPeCiaL: Self-Supervised Pretraining for Continual Learning
Authors Lucas Caccia, Joelle Pineau
本文提出了一种针对持续学习量身定制的令人难过的借鉴的一种方法。我们的方法设计了一个通过顺序学习过程来区分的元学习目标。具体地，我们将线性模型训练在表示中，以将相同图像的不同增强视图匹配在一起，每个视图顺序呈现。然后，线性模型对其刚刚看到其刚刚看到的图像的能力进行评估，以及来自之前的迭代的图像。这引起了最有利于快速知识保留，最小的遗忘。我们在持续的少数拍摄学习环境中评估特殊，并表明它可以匹配或优于其他受监督的预制方法。

Automatic Main Character Recognition for Photographic Studies
Authors Mert Seker, Anssi M nnist , Alexandros Iosifidis, Jenni Raitoharju
图像中的主要角色是最重要的人类，在第一次外观上捕捉观众的注意力，它们被尺寸，位置，颜色饱和度和焦点清晰度所强调的属性。识别图像中的主角在传统的摄影研究和媒体分析中起着重要作用，但任务是手动进行的，可以缓慢而艰苦。此外，选择主角有时是主观的。在本文中，我们分析了自动解决摄影研究所需的主角识别的可行性，并提出了一种用于识别主角的方法。该方法使用基于机器学习的人类姿势估计以及传统的计算机视觉方法进行此任务。我们将任务作为二进制分类问题方法，其中每个检测到的人类被分类为主角。为了评估任务的主观性和我们方法的性能，我们从多个来源收集了300个不同图像的数据集，并要求五个人，一个摄影研究员和四个人，以向主要角色进行注释。我们的分析显示了不同的注释器之间相对高的协议。所提出的方法在完整的图像集上实现了0.83的优先F1得分，并且在一个子集中评估为摄影研究员的最明确和重要的病例。

Unsupervised Video Prediction from a Single Frame by Estimating 3D Dynamic Scene Structure
Authors Paul Henderson, Christoph H. Lampert, Bernd Bickel
我们在这项工作中的目标是生成只为一个初始帧为输入的现实视频。对于此任务的现有无监督方法不考虑视频通常显示3D环境的事实，并且即使相机和对象移动，这也应该保持从帧到帧的相干。通过开发首先估计场景的潜在3D结构的模型来解决这一点，包括任何移动物体的分割。然后，它通过模拟对象和相机动态来预测未来的帧，并呈现结果视图。重要的是，它仅训练结束，只使用预测的无监督目标来预测未来帧，而无需任何3D信息或分段注释。对自然视频的两个具有挑战性的数据集的实验表明，我们的模型可以从单个帧中估计3D结构和运动分割，因此产生合理的和变化的预测。

SECANT: Self-Expert Cloning for Zero-Shot Generalization of Visual Policies
Authors Linxi Fan, Guanzhi Wang, De An Huang, Zhiding Yu, Li Fei Fei, Yuke Zhu, Anima Anandkumar
泛化是加强学习RL的长期挑战。特别是视觉RL，可以很容易地分散高尺寸观察空间中的无关因子。在这项工作中，我们考虑强大的策略学习，该策略学习将零拍摄的概括为具有大分布换档的看视觉环境。我们提出了一个新颖的自我专家克隆技术，它在两个阶段利用图像增强，从政策优化中解耦了鲁棒的代表学习。具体来说，首先由RL从划痕训练的专家政策，弱增频。然后学生网络学习通过强大的增强监督学习来模仿专家政策，使其代表更加强大地与专家相比的视觉变化。广泛的实验表明，SECANT在4个具有挑战性域中的零拍摄概括地提高了最新技术。我们对现有SOTA的平均奖励改进是深度控制26.5，机器人操纵337.8，基于视觉的自动驾驶47.7，以及室内物体导航15.8。代码发布和视频可用

Improving On-Screen Sound Separation for Open Domain Videos with Audio-Visual Self-attention
Authors Efthymios Tzinis, Scott Wisdom, Tal Remez, John R. Hershey
我们在屏幕声音分离系统上介绍了艺术音频视觉的状态，该系统能够学习分离声音并通过在野外视频中查看它们在屏幕对象上。我们识别在屏幕声音分离上对视听上的先前工作的限制，包括简单和粗略分辨时的时空关注，音频分离模型的收敛性差。我们所提出的模型使用跨模型和自我注意模块来解决这些问题，这些问题在时间上以更精细的分辨率捕获音频视觉依赖性，并通过无监督的音频分离模型进行预测。这些改进允许模型概括为更广泛的看不见视频。对于评估和半监督培训，我们从野外视频中的大型数据库中收集了屏幕音频的人类注释。我们的结果显示在屏幕分离性能方面显着改进，比以前的方法更通用。

Automatic Segmentation of the Prostate on 3D Trans-rectal Ultrasound Images using Statistical Shape Models and Convolutional Neural Networks
Authors Golnoosh Samei, Davood Karimi, Claudia Kesch, Septimiu Salcudean
在这项工作中，我们建议在使用卷积神经网络CNN和统计形状模型SSMS上分段对反速超声波TRUS图像的具有挑战性的数据集。 TRU通常用于前列腺上的许多图像引导干预。这些图像中的器官的快速和准确的分割对于规划和融合，与磁共振图像MRIS等其他模态规划和融合至关重要。然而，TRUS具有有限的软组织对比度和信噪比，这使得将前列腺挑战分割并受到观察者间的任务，并对观察者和观察者的噪声变异。这在底座和顶点上特别有问题，其中腺体边界很难定义。在本文中，我们的目标是通过利用在先生数据集上学到的形状前沿来解决这个问题，该数据集具有更高的软组织对比，允许前列腺更准确地轮廓。我们先前使用这种形状与由CNN计算的前列腺组织概率图组合使用以进行分割。

On Anytime Learning at Macroscale
Authors Lucas Caccia, Jing Xu, Myle Ott, Marc Aurelio Ranzato, Ludovic Denoyer
古典机器学习框架假设访问可能的大型数据集以训练预测模型。然而，在许多实际应用中，数据并未立即到达，但随着时间的推移，批次。这在模型和时间的准确性之间创造了自然折衷，以获得这种模型。贪婪的预测因子可以通过在可用的情况下立即立即培训批量来产生非琐碎的预测，但是，它也可能会使子最佳使用未来数据。另一方面，迟到的预测器可以等待很长时间汇集到更大的数据集中，但最终提供更好的性能。在这项工作中，我们考虑了这样一个流式学习设置，我们在宏观Alma随时学习。它是随时学习的一个实例，不应用于单个数据块的级别，但在整个大批的整个序列的级别。我们首先将该学习设置正式化，然后介绍指标，以评估学习者在给定的内存和计算预算的给定任务上的表现如何，最后我们在宏观上为随时学习的标准基准测试了几种基线方法。一般发现是更大的模型始终概括。特别是，如果初始模型相对较小，则会随着时间的推移而增长模型能力是重要的。此外，在中间速率上更新模型攻击精度和时间之间的最佳折衷以获得有用的预测器。

Transductive Few-Shot Learning: Clustering is All You Need?
Authors Imtiaz Masud Ziko, Malik Boudiaf, Jose Dolz, Eric Granger, Ismail Ben Ayed
我们调查一般配方进行聚类和转换的几次射击学习，它集成了基于原型的目标，Laplacian正则化和监督限制来自一些标记的数据点。我们提出了一个问题的凹入凸弛豫，并导出了计算上有效的块坐标绑定优化器，具有收敛保证。在每次迭代时，我们的优化器将每个点对群集分配计算独立的并行更新。因此，它可以普遍分布于大规模聚类和少量拍摄任务。此外，我们提供了基于点设置地图的彻底收敛分析。港口综合聚类和少量学习实验在各种数据集中，表明我们的方法能够在准确性和优化质量方面产生竞争性表现，同时缩放大问题。在基本类上使用标准培训，在不诉诸复杂的元学习和剧集训练策略，我们的方法在各种型号，设置和数据集中通过显着的边距来实现艺术的状态。令人惊讶的是，我们发现即使是标准聚类程序，例如，k表示，其对应于我们一般模型的特定，非正规化案件，与少量拍摄学习相比，已经实现了与最新技术相比的竞争性表现。这些令人惊讶的结果指出了目前少量射门基准的局限性，并质疑最近文学中大量卷积的少量射击学习技术的可行性。

Class Balancing GAN with a Classifier in the Loop
Authors Harsh Rangwani, Konda Reddy Mopuri, R. Venkatesh Babu
生成的对抗网络GAN迅速发展以模仿越来越复杂的图像分布。然而，大多数发展都集中在平衡数据集上的GAN的表现。我们发现，在平衡数据集上运行良好的现有GAN及其培训制度在IMABALACACE的情况下无法有效。在这项工作中，我们介绍了一种用于培训GAN的理论上有动机的平衡常规器。我们的符号器利用预训练分类器的知识，以确保数据集中所有类的平衡学习。这是通过基于神经网络中观察到的指数遗忘，并鼓励甘甘露群体专注于不足的课程来实现这一点。我们通过实现比多个数据集上的现有方法更好的性能来展示我们的规范器在学习长尾分布的效果中的实用性。具体而言，当应用于无条件GaN时，它将FID从13.03到9.01提高到长尾的Inaturation 2019数据集。

On the Dark Side of Calibration for Modern Neural Networks
Authors Aditya Singh, Alessandro Bay, Biswa Sengupta, Andrea Mirabile
现代神经网络是高度未凝结的。它为安全关键系统带来了重大挑战，以可靠地利用深神经网络DNN。许多最近提出的方法在改善DNN校准方面表现出实质性进展。然而，他们几乎没有接触改进，这历史上一直是校准的重要方面。细化表示网络S正确和不正确的预测的可分离性。本文提出了一种理论上和经验支持的博览会，用于审查模型的校准和细化。首先，我们展示了预期的校准错误ECE的细分，进入了预测的信心和改进。连接此结果，突出显示基于正规化的校准仅侧重于天鹅地减少模型的信心。这逻辑上的模型精致具有严重的缺点。我们通过对标准数据集的许多技术校准方法的严格实证评估来支持我们的索赔。我们发现，许多校准方法具有标签平滑，混合等。通过降低其改进来降低DNN的效用。即使在自然数据转移下，这种校准细化甚至为大多数校准方法都有折扣。这些调查结果要求紧急回顾到用于现代DNN校准的一些流行的途径。

Controllable Confidence-Based Image Denoising
Authors Haley Owsianko, Florian Cassayre, Qiyuan Liang
图像去噪是一种经典的恢复问题。然而，当前的深度学习方法受到泛化和解释性的问题。为了缓解这些问题，在这个项目中，我们展示了一个能够控制的框架，可控的抗置信噪声去除。该框架基于两个不同的去噪图像之间的融合，均导出来自同一噪声输入。两者中的一个是使用通用算法进行去噪，例如因此，Gaussian，因此在输入图像上缩短了少数假设。另一个是使用深度学习的去噪，在看哪个数据集上表现良好。我们介绍了一系列技术来融合在频域中的两个组件。除此之外，我们估计了深入学习欺诈者的信心允许用户解释输出，并提供保护它们免于出于分发输入的融合策略。通过实验，我们证明了拟议框架在不同用例中的有效性。

A Multi-task convolutional neural network for blind stereoscopic image quality assessment using naturalness analysis
Authors Salima Bourbia 1 , Ayoub Karine 2 , Aladine Chetouani 3 , Mohammed El Hassouni 1 and 4 1 LRIT, Mohammed V University in Rabat, Rabat, Morocco, 2 L bISEN, ISEN Yncrea Ouest, 33 Quater Chemin du Champ de Manoeuvre, 44470 Carquefou, France, 3 Laboratoire PRISME, Universite d Orl ans, France, 4 FLSH, Mohammed V University in Rabat, Rabat, Morocco
本文通过基于新的多任务深度学习方法解决了盲立体图像质量评估NR SIQA的问题。在立体视野领域中，信息相当分布在左视图和右视图之间以及双目现象之间。在这项工作中，我们建议集成这些特征来估计立体图像的质量而不通过卷积神经网络参考。我们的方法基于两个主要任务，第一任务预测基于自然分析的基于特征适用于立体图像，而第二任务预测了这种图像的质量。前者所谓的辅助任务，旨在找到更强大和相关的功能来提高质量预测。为此，我们使用复杂小波域中的自然场景统计NSS模型计算基于自然的特征。它允许捕获立体图像对之间的统计依赖性。实验是在众所周知的实时阶段I和实时期II数据库上进行的。获得的结果显示了与本领域技术相比的方法的相关性。我们的代码在网址上在线获取

Invisible for both Camera and LiDAR: Security of Multi-Sensor Fusion based Perception in Autonomous Driving Under Physical-World Attacks
Authors Yulong Cao , Ningfei Wang , Chaowei Xiao , Dawei Yang , Jin Fang, Ruigang Yang, Qi Alfred Chen, Mingyan Liu, Bo Li co first authors
在自动驾驶广告系统中，感知是安全性和安全性。尽管对其安全问题进行了各种先前的研究，但所有这些都只考虑仅考虑对摄像机或仅限LIDAR的广告感知。然而，今天的生产广告系统主要采用了基于多传感器融合MSF的设计，原则上可能对这些攻击更加强大，假设并非所有融合源都是或可以同时攻击。在本文中，我们介绍了在广告系统中基于MSF的感知安全问题的第一次研究。我们通过探索同时攻击所有融合来源的可能性，直接挑战上面的基本MSF设计假设。这允许我们第一次了解安全保障MSF可以从根本上提供广告宣传的一般防御策略。

Evaluating the Robustness of Bayesian Neural Networks Against Different Types of Attacks
Authors Yutian Pang, Sheng Cheng, Jueming Hu, Yongming Liu
为了评估贝叶斯神经网络对图像分类任务的鲁棒性增益，我们对艺术贝叶斯神经网络的状态进行输入扰动和对抗攻击，并将CNN模型作为参考。选择攻击以模拟基于CNN的机器学习系统的信号干扰和网络攻击。结果表明，贝叶斯神经网络对针对确定性神经网络模型产生的对抗性攻击的鲁棒性显着更高，而没有对抗性训练。贝叶斯后司令可以充当持续恶意活动的安全前兆。此外，我们示出了在确定性CNN提取器之后的随机分级器具有足够的鲁棒性增强而不是随机分类器之前的随机特征提取器。这建议利用随机层在安全关键域内建立决策中的制造管道。

Localized Uncertainty Attacks
Authors Ousmane Amadou Dia, Theofanis Karaletsos, Caner Hazirbas, Cristian Canton Ferrer, Ilknur Kaynar Kabul, Erik Meijer
深度学习模型对逆势扰动的敏感性激起了对逆势的例子中的重新注意力导致了许多攻击。然而，这些攻击中的大部分都没有涵盖人类难以察觉的大量的对抗扰动。在本文中，我们呈现了本地化的不确定性攻击，这是针对确定性和随机分类器的新型威胁模型。在这种威胁模型下，我们通过仅在分类器不确定的输入中仅扰乱区域来创建对抗性示例。为了找到这样的地区，我们利用分类器是随机或者，学习替代模型以在确定性确定的情况下摊销不确定性。与ILL P球或功能攻击不同，这扰乱了输入的输入，我们的目标变化可能不易懂。当在我们的威胁模型中考虑时，这些攻击仍然产生强烈的对抗性示例，其中示例将更大程度的相似性与输入保持更大。

Learning Perceptual Manifold of Fonts
Authors Haoran Xie, Yuki Fujita, Kazunori Miyata
沿着生成模型的深度学习技术的快速发展，将机器智能与人类智能结合起来解决实际应用正在成为一种迫切问题。通过这种方法的动机，这项工作旨在调整机器生成的角色字体随着人工人员在感知研究中的努力。虽然众多字体在线提供公共用途，但生成和探索一个字体难以和挑战，以满足普通用户的偏好。为了解决具体问题，我们提出了字体的感知歧管，以可视化字体发电机模型的潜在空间中的感知调整。在我们的框架中，我们采用了字体生成的变形AutoEncoder网络。然后，我们对生成模型的多维潜空间的产生字体进行感知研究。在我们获得特定偏好的分布数据之后，我们利用了歧管学习方法来可视化字体分布。与我们的用户学习中的传统用户界面相比，所提出的字体探索用户界面在指定的用户偏好方面是有效和有用的。

LiRA: Learning Visual Speech Representations from Audio through Self-supervision
Authors Pingchuan Ma, Rodrigo Mira, Stavros Petridis, Bj rn W. Schuller, Maja Pantic
今天在线共享的大量视听内容已经提出了大量关注视听自我监督学习的前景。最近的作品分别专注于每个模式，而其他作品则尝试以跨模型方式同时模拟。然而，对利用一种态度作为培训目的来说，相对较少地关注，以便从另一方面学习。在这项工作中，我们通过自我监督Lira提出从音频的视觉语音表示。具体而言，我们训练Reset Conformer模型以预测来自未标记的视觉语音的声学特征。我们发现，通过特征提取和微调实验，可以利用该预训练模型朝向字水平和句子级唇读数。我们表明，我们的方法在野外LRW数据集中的唇部读数上显着优于唇部读取的其他自我监督方法，并在唇读句2 LRS2上实现了最新的现有性能，仅使用总标记的数据的一小部分。

Probing Image-Language Transformers for Verb Understanding
Authors Lisa Anne Hendricks, Aida Nematzadeh
多模式图像语言变压器在依赖于微调的各种任务方面取得了令人印象深刻的结果，例如，视觉问题应答和图像检索。如果这些模型可以区分不同类型的动词，或者如果他们完全依赖于给定句子中的名词，我们有兴趣脱落借鉴其预用的表现的质量。为此，我们用英语收集图像句子对的数据集，其中由421个动词组成，这些动词是在预先预测数据中的视觉或常见的.e.，概念标题数据集。我们使用此数据集来评估佩带的拍摄图像语言变换器，并在与语音其他部分相比，在需要动词理解的情况下，它们更加失败。我们还调查了什么类别的动词特别具有挑战性。

Scaling-up Diverse Orthogonal Convolutional Networks with a Paraunitary Framework
Authors Jiahao Su, Wonmin Byeon, Furong Huang
在神经网络中强制正交性是梯度消失的解毒剂，用于爆炸问题，对逆势扰动的敏感性和界定概括误差。然而，许多以前的方法是启发式，并且卷积层的正交性没有系统地研究了一些这些设计并不恰好正交，而其他设计只考虑标准卷积层并提出其实现的具体类别。为了解决这个问题，我们向正交卷积层提出了一个理论框架，其建立了在空间域中的各种正交卷积层和光谱域中的垂置系统之间的等效。由于存在垂直系统的完整光谱分分解，因此任何正交的卷积层都可以参数化为空间滤波器的卷曲。我们的框架在维持其确切的正交性的同时为各种卷积层赋予高富有卷积的电力。此外，与以前的设计相比，我们的层是存储器和对深网络的计算上高效。我们的多功能框架首次实现了深度正交网络的建筑设计，例如跳过连接，初始化，步幅和扩张的选择。因此，我们向深度架构扩展了正交网络，包括Reset，Wimeresnet和Shuffleenet，基本上增加了传统浅正交网络的性能。

Regularization of Mixture Models for Robust Principal Graph Learning
Authors Tony Bonnaire, Aur lien Decelle, Nabila Aghanim
建议将混合模型的正则化版本从D维数据点的分布中学习主图。在针对脊检测的歧管学习的特定情况下，我们假设底层歧管可以被建模为像图形结构的图形结构，就像高斯簇一样将问题转变为最大后的后验估计。通过期望最大化程序迭代地估计模型的参数，使得在多项式时间之前的任何图表的任何图表的有效收敛的结构有效地学习结构的学习。我们还将形式主义嵌入一种自然的方式，使算法使算法与歧管采样的图案和异级塑性的异常相干，与图形结构相干。该方法使用由最小生成树给出的图表，我们使用数据集的随机子采样扩展，以考虑在空间分布中可以观察到的循环。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com