【AI视野·今日CV 计算机视觉论文速览第192期】Thu, 6 May 2021_transhash: transformer-based hamming hashing for e-CSDN博客

本文链接：https://blog.csdn.net/u014636245/article/details/116462718

本文介绍了一种基于自我监督学习的多帧单眼场景流网络，通过先进的解码器设计、多帧输入和卷积LSTM，以及遮挡感知损失和梯度分离策略，显著提高了3D场景流动的准确性，同时保持实时性能。研究在基蒂数据集上验证了方法的有效性。

摘要由CSDN通过智能技术生成

AI视野·今日CS.CV 计算机视觉论文速览
Thu, 6 May 2021
Totally 61 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Computer Vision Papers

Self-Supervised Multi-Frame Monocular Scene Flow
Authors Junhwa Hur, Stefan Roth
由于简单，经济的捕获设置，估计从一系列单眼图像序列的3D场景流动一直在增加。由于问题严重的问题，目前方法的准确性受到限制，特别是高效，实时方法的准确性。在本文中，我们引入了一种基于自我监督学习的多帧单曲场景流网络，提高了先前网络的准确性，同时保持了实时效率。基于先进的两个帧基线具有分流解码器设计，我们使用三帧输入和卷积LSTM连接提出多帧模型，II一种遮挡感知人口普查损失，以提高精度，以及提高训练稳定性的梯度分离策略。在基蒂数据集上，我们观察基于自我监督学习的单眼场合流动方法的艺术准确性的状态。

Physically Inspired Dense Fusion Networks for Relighting
Authors Amirsaeed Yazdani, Tiantong Guo, Vishal Monga
图像着色已成为由增强现实应用启发的重要研究兴趣的问题。已经开发了基于物理学的传统方法，以及黑匣子深度学习模型。现有的深网络已经利用培训来实现最新的技术状态，然而，当训练有限或不代表问题现象学时，它们可能表现不佳，例如添加或去除致密阴影。我们提出了一种丰富神经网络的模型，具有物理洞察力。更确切地说，我们的方法通过两种不同的策略生成具有新的照明设置的重新图像，随后使用权重图W熔化它们。在第一策略中，我们的模型预测了Relit图像的场景着色的材料反射参数Albedo和照明几何参数，我们将此策略称为内在图像分解IID。第二策略仅基于黑盒方法，其中模型基于地面真理图像和训练阶段中的丢失术语优化其权重，并直接生成refit输出，我们将此策略引用为直接。虽然我们提出的方法适用于一个到一个和任何回忆问题，但对于每种情况，我们介绍了一个解决问题的特定组件，以便为一个至一种回忆来丰富模型性能，我们将曲面的正常矢量融入场景中的正常向量以调整光泽和阴影在图像中。 2对于任何回应，我们向架构提出额外的多尺度块以增强特征提取。在NTIRE 2021中使用的Vidit 2020和Vidit 2021数据集的实验结果表明，在众所周知的保真度指标和感知损失方面，我们的提案可以倾向于许多最新的技术方法。

PD-GAN: Probabilistic Diverse GAN for Image Inpainting
Authors Hongyu Liu, Ziyu Wan, Wei Huang, Yibing Song, Xintong Han, Jing Liao
我们提出PD GaN，一种用于图像修复的概率多样化GaN。鉴于具有任意孔区域的输入图像，PD GaN产生多种且具有视觉上的熟化内容的多种修复结果。我们的PD GaN建在Vanilla GaN上，该GaN基于随机噪声产生图像。在图像生成期间，我们通过在多个尺度中注入最初恢复的图像和孔区域来调制从粗糙到精细的输入随机噪声的深度特征。我们认为在孔填充期间，孔边界附近的像素应该更确定，具有更高的概率，可靠地信任上下文和最初恢复的图像以产生自然的染色边界，而那些像素位于孔的中心，应该享受更多程度自由即，更有可能取决于随机噪声来增强分集。为此，我们提出了在调制内的空间概率分集标准化SPDnorm，以建模生成在上下文信息上的像素的概率。 Spdnorm动态地平衡孔区域内的现实主义和多样性，使得产生的内容朝向孔中心更多样化，并且更像朝向孔边界更加相邻的图像内容。同时，我们提出了一种感知多样性损失，以进一步赋予PD GaN的不同内容。基准数据集的实验包括Celeba HQ，Parket2和Paris Street View，表明PD GaN对于多样化和视觉逼真的图像恢复是有效的。

Impact of individual rater style on deep learning uncertainty in medical imaging segmentation
Authors Olivier Vincent, Charley Gros, Julien Cohen Adad
虽然多项研究已经探索了医疗细分任务中的帧间评价变异性和深度学习模型之间的关系，但关于个体律师风格的影响很少。本研究量化了偏见和一致性形式的律师风格，探讨了培训深层学习模式时的影响。使用两个多评价公共数据集，由脑多发性硬化病变和脊髓灰质分割组成。在两个数据集上，结果显示Rater偏置与深度学习不确定性之间的相关R 2 0.60和0.93。还探讨了标签融合的影响对这种关系的注释，我们表明，多中心共识比单一中心的共识更有效，以减少不确定性，因为速度风格大多是特定的级别。

Moving SLAM: Fully Unsupervised Deep Learning in Non-Rigid Scenes
Authors Dan Xu, Andrea Vedaldi, Joao F. Henriques
我们提出了一种方法来培训深网络，将视频分解为3D几何相机和深度，移动物体以及它们的动作，没有监督。我们构建了视图综合的思想，它使用经典相机几何来重新渲染来自不同的相对姿势和深度图指定的不同观点的源图像。通过最小化综合图像和视频中的相应真实图像之间的误差，可以完全无监视预测姿势和深度的深网络。然而，视图合成方程依赖于对象不会移动的强烈假设。这种刚性的世界假设限制了预测的力量，并将规定自动了解对象。我们提出了一个简单的解决方案，最大限度地减少图像的小区域的错误。虽然整个场景可能是非刚性的，但是总是可以找到近似刚性的小区域，例如在移动物体内部。然后，我们的网络可以在滑动窗口中预测每个区域的不同姿势。这代表了一个显着的更丰富的模型，包括6D对象动作，几乎没有额外的复杂性。我们建立了新的最先进结果，导致无人驾驶的内径和对基蒂的深度预测。我们还展示了史诗厨房的新能力，这是一个具有挑战性的室内视频数据集，其中没有深度，内径，对象分割或运动的实际信息。然而，我们的方法都会自动恢复。

Addressing Annotation Imprecision for Tree Crown Delineation Using the RandCrowns Index
Authors Dylan Stewart, Alina Zare, Sergio Marconi, Ben Weinstein, Ethan White, Sarah Graves, Stephanie Bohlman, Aditya Singh
遥感中的对象描绘的监督方法需要标记的地面真理数据。收集足够的高质量地面真理数据是困难的，特别是当目标是不规则形状或难以区分背景或邻近物体时。树冠划分为林业，生态和管理的遥感图像提供关键信息。然而，遥感图像中的树冠通常难以标记和注释由于不规则形状，重叠的檐篷，阴影和模糊边缘。在该字段中还有多种辅助方法，例如，矩形框与凸多边形，进一步有助于注释不精确。然而，当前的评估方法不考虑在注释中的这种不确定性，并且评估的定量度量可以在多个注释器中各不相同。我们使用对我们称之为randcrowns的弱标记的皇冠描绘的rand索引来解决这些限制。 Randcrowns指标通过调整计算指数中的每个术语来计算rand指数以考虑不确定和不精确的对象描绘标签。对Union Jaccard相似性方法的常用交叉点的定量比较显示了多个注释器之间产生的差异的差异减少。与定性示例相结合，我们的结果表明，这种Radcrowns度量对于在存在于树冠描绘中固有的不确定性和不确定的存在下得分的目标划分是更加强大的。虽然本文的重点是在评估树冠划分时，注释不精确是一种挑战，这些挑战是对环境的遥感和许多计算机视觉问题的常见。

PolarMask++: Enhanced Polar Representation for Single-Shot Instance Segmentation and Beyond
Authors Enze Xie, Wenhai Wang, Mingyu Ding, Ruimao Zhang, Ping Luo
降低实例分割管道的复杂性对于现实世界应用来说至关重要。这项工作通过引入一个免费的锚盒和单拍实例分段框架，被称为polarmask的Polarmask来解决这个问题，它将实例分段问题重新装述了预测极性坐标中对象的轮廓，具有多种吸引力的好处。 1极性表示将实例分段掩码和对象检测边界框统一到单个框架中，降低了设计和计算复杂度。 2两种模块精心设计，即软的极性中心和极性IOU丢失来样的高质量中心示例，优化极性轮廓回归，使Polarmask的性能不依赖于边界盒预测结果，从而在训练中变得更加有效。 3个Polarmask是完全卷积的，可以轻松嵌入到货架检测方法中的大多数情况下。为了进一步提高框架的准确性，引入了一种精致的特征金字塔，以进一步改善不同尺度的特征表示，称为Polarmask。广泛的实验证明了波兰掩杀和波隆掩码的有效性，这在具有单一模型和单一规模训练和测试的具有趣的Coco DataSet中实现了竞争结果，以及单一规模培训和测试，以及旋转文本检测和单元分割的新状态。我们希望建议的极地表示可以为设计算法提供新的视角来解决单拍实例分段。代码和模型可用

Learning Feature Aggregation for Deep 3D Morphable Models
Authors Zhixiang Chen, Tae Kyun Kim
3D可线模型广泛用于计算机视觉和图形应用中对象类的形状表示。在这项工作中，我们专注于深度3D可变模型，直接在3D网状数据上对深度学习进行层次结构，以捕获多个尺度的信息。虽然已经进行了巨大的努力来设计卷积运营商，但如何在分层级别的最佳聚合顶点特征值得进一步关注。相反，借助网格抽取，我们提出了一种基于关注的模块来学习跨层级的更好特征聚合的映射矩阵。具体地，映射矩阵由键和查询的兼容性函数生成。键和查询是通过优化目标目标的可培训变量，并由相同对象类的所有数据样本共享。我们所提出的模块可用作列车仅在替代现有架构中的特征聚合的列表，用于下采样和上采样。我们的实验表明，通过结束到映射矩阵的终端训练，我们实现了最新的状态，结果与现有的可线模型相比，各种3D形状数据集。

Visual Composite Set Detection Using Part-and-Sum Transformers
Authors Qi Dong, Zhuowen Tu, Haofu Liao, Yuting Zhang, Vijay Mahadevan, Stefano Soatto
诸如视觉关系检测和人体对象交互的计算机视觉应用可以作为复合结构设置检测问题，其中部分主体，对象和谓词和整个总和三态以以分层方式检测。在本文中，我们提出了一种新的方法，表示部分和总和检测变压器PST，以执行端到端复合集检测。与现有变形金刚不同，其中查询处于单个级别，我们同时模拟关节部分和与复合查询和注意模块的相互作用。我们明确地纳入了总和查询，以实现标准变压器中不存在的零件和和关系的更好建模。我们的方法还使用基于张于的基于卷的部分查询和矢量的总和查询，以及模拟其联合交互。我们报告了两个视觉任务，视觉关系检测和人体对象交互的实验，并证明PST在单级模型中实现了最新的状态，而几乎匹配定制设计的两个阶段模型的结果。

VoxelContext-Net: An Octree based Framework for Point Cloud Compression
Authors Zizheng Que, Guo Lu, Dong Xu
在本文中，我们提出了一种称为VoxelContext网的两个阶段深度学习框架，用于静态和动态点云压缩。采用基于Octree的方法和基于体素的方案的优势，我们的方法采用了Voxel上下文来压缩了Octree结构数据。具体地，我们首先提取本地体素表示，其为构造的Octree中的每个节点编码对每个节点的空间相邻上下文信息进行编码。然后，在熵编码阶段，我们提出了一种基于Voxel上下文的深熵模型，以以无损方式压缩非叶节点的符号。此外，对于动态点云压缩，我们还介绍了来自时间相邻点云的本地体素表示来利用时间依赖性。更重要的是，为了缓解来自八辛施工过程的失真，我们提出了一种基于体积的基于3D坐标细化方法，在解码器侧产生更精确的重建点云，这适用于静态和动态点云压缩。静态和动态点云基准数据集的综合实验例如，Scannet和语义基蒂清楚地展示了我们新提出的方法VoxelContext网3D点云几何压缩的有效性。

Pairwise Point Cloud Registration using Graph Matching and Rotation-invariant Features
Authors Rong Huang, Wei Yao, Yusheng Xu, Zhen Ye, Uwe Stilla
注册是点云处理中的基本但关键任务，通常取决于从两个点云的查找元素对应。然而，找到可靠的对应关系依赖于建立对应元素的稳健和辨别性描述和对应元件的正确匹配。在这封信中，我们开发了一个粗略的注册策略，它利用旋转不变的功能和新的加权图匹配方法，用于迭代地发现对应关系。在图形匹配方法中，配制欧几里德和特征空间中的节点和边的相似性以构造优化功能。使用两个基准数据集来评估所提出的策略，并与若干现有技术的方法进行比较。关于实验结果，我们所提出的方法可以实现具有小于0.2度的旋转误差和低于0.1M的旋转误差的精细配准。

Conditional Invertible Neural Networks for Diverse Image-to-Image Translation
Authors Lynton Ardizzone, Jakob Kruse, Carsten L th, Niels Bracher, Carsten Rother, Ullrich K the
我们介绍了一个名为条件可逆神经网络Cinn的新架构，并使用它来解决不同图像的任务，以为自然图像的图像转换。由于某些基本限制，现有的Inn模型不易实现这一点。 CINN将纯生成的Inn模型与不受约束的馈线向前网络相结合，这有效地预处理调节图像成分为最大的信息特征。 CINN的所有参数都是通过稳定，最大似然的培训程序共同优化的。尽管基于Inn的模型在文学中受到的关注远不如Gans，但它们已被证明在GAN中缺席了一些显着的性质，例如，缺席。模式崩溃的表观免疫力。我们发现我们的CINNS为图像翻译的图像施作了这些属性，每天都在夜间翻译和图像着色。此外，我们利用我们的双向Cinn架构来探索和操纵潜在空间的紧急属性，例如以直观的方式更改图像样式。

Prototype Memory for Large-scale Face Representation Learning
Authors Evgeny Smirnov, Nikita Garaev, Vasiliy Galyuk
面部表示使用具有大量标识数的数据集需要适当的培训方法。 Softmax基于现有的方法，在脸上的识别中的状态，在其平时的全部软Max形式中不适合与数百万人的数据集。提出了几种基于采样的Softmax方法的方法，以消除此限制。然而，这些方法具有一系列缺点。其中一个是原型过时的分类器权重的问题很少采样类的原型，接收太少的渐变梯度，并从电流编码器状态脱离并脱离，导致训练信号不正确。在超大型数据集中尤为严重这个问题。在本文中，我们提出了一种名为原型内存的新型面部表示学习模型，可以减轻这个问题并允许在任何大小的数据集上训练。原型内存包括有限尺寸的内存模块，用于存储最近的类原型，并采用一组以适当的方式更新它的算法。使用当前迷你批量中的示例嵌入式生成新的类原型。这些原型被排队到存储器上并用于基于Softmax分类的培训的分类器权重的作用。为防止过时并保持与编码器密切连接的内存，定期刷新原型，并且最旧的是排出和设置。原型内存是计算上高效且独立于数据集大小。它可以与各种丢失功能，硬示例挖掘算法和编码器架构一起使用。我们证明了拟议模型对流行面部识别基准的大量实验的有效性。

Deep Spherical Manifold Gaussian Kernel for Unsupervised Domain Adaptation
Authors Youshan Zhang, Brian D. Davison
无监督的域适应是一种有效的方法，即在将现有丰富标记的域传输到新域时解决域移位问题。现有的基于歧管的方法是基于传统模型，或者通过最大限度地减少两个域的单个协方差矩阵的差异而大大依赖于基础歧管。此外，现有的伪标记算法不充分考虑伪标签的质量，以对准两个域之间的条件分布。在这项工作中，提出了一种深色球形歧管高斯核DSGK框架，用于将源子空间映射到球形歧管中，并通过嵌入提取的特征和高斯内核来减少它们之间的差异。为了对齐条件分布，我们进一步开发了一种易于硬的伪标签改进过程，可以提高伪标签的质量，然后减少分类球形歧管高斯核静脉损耗。广泛的实验结果表明，DSGK优于现有技术的状态，特别是在挑战跨领域学习任务。

Proposal-free One-stage Referring Expression via Grid-Word Cross-Attention
Authors Wei Suo, Mengyang Sun, Peng Wang, Qi Wu
引用的表达式理解REC已成为视觉推理中最重要的任务之一，因为它是许多愿景和语言任务，如视觉问题的应答。但是，它尚未在许多下游任务中广泛使用，因为它存在困难的计算成本和不可避免的误差累积，并且2个阶段方法必须依赖于许多超级参数，例如锚点来生成边界盒。在本文中，我们提出了一项免费的一个阶段PFOS模型，它能够基于文本查询来从图像中的感兴趣区域重新播出，以结束到最终方式。除了使用主导的锚度建议时尚，我们直接将图像的密集网直接占据了学习网格词对应关系的跨关注变压器的输入。最终边界框是直接从图像预测的，而不耗时以前的方法遭受占用。我们的模型在四个引用表达式数据集中实现了最先进的表现，效率更高，与之前最好的一个阶段和两级方法相比。

Cuboids Revisited: Learning Robust 3D Shape Fitting to Single RGB Images
Authors Florian Kluger, Hanno Ackermann, Eric Brachmann, Michael Ying Yang, Bodo Rosenhahn
人类认为周围世界作为简单参数模型的安排。特别是，人类的环境通常由诸如长方体或气缸等体积基元组成。推断这些基元是达到高水平的重要步骤，抽象场景描述。以前从2D或3D输入直接估计形状参数，并且只能能够再现简单的对象，但无法准确地解析更多复杂的3D场景。相比之下，我们提出了一种用于原始装配的强大估算器，它可以使用长方体有意义地抽象现实世界环境。由神经网络引导的RANSAC估计器适合这些基元到3D特征，例如深度图。我们在先前检测到场景的部分上调节网络，从而逐个解析它。为了从单个RGB图像获得3D特征，我们另外将特征提取CNN终止于结束方式优化。然而，天真地最小化到原始距离导致大型或虚假的长方体遮挡了后面的场景的部分。因此，我们提出了一种遮挡意识距离度量正确处理不透明场景。该算法不需要劳动密集型标签，例如培训。挑战性的NYU深度V2数据集表明，所提出的算法成功摘要杂乱的现实世界3D场景布局。

MCGNet: Partial Multi-view Few-shot Learning via Meta-alignment and Context Gated-aggregation
Authors Yuan Zhou, Yanrong Guo, Shijie Hao, Richang Hong, Meng Wang
在本文中，我们提出了一个名为TextBF部分多视图的新具有挑战性的任务，揭示了两个任务，即一些射击学习和部分多视图学习。与传统的少数拍摄学习不同，这项任务旨在解决几次射击学习问题，因为符合现实世界的应用程序的不完整多视图，这符合更多。但是，这在这项任务中带来了两个困难。首先，不同视图之间的间隙可以很大且难以减少，尤其是样本稀缺。其次，由于观点不完整信息，很少有射击学习比传统的拍摄更具挑战性。要处理上述问题，我们通过用部分多视图GNN来提出新的TextBF元对齐和上下文门控聚合网络。具体地，元对齐有效地将不同视图的特征映射到更紧凑的潜像，从而减少视图间隙。此外，上下文门控聚合通过利用横视上下文来减轻视野缺失的影响。广泛的实验是在PIE和ORL数据集上进行的，用于评估我们所提出的方法。通过与其他几个射击学习方法进行比较，我们的方法尤其是缺少遗失的景象的最新性能。

Bayesian Logistic Shape Model Inference: application to cochlea image segmentation
Authors Wang Zihao, Demarcy Thomas, Vandersteen Clair, Gnansia Dan, Raffaelli Charles, Guevara Nicolas, Delingette Herv
结合形状信息对于划定许多器官和医学图像中的解剖结构至关重要。虽然以前的工作主要集中在参考模板形状上应用的参数空间转换，但在本文中，我们解决了用于分割医学图像的参数形状模型的贝叶斯推断，其目的是提供可解释的结果。所提出的框架通过逻辑函数基于通用形状函数来定义可能性外观概率和先前标记概率。 Sigmoid中定义的参考长度参数控制形状和外观信息之间的折扣。形状参数的推断在期望最大化方法内执行，其中高斯牛顿优化阶段允许提供形状参数的后验概率的近似。该框架应用于来自10个参数形状模型的临床CT图像的Cochlea结构的分割。它在三个不同的数据集中评估，其中一个包括超过200名患者图像。结果表明，与监督方法相比的表演比先前提出的无监督更好。它还可以分析参数分布和分割不确定性的量化，包括形状模型的效果。

Towards an efficient framework for Data Extraction from Chart Images
Authors Weihong Ma, Hesuo Zhang, Shuang Yan, Guangshun Yao, Yichao Huang, Hui Li, Yaqiang Wu, Lianwen Jin
在本文中，我们通过采用数据挖掘系统中的数据提取阶段的现有技术视觉技术的状态来填充研究差距。如图1所示，该阶段包含两个子组织，即绘图元素检测和数据转换。为了构建强大的箱体探测器，我们全面比较了基于深度学习的方法，并找到了具有高精度盒的合适方法。对于构建强大的点检测器，采用了一种具有特征融合模块的全卷积网络，与传统方法相比，可以区分接近点。所提出的系统可以有效处理各种图表数据而不制定启发式假设。有关数据转换，我们将检测到的元素转换为具有语义值的数据。建议网络来测量图例匹配阶段中图例和检测到的元素之间的特征相似性。此外，我们为从信息图表收获原始表的竞争提供了基准。已经发现一些关键因素来提高每个阶段的性能。实验结果表明了所提出的系统的有效性。

Contrastive Learning and Self-Training for Unsupervised Domain Adaptation in Semantic Segmentation
Authors Robert A. Marsden, Alexander Bartler, Mario D bler, Bin Yang
深度卷积神经网络具有显着改善的最新状态，用于语义分割。尽管如此，即使是现代架构缺乏概括到源自不同域的测试数据集的能力。为避免昂贵的解除验证数据的培训数据，无监督域适应UDA试图从标记的源域提供有效的知识传输到未标记的目标域。以前的工作主要集中在通过使用对抗性培训或自我培训来最小化两个域之间的差异。虽然对抗性培训可能无法对齐正确的语义类别，因为它最大限度地减少了全球分布之间的差异，但自我培训提出了如何提供可靠的伪标签的问题。要对齐域的正确语义类别，我们提出了一种对比的学习方法，可以在域中突破类别的虚拟性。此外，我们通过自我培训扩展了我们的方法，在那里我们使用内存有效的时间合奏来生成一致且可靠的伪标签。虽然通过时间合奏的对比学习和自我训练都能使其在两个域之间实现知识转移，但它们是它们导致共生结构的组合。我们验证了我们在两个域适配基准测试GTA5 Rightarrow Citycapes和Synthia Rightarrow Citycapes上的方法。我们的方法比现有技术实现了更好或比较的结果。我们将公开可用的代码。

Instance segmentation of fallen trees in aerial color infrared imagery using active multi-contour evolution with fully convolutional network-based intensity priors
Authors Przemyslaw Polewski, Jacquelyn Shelton, Wei Yao, Marco Heurich
在本文中，我们通过通过完全卷积网络获得的图像的语义分割映射来介绍一个用于分割公共对象类的分割实例的框架。轮廓演进作为能量最小化问题被投射，其中聚合能量功能包含数据配合项，显式形状模型，并考虑对象重叠。提出了高效的解决方案邻域运算符，通过诸如模拟退火等地式训练实现优化。我们在从高分辨率空中多光谱图像中分割各个堕落茎的上下文中提出了拟议的框架。我们验证了我们在不同复杂性的3个真实世界场景中的方法。测试情节位于德国巴伐利亚森林国家公园的地区，这持续了沉重的树皮甲虫侵扰。在多边形和线段水平上进行评估，表明多轮廓分段可以实现高达0.93的精度和0.82召回。与迭代样本共识线段检测相比，召回和6次召回和6个百分点PP的改善。尽管施加的形状参数化简单，但结合到能量函数的显式形状模型可以通过高达4pp的召回改善了结果。最后，我们展示了使用基于深度学习的语义分割方法作为个体干检测的基础的重要性。我们的方法是增加自动下落树映射的可达性的一步，因为与激光扫描相比，空中图像采集的更高成本效率。精确的下落树图可以进一步用作植物和动物栖息地建模的基础，碳封存研究以及森林生态系统中的土壤质量。

AdaVQA: Overcoming Language Priors with Adapted Margin Cosine Loss
Authors Yangyang Guo, Liqiang Nie, Zhiyong Cheng, Feng Ji, Ji Zhang, Alberto Del Bimbo
一些研究指出，当前的视觉问题应答VQA模型受到先前问题的严重影响，这是指基于语言快捷方式盲目地进行预测。有些努力致力于用微妙的模型克服这个问题。然而，尽管存在现有的VQA方法所有将VQA作为分类任务，但是从答案特征空间学习的角度都没有研究。受到这一点的启发，在这项工作中，我们试图从特征空间学习的观点来看先前问题的语言。为此，适应的边缘余弦损耗旨在辨别每个问题类型下的频繁和稀疏答案特征空间。结果，语言模态内的有限模式在很大程度上减少，从而通过我们的方法引入更少的语言前沿。我们将此损失函数应用于几个基线模型，并在两个VQA CP基准上评估其有效性。实验结果表明，我们适应的边缘余弦损失可以大大提高基线模型，平均绩效增益为15，强烈验证了从答案的角度在答案的角度下解决VQA的语言。

Multi-scale Image Decomposition using a Local Statistical Edge Model
Authors Kin Ming Wong
我们介绍了一种基于名为Sub窗口方差滤波器的新型非线性滤波器的渐进图像分解方法。我们的方法专门为图像细节增强目的而设计该应用需要提取在空间和变化尺度方面的图像细节。我们提出了一种局部统计边缘模型，它使用空间定义的图像统计来发展其边缘意识。我们的分解方法由两个直观参数控制，允许用户定义抑制或增强的图像细节。通过使用Supued区域表加速方法，我们的分解流水线很平行。所提出的过滤器是梯度保存，这允许我们的增强导致梯度逆转人工制品。在我们的评估中，我们将我们的方法与其他主流解决方案进行各种多尺度图像详细操作应用程序。

Towards Self-Supervision for Video Identification of Individual Holstein-Friesian Cattle: The Cows2021 Dataset
Authors Jing Gao, Tilo Burghardt, William Andrew, Andrew W. Dowsey, Neill W. Campbell
在本文中，我们发布了最大的标识荷斯坦弗里斯牛数据集CORS2021以及用于个体动物的视频鉴定的第一自我监督框架。 DataSet包含10,402个RGB图像，标签用于本地化和身份以及来自同一群体的301个视频。数据在谷仓图像上显示为顶部，从而捕获品种的单独独特的黑白涂层图案。通过涉及构建视觉牛识别系统的标签负担的推动，我们建议利用视频跨越视频作为动物身份学习的自我监督信号。使用屈服的边界盒的单独的无止无止牛检测器，通过通过检测和富集通过增强通过跟踪来形成各个旋转归一化轨迹。这产生了每个轨迹的正样品集，其与从其他视频的随机牛采样的负面集合配对。然后采用框架三联对比度学习来构建度量潜空间。高斯混合模型对该空间的拟合产生了牛身份分类器。结果表明，顶级1 57.0和前4 76.9的准确性，与地面真理相比，调整后的兰特指数0.53。虽然监督培训以大幅度超越这一基准，但我们得出结论，在最初构建监督信息时，自我监督在加快标签努力时可以发挥高度有效作用。我们提供所有数据和全源代码，以及系统的分析和评估。

FLEX: Parameter-free Multi-view 3D Human Motion Reconstruction
Authors Brian Gordon, Sigal Raab, Guy Azov, Raja Giryes, Daniel Cohen Or
多个摄像机制造的视频录制的可用性越来越多地提供了用于缓解姿势和运动重建方法的遮挡和深度模糊的新方法。然而，多视图算法强烈地依赖于相机参数，特别是相机中的相对位置。在不受控制的设置中，这种依赖性成为一旦转移到动态捕获的障碍。我们介绍Flex Free Multi View重建，结束到结束参数免费多视图模型。 Flex是参数无论是不需要任何相机参数，既不是内在的也不是外在的。我们的关键思想是骨架部件和骨长之间的3D角度是相机位置的不变。因此，学习3D旋转和骨长而不是位置允许预测所有相机视图的公共值。我们的网络采用多个视频流，通过新颖的多视图融合层学习融合的深度特征，并重建单一一致的骨架，其具有时间相干的关节旋转。我们展示了人类3.6M和KTH多视角足球II数据集的定量和定性结果。我们将模型与最先进的方法进行了比较，这些方法没有参数无参数，并在没有相机参数的情况下表明，我们在获得相机参数可用时比较的余量越高。我们的项目页面上可以使用代码，培训的型号，视频演示和其他材料。

QueryInst: Parallelly Supervised Mask Query for Instance Segmentation
Authors Yuxin Fang, Shusheng Yang, Xinggang Wang, Yu Li, Chen Fang, Ying Shan, Bin Feng, Wenyu Liu
最近，基于查询的对象检测框架实现了与先前最先进的对象探测器的态度相当的性能。但是，如何完全利用此类框架执行实例分段仍然是一个打开问题。在本文中，我们呈现QueryInst，一种由动态掩模头上的并行监控驱动的基于查询的实例分段方法。 QueryInst的关键介入是利用不同阶段的对象查询中的内在一个对应关系，以及在同一阶段中的掩模ROI特征和对象查询之间的一个对应关系。该方法消除了基于非查询的多级实例分段方法中固有的显式多级掩模头连接和提案分布不一致问题。我们对三个具有挑战性的基准进行广泛的实验，即Coco，Citycapes和YouTube Vis，以评估QueryInst中的QueryInstionS分段和视频实例分段VIS任务的效力。具体而具体使用Reset 101 FPN骨干网，QueryInst获得48.1盒AP和42.8掩模AP在Coco Test DEV上，这对于盒子AP和掩模AP的任值高于HTC，同时运行速度2.4倍。对于视频实例分割，QueryInst在所有在线VIS方法中实现了最佳性能，并击中了一个体面的速度准确性折衷。 URL可提供代码

Novelty Detection and Analysis of Traffic Scenario Infrastructures in the Latent Space of a Vision Transformer-Based Triplet Autoencoder
Authors Jonas Wurst, Lakshman Balasubramanian, Michael Botsch, Wolfgang Utschick
检测未知和未经测试的方案对于基于场景的测试至关重要。基于场景的测试被认为是验证自动车辆的可能方法。流量方案由多个组件组成，基础架构是其中之一。在这项工作中，介绍了一种基于其基础架构图像来检测新的交通方案的方法。 AutoEncoder Triplet网络为用于异常检测的基础设施图像提供潜在表示。网络的三联培训基于基础设施的连接图。通过使用所提出的架构，专家知识用于塑造潜在的空间，使得它在AutoEncoder的邻域关系中包含预定定义的相似性。对架构的一个消融研究是突出了Triplet AutoEncoder组合的重要性。最好的架构是基于视觉变形金机，这是一种基于卷积的网络网络。呈现的方法优于其他最先进的艺术异常检测方法。

SeaDronesSee: A Maritime Benchmark for Detecting Humans in Open Water
Authors Leon Amadeus Varga, Benjamin Kiefer, Martin Messmer, Andreas Zell
由于其灵活性和快速的操作能力，无人驾驶航空公司无人机在海上环境中的搜索和救援任务中的重要性至关重要。现代计算机视觉算法对于辅助此类任务非常兴趣。但是，它们依赖于来自无人机的大量实际案例培训数据，这仅适用于土地上的交通方案。此外，当前对象检测和跟踪数据集仅提供有限的环境信息或根本没有，忽略了有价值的信息来源。因此，本文介绍了一个大的缩放视觉对象检测和跟踪基准Seadronesse，其旨在将来自陆地视觉系统的差距弥合到海上基于海洋。我们收集和注释超过54,000帧，其中40万个实例从各种高度捕获，观察范围为5到260米，0到90度，同时为高度，观看角度和其他元数据提供相应的元信息。我们在新建立的基准作为基准的新建立的基准测试中评估了多种状态。我们提供了一个评估服务器，研究人员可以上传他们的预测并在中央排行榜上比较它们的结果

Weakly Supervised Pseudo-Label assisted Learning for ALS Point Cloud Semantic Segmentation
Authors Puzuo Wang, Wei Yao
竞争点云语义分割结果通常依赖于大量标记数据。然而，数据注释是一种耗时和劳动密集型任务，特别是对于三维点云数据。因此，通过有限的地面真理获得准确的结果作为训练数据很重要。作为一种简单富有的方法，伪标签可以使用来自未标记数据的信息进行培训神经网络。在这项研究中，我们提出了一种伪标签辅助点云分割方法，其少量稀疏的采样标签通常为每个类随机选择。提出了一种自适应阈值策略以基于预测概率生成伪标签。伪标签学习是一个迭代过程，而伪标签仅在地面真理弱标签上更新，因为该模型融合以提高培训效率。使用ISPRS 3D神出标记基准数据集的实验表明，与使用完整的监控方案仅使用最多2个Unicode X2030从原始训练集中的标记点的X2030相比，我们所提出的方法实现了同样竞争的结果，其总精度为83.7和平均F1得分为70.2。

4DComplete: Non-Rigid Motion Estimation Beyond the Observable Surface
Authors Yang Li, Hikari Takehara, Takafumi Taketomi, Bo Zheng, Matthias Nie ner
使用范围传感器跟踪非刚性变形场景具有许多应用，包括计算机视觉，AR VR和机器人。然而，由于范围传感器的闭塞和物理限制，现有方法仅处理可见表面，从而在运动场中引起不连续性和不完整性。为此，我们介绍4DComplete，一种新型数据驱动方法，估计未观察几何的非刚性运动。 4DCOMPLETE以输入的部分形状和运动观察，提取4D时间空间嵌入，并使用稀疏的完全卷积网络共同推动缺失的几何和运动场。对于网络培训，我们构建了一个名为Deformingthings4D的大规模合成数据集，其由跨越31种不同动物或具有密集4D注释的人形类别的1972个动画序列组成。实验表明，4DCOMPLETE 1从部分观察中重建高分辨率体积形状和运动场，2学习缠绕的4D特征表示，该特征表示有利于形状和运动估计，3产生比诸如刚性的经典非刚性前沿更准确和自然的变形。可能的ARAP变形，4概括为在现实世界序列中的未经看跌对象。

RepMLP: Re-parameterizing Convolutions into Fully-connected Layers for Image Recognition
Authors Xiaohan Ding, Xiangyu Zhang, Jungong Han, Guiguang Ding
我们提出了一种用于图像识别的多层Perceptron样式神经网络构建块Repmlp，其由一系列完全连接的FC层组成。与卷积层相比，FC层更有效，更好地在建模长距离依赖性和位置模式时，但在捕获局部结构时更差，因此通常不太喜欢图像识别。我们提出了一种结构RE参数化技术，可以在FC中添加本地，以使其成为图像识别的功能。具体而言，在训练期间，我们在REPMLP内构建卷积层，并将它们合并到FC中进行推理。在CIFAR上，简单的纯MLP模型显示出非常接近CNN的性能。通过在传统的CNN中插入REPMLP，我们将RESNET提高1.8在Imagenet上的准确性，2.9对于面部识别，以及2.3 MIOU在Citycapes上具有下拖鞋。我们的有趣调查结果强调，将FC与当地的全局代表能力和定位感知与卷积的本地相结合，可以提高神经网络的性能，以更快的速度对具有转换不变性的任务，例如语义分割和具有对齐图像和位置模式的任务例如，人脸识别。代码和模型可用

DeepPlastic: A Novel Approach to Detecting Epipelagic Bound Plastic Using Deep Visual Models
Authors Gautam Tata, Sarah Jeanne Royer, Olivier Poirion, Jay Lowe
积极浮动的海洋塑料碎片的量化对于了解垃圾中的垃圾浓度以及识别急动垃圾的垃圾删除需求的浓度，对垃圾的浓度是至关重要的。目前，最常见的监测方法来量化浮动塑料需要使用蝠rawl。需要Manta Trawls或类似表面收集装置的技术利用海洋塑料碎片的物理去除作为第一步，然后作为第二步分析收集的样品。在分析之前，需要进行物理删除，并且需要密集的劳动力，防止整个地球海洋身体的实时海洋塑料监测服务的可扩展部署。如果没有更好的监测和采样方法，整个塑料污染对环境的整体影响以及特定海洋区域内的影响的细节将仍然未知。本研究提出了一种高度可扩展的工作流程，其利用海洋的腰部层内捕获的图像作为输入。它产生了用于准确定量和物理去除的海洋塑料碎片的实时定量。工作流包括创建和预处理域特定数据集，利用深神经网络构建对象检测模型，并评估模型的性能。 YOLOV5 S是最佳性能模型，其平均平均精度映射为0.851，F1分数为0.89，同时保持近实时速度。

MOS: Towards Scaling Out-of-distribution Detection for Large Semantic Space
Authors Rui Huang, Yixuan Li
检测分配的投入是安全部署现实世界中的机器学习模式的中央挑战。现有解决方案主要由小型数据集驱动，具有低分辨率和极少阶级标签，例如，CIFAR。结果，大规模图像分类任务的检测仍然很大程度上是未开发的。在本文中，我们通过提出基于群体的OOD检测框架来弥合这一临界差距，以及一个名为MOS的小说评分函数。我们的主要思想是将大型语义空间分解为具有相似概念的较小组，这允许简化VS中的决策边界。退出分发数据以进行有效的ood检测。我们的方法比以前的方法高于高维级空间的比例大幅度。我们评估在想象中培训的模型，针对四个仔细策划的OOD数据集，跨越不同的语义。 MOS建立了最先进的性能，减少了平均FPR95的14.33，同时与先前的最佳方法相比，在推理中实现了6倍的加速。

Function4D: Real-time Human Volumetric Capture from Very Sparse Consumer RGBD Sensors
Authors Tao Yu, Zerong Zheng, Kaiwen Guo, Pengpeng Liu, Yebin Liu
人类体积捕获是计算机视觉和计算机图形中的长站点。虽然使用复杂的离线系统可以实现高质量的结果，但实时人类体积捕获复杂情景，特别是使用轻量级设置，仍然具有挑战性。在本文中，我们提出了一种人体积捕获方法，该方法结合了时间体积融合和深隐式功能。为实现高质量和时间的连续重建，我们提出了动态滑动融合，使相邻深度观察与拓扑一致性一起。此外，对于详细和完整的表面生成，我们提出了对RGBD输入的深度隐式功能的详细信息，这不仅可以保留深度输入上的几何细节，还可以产生更合理的纹理结果。结果和实验表明，我们的方法在视图稀疏性，泛化容量，重建质量和运行时效率方面优于现有方法。

PingAn-VCGroup's Solution for ICDAR 2021 Competition on Scientific Literature Parsing Task B: Table Recognition to HTML
Authors Jiaquan Ye, Xianbiao Qi, Yelin He, Yihao Chen, Dengyi Gu, Peng Gao, Rong Xiao
本文介绍了我对科学文献解析TaskB表识别的ICDAR 2021竞争的解决方案。在我们的方法中，我们将表内容识别任务划分为Foursub任务表结构识别，文本线路检测，文本线识别和框分配。您的表结构识别算法是基于主站1定制的，其鲁棒图像Textrecognion算法。 PSENET 2用于检测表图像中的每个文本线。对于文本绑定识别，我们的模型也是在主设备上构建的。最后，在盒子分配阶段，我们关联由pseNet检测到的pseNet与由表结构预测重建的结构项，并将识别的文本行的内容填充到相应的项目中。我们提出的方法在开发阶段的9,115次验证样本上获得了96.84个TEDS分数，并在最终评估阶段的9,064个样本上获得96.32个TED分数。

PingAn-VCGroup's Solution for ICDAR 2021 Competition on Scientific Table Image Recognition to Latex
Authors Yelin He, Xianbiao Qi, Jiaquan Ye, Peng Gao, Yihao Chen, Bingcong Li, Xin Tang, Rong Xiao
本文介绍了对科学台式图像识别对乳胶的ICDAR 2021竞争的解决方案。该竞争有两个子任务表结构重建TSR和表内容重建TCR。我们将子任务视为两个单独的图像来序列识别问题。我们利用先前提出的算法主CITE LU2019MASTER，最初提出了场景文本识别。我们优化了从多个视角，优化器，归一化方法，预训练模型，输入图像的分辨率，数据增强和型号集合的主模型。我们的方法在TSR任务上实现0.7444精确匹配和0.8765精确匹配95，并在TCR任务上获得0.5586精确匹配和0.7386精确匹配95。

Encoder Fusion Network with Co-Attention Embedding for Referring Image Segmentation
Authors Guang Feng, Zhiwei Hu, Lihe Zhang, Huchuan Lu
最近，参考图像分割引起了广泛的兴趣。以前的方法在网络的解码侧执行语言和视觉之间的多模态融合。并且，语言特征单独与每个比例的可视特征交互，这忽略了语言的连续指导到多尺度视觉功能。在这项工作中，我们提出了一个编码器融合网络EFN，它将视觉编码器转换为多模态特征学习网络，并使用语言逐渐改进多模态特征。此外，在EFN中嵌入了CO注意机制，实现了多模态特征的并行更新，这可以促进语义空间中的跨模型信息表示的一致性。最后，我们提出了一个边界增强模块BEM使网络更加关注细结构。在四个基准数据集上的实验结果表明，该方法在没有任何后处理的不同评估指标下实现了最先进的性能。

TransHash: Transformer-based Hamming Hashing for Efficient Image Retrieval
Authors Yongbiao Chen 1 , Sheng Zhang 2 , Fangxin Liu 1 , Zhigang Chang 1 , Mang Ye 3 , Zhengwei Qi 1 1 Shanghai Jiao Tong University, 2 University of Southern California, 3 Wuhan University
深汉明散列在近似最近邻的搜索方面取得了越来越多的普及，用于大规模图像检索。到目前为止，图像检索社区的深度散列是由卷积神经网络架构的主导，例如卷积神经网络架构。 Texttt Resnet引用He2016Deep。在本文中，灵感来自近期视觉变形金刚的进步，我们呈现TextBF Transhash，这是一个基于纯变压器的深层散列学习框架。具体而言，我们的框架由两个主要模块1基于Textit Vision变压器Vit，我们设计了一个用于图像特征提取的暹罗视觉变压器骨干。为了学习细粒度的功能，我们在变压器顶部创新了双流特征学习，以学习歧视的全球和本地特征。此外，我们采用贝叶斯学习方案采用动态构造的相似性矩阵来学习紧凑的二进制哈希代码。整个框架连续接受过端的结束方式。据我们所知，这是第一个解决在没有卷积神经网络短信CNNS的情况下解决深层散列学习问题的工作。我们在三个广泛研究的数据集TextBF Cifar 10，TextBF Nus和TextBF Imageenet上进行全面的实验。实验已经证明了我们对现有艺术的深层散列方法的优势。具体而言，我们在三个公共数据集中的不同哈希位长度的平均次数映射方面达到8.2,2.6,12.7性能。

Real-time Face Mask Detection in Video Data
Authors Yuchen Ding, Zichen Li, David Yastremsky
为了回应持续的Covid 19大流行，我们提出了一种强大的深度学习管道，能够识别从实时视频流识别的正确和不正确的面具。为了实现这一目标，我们设计了两个独立的方法，并评估了它们的性能和运行时间效率。第一方法利用预训练的面部检测器与在大规模合成数据集上训练的掩模佩戴图像分类器结合使用。第二种方法利用现有物体检测网络的状态，以在一次拍摄的一次拍摄中执行面部的本地化和分类，在一小组标记的现实世界图像上进行精细调整。第一管线在合成数据集上实现了99.97的测试精度，并在视频数据上维护了6个FP。第二个管道在现实世界图像上实现了89个映射0.5，而在视频数据上维持52 FPS。我们已经得出结论，如果可以策划具有边界框标签的较大数据集，则由于它们在关键评估度量上的卓越推论速度和令人满意的性能，此任务最适合使用yolo和SSD等对象检测架构。

Real-time Deep Dynamic Characters
Authors Marc Habermann, Lingjie Liu, Weipeng Xu, Michael Zollhoefer, Gerard Pons Moll, Christian Theobalt
我们提出了一种深度视频型3D人物特征模型，以多视图图像的新弱监督方式显示了高度现实的形状，运动和动态外观。与以前的工作相比，我们可控的3D字符显示动态，例如裙子的摇摆，取决于以有效的数据驱动方式，不需要复杂的物理模拟。我们的角色模型还具有学习的动态纹理模型，可用于照片现实运动依赖性外观细节，以及视图相关的照明效果。在培训期间，我们不需要求难以追求人类的艰难动态3D捕获，而是我们可以完全从多视图视频以弱监督的方式训练我们的模型。为此，我们提出了一种参数和可微分的字符表示，其允许我们模拟粗糙和细致的动态变形，例如衣服皱纹，作为显式空间时间相干网格几何，其增强了依赖于运动和视点的高质量动态纹理。作为模型的输入，只需要一个任意3D骨架运动，使其与已建立的3D动画管道直接兼容。我们使用新颖的图形卷积网络架构来实现身体和衣服的运动依赖变形学习，包括动态，神经生成动态纹理模型创造了相应的动态纹理地图。我们表明，通过仅提供新的骨骼动作，我们的模型会产生运动依赖性表面变形，物理合理的动态衣服变形，以及视频现实表面纹理比以前的最先进的方法，甚至是真实的时间。

Intensity Harmonization for Airborne LiDAR
Authors David Jones, Nathan Jacobs
为大型地理区域构建点云，例如州或国家，可能需要多年的努力。通常，几个供应商将用于获取LIDAR数据，并且可以通过多个LIDAR扫描捕获单个区域。关键挑战是维持这些扫描之间的一致性，包括点密度，返回数和强度。特别是在扫描之间的强度也可以是非常不同的，即使在重叠的区域也是如此。协调扫描之间的强度以消除这些差异是昂贵且耗时的。本文提出了一种基于深神经网络的点云协调的新方法。我们使用高质量的现实世界LIDAR数据集定量和定性评估我们的方法。我们将方法与几个基线进行比较，包括标准插值方法以及直方图匹配。我们表明，我们的方法在具有相似强度分布的区域中执行以及最佳基线，并且优于不同强度分布的区域中的所有基线。源代码可用

Texture for Colors: Natural Representations of Colors Using Variable Bit-Depth Textures
Authors Shumeet Baluja
已经提出了许多方法以将颜色和灰度图像转换为每个像素二进制对应物的单个比特。通常，目标是增强原始图像的特定属性，使其更加适合分析。然而，当所得到的二值化图像旨在用于人类观察时，也必须考虑美学。二值化技术，例如半色调，计数和孵化，已广泛用于建模原始图像的强度分布。我们介绍了一种自动化方法，将图像转换为一组二进制纹理，其不仅代表强度，还可以是原始的颜色。我们的方法的基础是信息保存创建一组纹理，允许仅从二值化表示的原始图像S颜色重建。我们提出了技术，以确保所创建的纹理在视觉上不分散注意力，保留图像的强度分布，并且是自然的，因为它们将感知类似于类似模式的颜色映射的颜色。该方法使用深神经网络，完全是自我监督的良好与良好的二值为的例子。当在各种图像源上测试时，系统产生美学上令人愉悦的二进制图像。

3D Vehicle Detection Using Camera and Low-Resolution LiDAR
Authors Lin Bai, Yiming Zhao, Xinming Huang
如今，光检测和测距LIDAR已被广泛用于自主车辆中的感知和本地化。然而，高分辨率LIDAR的成本仍然非常昂贵，而其低分辨率的对应物更实惠。因此，使用低分辨率激光器进行自主行驶感知任务而不是高分辨率LIDAR是一种经济上可行的解决方案。在本文中，我们提出了一种使用低分辨率激光雷达和单眼相机在鸟眼视图BEV中进行三维物体检测的新框架。采用低分辨率LIDAR点云和单眼图像作为输入，我们的深度完成网络能够产生致密点云，随后由基于Voxel基于Voxel的网络进行3D对象检测。使用基蒂数据集进行评估，实验结果表明，该方法显着地比直接应用16线激光雷云进行对象检测。对于易于中等的情况，我们的检测结果与64线高分辨率LIDAR的检测结果相当。详细分析了网络架构和性能评估。

GANs for Urban Design
Authors Stanislava Fedorova
机器学习和大数据工具的开发和扩散为建筑师和城市规划人员提供了一种新的工具，可用作分析或设计仪器。本文调查的该主题是在城市块设计中应用生成的对抗性网络。该研究提出了一种能够适应城市的形态特征的灵活模型。该方法没有明确定义一个城市典型的城市块的任何参数，算法从现有的城市上下文中了解它们。这种方法已应用于不同形态学米兰，阿姆斯特丹，塔林，都灵和班加罗尔的城市，以便看到模型的表现和不同城市之间的风格翻译的可能性。数据从OpenStreetMap收集并打开城市的数据门户。本研究提出了实验结果及其定量和定性评估。

A Fast Partial Video Copy Detection Using KNN and Global Feature Database
Authors Weijun Tan, Hongwei Guo, Rushuai Liu
我们提出了一个快速的部分视频复制检测框架在本文中。在此框架中，参考视频的所有帧特征都在KNN可搜索数据库中组织。查询视频段而不是扫描所有参考视频，而是在全局功能数据库中进行快速knn搜索。返回的结果用于生成候选视频的简短列表。然后使用修改后的时间网络本地化候选视频中的复制段。我们在VCDB数据集上评估了不同选择的CNN功能。我们的基准F1分数超过了最大的艺术状态。

Effectively Leveraging Attributes for Visual Similarity
Authors Samarth Mishra, Zhongping Zhang, Yuan Shen, Ranjitha Kumar, Venkatesh Saligrama, Bryan Plummer
在两个图像之间测量相似度通常需要沿着不同的轴线进行复杂的推理，例如，颜色，纹理或形状。可以通过注释的属性提供对测量相似性可能重要的洞察，但是通过注释的属性可以提供，但是先前的工作倾向于将这些注释视为完整的，导致它们使用一种简单的方法来预测单个图像上的属性，这些方法依次预测单个图像上的属性。测量相似度。但是，数据集要完全注释每个属性可能很重要的情况是不切实际的。因此，仅基于这些不完整的注释表示图像可能会错过关键信息。为了解决这个问题，我们提出了成对属性通知的相似性网络平移，该相似度网络平移将相似度的学习中断到捕获相似性条件和相关性得分，从两个图像的关节表示。这使我们的模型能够识别两个图像包含相同的属性，但是可以使其被视为无关，例如，由于它们之间的细粒差异并且忽略了两个图像之间的相似性。值得注意的是，虽然使用属性注释的先前方法通常无法优于现有技术，但是PAN获得了49次提高了Polyvore服装上的服装物品之间的兼容性预测的改进，而使用CALTECH UCSD鸟幼崽的图像几次拍摄分类的5增益1提升到店铺衣服的召回1件。

Height Estimation of Children under Five Years using Depth Images
Authors Anusua Trivedi, Mohit Jain, Nikhil Kumar Gupta, Markus Hinsche, Prashant Singh, Markus Matiaschek, Tristan Behrens, Mirco Militeri, Cameron Birge, Shivangi Kaushik, Archisman Mohapatra, Rita Chatterjee, Rahul Dodhia, Juan Lavista Ferres
营养不良是全球卫生危机，是五岁以下儿童死亡的主要原因。检测营养不良需要体重，高度和中臂周长的人体测量测量。然而，由于资源有限，准确地测量它们是一项挑战，特别是在全球南部。在这项工作中，我们提出了一种基于CNN的方法来估计使用智能手机收集的深度图像来估计五年内的常设儿童的高度。根据智能方法5，高度可接受的精度小于1.4厘米。在87131深度图像上培训我们的深度学习模型，我们的模型在57064测试图像上实现了1.64的平均平均误差。对于70.3测试图像，我们在可接受的1.4厘米范围内精确地估计高度。因此，我们所提出的解决方案可以准确地检测常驻儿童年龄低于5岁以下的年龄的衰退。

Rethinking Ultrasound Augmentation: A Physics-Inspired Approach
Authors Maria Tirindelli, Christine Eilers, Walter Simson, Magdalini Paschali, Mohammad Farid Azampour, Nassir Navab
Medical Ultrasound US，尽管使用广泛，其特点是伪影和操作员依赖。这些属性妨碍了美国数据集的收集和利用，以培训用于计算机辅助干预系统的深神经网络。数据增强通常用于增强模型泛化和性能。然而，常见的数据增强技术，例如仿射变换，与我们的物理不保持，并且当不小心使用时可以导致不切实际的美国图像。为此，我们提出了一组物理灵感的转换，包括变形，混响和信噪比，我们在美国B模式图像上应用了数据增强。我们在新脊柱美国数据集上评估我们的方法，用于骨骼分割和分类任务。

Real-time Multi-Adaptive-Resolution-Surfel 6D LiDAR Odometry using Continuous-time Trajectory Optimization
Authors Jan Quenzel, Sven Behnke
同时本地化和映射SLAM是自主机器人的基本能力，但由于高数据速率的3D LIDARS实时SLAM是具有挑战性的。我们提出了一种用于6D激光雷达测量法的实时方法。我们的方法将连续时间B样条轨迹表示与高斯混合模型GMM配方结合起来，共同对准局部多分辨率射浪映射。稀疏的体素网格和禁用性格子可确保快速访问地图冲浪，自适应分辨率选择方案有效地加速登记。彻底的实验评估显示了我们在两个数据集和真正的机器人实验中的方法的性能。

Perceptual Gradient Networks
Authors Dmitry Nikulin, Roman Suvorov, Aleksei Ivakhnenko, Victor Lempitsky
对图像生成的深度学习的许多应用使用了发电机网络的训练或微调的感知损失。然而，使用感知损失的使用重复向后向后转移到大型图像分类网络中，以及存储该网络激活所需的相当大的存储器开销。因此，它是理想的或有时甚至是为了摆脱这些开销。

Continual Learning on the Edge with TensorFlow Lite
Authors Giorgos Demosthenous, Vassilis Vassiliades
在嵌入式设备上部署复杂的深度学习模型，目的是解决现实世界问题的是使用当今技术的斗争。隐私和数据限制，网络连接问题和快速模型适应的需要是当今在边缘上许多应用程序的方法构成的一些挑战，并在设备上实时培训必要性。谷歌目前正在努力通过将实验转移学习API嵌入其Tensorflow Lite，机器学习库来解决这些挑战。在本文中，我们表明，虽然转移学习是在设备模型培训的良好第一步，但在面对更现实的情况时，它会受到灾难性的遗忘。我们通过在Core50基准测试中测试简单的传输学习模型以及直接在我们开发的Android应用程序上展示其限制来介绍此问题。此外，我们通过将简单的重播方法集成到当前传输学习模型的头部，扩展Tensorflow Lite库以包括连续学习能力。我们在Core50基准上测试我们的持续学习模型，以表明它解决了灾难性的遗忘，并且我们展示了即使在非理想条件下使用我们开发的应用程序也能够不断学习。最后，我们开源了我们的Android应用程序的代码，使开发人员能够整合到自己的智能手机应用程序的连续学习，以及促进进一步开发持续学习功能进入Tensorflow Lite环境。

MiCE: Mixture of Contrastive Experts for Unsupervised Image Clustering
Authors Tsung Wei Tsai, Chongxuan Li, Jun Zhu
我们呈现了对比专家小鼠的混合，一个统一的概率聚类框架，同时利用对比度学习所学到的辨别表格和由潜在混合模型捕获的语义结构。由专家的混合物而激励，小鼠采用门控功能来根据潜在语义和多个专家将未标记的数据集分为子集，以以对比的学习方式区分分配给它们的不同实例的子集。为了解决由潜在变量引起的非动力推断和学习问题，我们进一步开发了对小鼠的预期最大化EM算法的可扩展变体，并提供了收敛的证据。经验上，我们评估小鼠在四个广泛采用的自然图像数据集中的聚类性能。小鼠比以前的各种方法和强大的对比学习基线实现了显着更好的结果。

Joint Registration and Segmentation via Multi-Task Learning for Adaptive Radiotherapy of Prostate Cancer
Authors Mohamed S. Elmahdy, Laurens Beljaards, Sahar Yousefi, Hessam Sokooti, Fons Verbeek, U. A. van der Heide, Marius Staring
医学图像登记和分割是医学图像分析中最常用的两个任务。由于这些任务是互补和相关的，因此以联合方式同时应用它们是有益的。在本文中，我们通过多项任务学习MTL设置将注册和分段作为联合问题，允许这些任务利用其优势，并通过共享有益信息来减少它们的弱点。我们建议不仅在损失水平上合并这些任务，而是在建筑水平上。我们在适应性图像引导放射治疗前列腺癌的背景下研究了这种方法，其中规划和跟进CT图像以及它们的相应轮廓可用于训练。该研究涉及来自不同制造商和研究所的两个数据集。第一个数据集分为培训12名患者和验证6名患者，用于优化和验证方法，而第二个数据集14款患者被用作独立的测试集。我们在不同网络架构的自动生成轮廓的质量与损耗加权方法之间进行了广泛的定量比较。此外，我们评估了所产生的变形矢量场DVF的质量。我们表明MTL算法优于他们的单个任务学习STL对应物并在独立测试集上实现更好的概括。最佳算法达到平均表面距离为1.06μm0.3mm，1.27mm，0.4mm，0.91pm 0.4mm，1.76 pm 0.8mm，分别用于前列腺，精髓囊泡，膀胱和直肠的验证。所提出的方法的高精度与快速推断速度结合，使其成为自动重新扫描适应放疗的跟踪扫描的有希望的方法。

CUAB: Convolutional Uncertainty Attention Block Enhanced the Chest X-ray Image Analysis
Authors Chi Shiang Wang, Fang Yi Su, Tsung Lu Michael Lee, Yi Shan Tsai, Jung Hsien Chiang
近年来，卷积神经网络CNNS已经成功地实现了各种图像识别应用，例如医学图像分析，对象检测和图像分割。许多研究和应用程序一直在努力提高CNN算法和模型的性能。旨在提高CNNS性能的策略可以分为三个主要和更广泛的网络架构，2个自动架构搜索和3个卷积注意力块的三大方法。与方法1和2不同，卷积注意力块方法具有更高的成本。它通过提取更有效的功能来增强CNN性能。然而，现有的注意力块专注于增强显着特征，这在不确定性信息中失去了一些潜在的特征。灵感来自测试时间增强和测试时间辍学方法，我们开发了一种新颖的卷积不确定性注意力阻挡CUAB，可以利用不确定性信息来改进基于CNN的模型。所提出的模块发现计算机视觉任务中的特征映射上的不确定区域的潜在信息。它是一种灵活的功能注意力块，可以应用于CNN模型中的卷积块中的任何位置。我们在医学图像分割任务上评估了带有显着骨干模型，Reset和Resnext的CUAB。 Cuab分别在肺炎和气胸分割中达到了73和84的骰子得分，从而优于原始模型和其他显着的注意方法。结果表明CUAB可以有效地利用不确定性信息来改善模型性能。

Curvatures of Stiefel manifolds with deformation metrics
Authors Du Nguyen
我们在Stiefel歧管上计算了一系列贸易指标系列的曲率，最近由H次，Markina和Silva Leite推出，其中包括Stiefel歧管的众所周知的嵌入式和规范度量作为特殊情况。可以使用Cheeger变形度量来识别指标。我们识别家庭中的参数值，以使Stiefel歧管成为Einstein歧管，并显示Stiefel歧管始终携带爱因斯坦公制。我们分析截面曲率范围并识别歧管具有非负截面曲率的参数范围。当Stiefel基质中的列数为2时，我们提供精确的截面曲率范围，以及用于其他情况的试剂范围。我们从两种方法中获得公式，其中一个来自我们最近的工作中的全局曲率公式，另一个使用曲率公式来左不变度量。第二种方法导致正常均匀空间上的Cheeger变形度量的曲率公式。

Lesion Segmentation and RECIST Diameter Prediction via Click-driven Attention and Dual-path Connection
Authors Youbao Tang, Ke Yan, Jinzheng Cai, Lingyun Huang, Guotong Xie, Jing Xiao, Jingjing Lu, Gigin Lin, Le Lu
测量病变大小是评估肿瘤生长和监测肿仓图像分析中疾病进展和治疗反应的重要步骤。虽然它是繁琐且非常耗时的耗材，但放射科医师必须通过在常规和手动上使用固体肿瘤的重新标准响应评估标准来处理该任务。尽管病变分割可能是更准确且临床上更有价值的手段，但医生不能手动分割病变，因为需要更加繁重的劳动。在本文中，我们介绍了一种先前引导的双路径网络PDNet，以在整个身体中分段普通类型的病变，并准确且自动地预测其重新入口。类似于1，从放射科学家的咔嗒声指导是唯一的要求。 PDNet 1学习损伤特定的关键关键关注矩阵与所提出的先前编码器并行，命名单击驱动注意力2通过在所提出的解码器中引入顶部和底部连接来全面地聚合提取的多尺度特征，命名为双路径连接。实验表明，使用DEEPLESION DATASET和外部测试集，我们提出的PDNET在病变分割和再循环直径预测中的优越性。 PDNET为我们的任务学习全面和代表性的深层图像功能，并在病变分割和再循环直径预测上产生更准确的结果。

DeepRT: A Soft Real Time Scheduler for Computer Vision Applications on the Edge
Authors Zhe Yang, Klara Nahrstedt, Hongpeng Guo, Qian Zhou
智能手机和物联网摄像机的无处不在，以及最近的深度学习和深度神经网络的繁荣，激增各种计算机视觉驱动移动和部署在边缘的IOT应用程序。本文重点介绍了对其数据执行推理的软实时请求的应用，他们希望在指定的截止日期内提示响应，但偶尔的截止日期未命中是可以接受的。支持在多租户边缘服务器上的软实时应用并不容易，因为共享边缘服务器的有限GPU计算资源的请求相互干扰。为了解决这个问题，我们全面评估延迟和吞吐量如何响应不同的GPU执行计划。在此分析的基础上，我们提出了一个GPU调度程序DEEPRT，它为请求提供延迟保证，同时保持高整体系统吞吐量。 DeePrt，二手匹配器的关键组成部分尽可能多地批量来自不同请求的数据，同时被证明提供允许控制模块允许的请求的延迟保证。 Deeprt还包括一种调整模块，用于覆盖溢出。我们的评价结果表明，在截止日期未命中和吞吐量的数量方面，Deeprt优于艺术状态。

Generative Adversarial Networks (GAN) Powered Fast Magnetic Resonance Imaging -- Mini Review, Comparison and Perspectives
Authors Guang Yang, Jun Lv, Yutong Chen, Jiahao Huang, Jin Zhu
磁共振成像MRI是医学成像的重要组成部分。与其他图像方式相比，它具有诸如没有辐射，优异软组织对比度和互补的多序列信息的优点。然而，与其他图像方式相比，MRI的一个缺点是其相对缓慢的扫描和重建，在成像时间至关重要时限制了其在一些临床应用中的使用。传统的基于压缩感测的MRI CS MRI重建可以加速MRI采集，但遭受长期迭代过程和噪声引起的人工制品。最近，深神经网络DNN已被用于稀疏MRI重建模型，以重新创建相对高质量的图像，从庞大的k空间数据中，允许更快的MRI扫描。但是，仍有一些障碍来解决。例如，基于L1 L2到目标完全采样图像的直接训练DNN可能导致模糊的重建，因为L1 L2损耗只能强制实施整体图像或贴片相似性，并且不考虑诸如解剖学锐度的本地信息。在保持自然外观的同时也很难保留细图像细节。最近，提出了基于生成的对抗网络GaN的方法，以解决图像感知质量增强的快速MRI。编码器获得用于下采样图像的潜像，并且使用GaN丢失由解码器重建图像。在本章中，我们回顾了GaN动力的快速MRI方法，对各种解剖数据集进行了比较研究，以展示这种快速MRI的恒定性和鲁棒性，同时提供未来的观点。

Surveilling Surveillance: Estimating the Prevalence of Surveillance Cameras with Street View Data
Authors Hao Sheng, Keniel Yao, Sharad Goel
近年来，在政府机构和私人公民的公共场所在公共场所使用视频监控，尤其是众所周知，尤其是面部识别技术的快速进步。但难以系统地测量相机的普及和放置，妨碍评估监督对隐私和公共安全的影响。在这里，我们提出了一种新的方法，用于估计将计算机视觉算法应用于大规模街道视图图像数据的监视摄像机的空间分布方法。具体而言，我们建立了一个摄像机检测模型，并将其应用于从世界各地的10个大型美国城市和6个其他主要城市采样的160万街视图图像，具有由人类专家验证的正模型检测。在调整我们模型的估计召回后，并考虑我们采样图像的空间覆盖，我们能够估计从道路上可见的监视摄像机的密度。在我们考虑的16个城市中，估计每线性公里的监控摄像机数量从西雅图0.1的0.1英寸。在对10美国城市的详细分析中，我们发现摄像机集中在商业，工业和混合区域中，并且在具有更高份的非白居民份额的社区中，即使在调整土地使用后仍然存在的模式。这些结果有助于为使用监测技术的持续讨论，包括其对彩色社区的潜在影响。

COVID-19 Detection from Chest X-ray Images using Imprinted Weights Approach
Authors Jianxing Zhang, Pengcheng Xi, Ashkan Ebadi, Hilda Azimi, Stephane Tremblay, Alexander Wong
Covid 19 Pandemic对全球人口的福祉产生了破坏性影响。由于病毒的感染率高及其变体，大流行已经如此突出。作为回应，止扰感染的最有效方法之一是快速诊断。主要流筛选方法，逆转录聚合酶链反应RT PCR，是耗时，艰苦，供不应求。胸部射线照相是Covid 19的替代筛选方法，计算机辅助诊断CAD已被证明是一种可行的解决方案，以低成本和快速速度，然而，培训CAD模型的挑战之一是有限的培训数据，特别是培训数据有限在大流行的开始。当促进感染曲线的快速和廉价类型的诊断时，这精确地变得优秀。为了解决这一挑战，我们建议使用命名为印迹重量的低射击学习方法，利用来自已知疾病的丰富样本，例如肺炎，以改善Covid 19上的检测性能。

Attention-based Stylisation for Exemplar Image Colourisation
Authors Marc Gorriz Blanch, Issa Khalifeh, Alan Smeaton, Noel O Connor, Marta Mrak
基于示例的Colourisation旨在使用颜色参考图像的指导将合理的颜色添加到灰度图像。大多数现有方法将任务作为样式传输问题解决，使用卷积神经网络CNN获取两个输入内容的深度表示。然后通过计算两个特征表示之间的相似性来获得风格化输出，以便将参考的参考样式传输到目标输入的内容。然而，为了获得对不同参考的稳健性，风格化输出需要用第二族殖民网络进行精制，这显着提高了整体系统的复杂性。这项工作重新介绍了揭示新颖结束的现有方法，该网络统一与省略过程匹配的特征匹配。拟议的架构以不同的分辨率集成了注意力模块，了解如何以无监督方式对解码现实颜色预测的无监督方式执行风格传输任务。此外，提出了轴向注意，以简化注意力，并获得快速但坚固的成本效益的架构。实验验证表明了所提出的方法的效率，其产生高质量和视觉吸引力的殖民化。此外，与现有技术的状态相比，所提出的方法的复杂性降低。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页