【AI视野·今日CV 计算机视觉论文速览第201期】Wed, 19 May 2021_unsupervised mri reconstruction via zero-shot lear-CSDN博客

本文链接：https://blog.csdn.net/u014636245/article/details/117019861

AI视野·今日CS.CV 计算机视觉论文速览
Wed, 19 May 2021
Totally 56 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Computer Vision Papers

Human Motion Prediction Using Manifold-Aware Wasserstein GAN
Authors Baptiste Chopin, Naima Otberdout, Mohamed Daoudi, Angela Bartolo
人类运动预测旨在预测未来人类的姿势给出了先前的姿势序列。长期视野中预测运动的不连续性和性能恶化仍然是当前文献中遇到的主要挑战。在这项工作中，我们通过使用人类运动的紧凑歧管值表示来解决这些问题。具体而言，我们模拟了3D人类姿势作为轨迹的时间演变，允许我们将人类动作映射到球形歧管上的单点。为了了解这些非欧几里德表示，我们建立了一个歧管意识的Wasserstein生成的对抗模型，通过不同的损失捕获人类运动的时间和空间依赖性。广泛的实验表明，我们的方法优于CMU Mocap和人类3.6M数据集的现有技术。我们的定性结果表明了预测动作的平稳性。

Content Disentanglement for Semantically Consistent Synthetic-to-RealDomain Adaptation in Urban Traffic Scenes
Authors Mert Keser, Artem Savkin, Federico Tombari
合成数据生成是一种吸引人的方法，可以在自动驾驶中生成新颖的交通方案。但是，完全培训的深度学习技术仅对合成数据遇到戏剧性的性能在实际数据上测试时滴滴。这种性能下降通常归因于实际和合成数据之间的域间隙。域适应方法已应用于减轻上述域间隙。这些方法实现了视觉上吸引人的结果，但翻译的样本通常会引入语义不一致。在这项工作中，我们提出了一个新的，无人监督的端域适应网络架构，其能够在合成和实际数据之间进行语义一致的域适应。我们在语义分割的下游任务上评估我们的架构，并表明我们的方法与现有技术的状态相比实现了卓越的性能。

Semi-Supervised Classification and Segmentation on High Resolution Aerial Images
Authors Sahil Khose, Abhiraj Tiwari, Ankita Ghosh
Foodnet是一个高级UAV平台，DJI Mavic Pro Quadcopters获取的高分辨率图像数据集，在Hurricane Harvey之后。数据集在使用未标记和有限标记的数据集推导灾后场景的损伤评估过程的独特挑战。我们提出解决方案来解决其分类和语义分割挑战。我们通过在训练期间为分类和分割生成伪标签并缓慢递增伪标签损失影响最终损失的金额来解决这个问题。使用此半监督培训方法帮助我们通过巨大的分类余量提高了基线监督损失，允许模型概括并更好地对数据集的验证和测试拆分进行更好。在本文中，我们对洪馨数据集上的图像分类和语义细分的各种方法和模型进行比较和对比。

IntFormer: Predicting pedestrian intention with the aid of the Transformer architecture
Authors J. Lorenzo, I. Parra, M. A. Sotelo
了解行人交叉行为是智能车辆发展的重要目标，从而改善了他们的安全和交通流量。在本文中，我们开发了一种称为Interformer的方法。它基于变压器架构和名为Rubiksnet的新型卷积视频分类模型。在最近的基准中的评估程序之后，我们表明我们的模型达到了最先进的结果，性能良好的性能约为40 SEQ。每秒和大小比最佳性能模型小8倍，使其适合实时使用。我们还探讨了每个输入功能，发现EGO车速是最重要的变量，可能是由于饼图数据集交叉案例的相似性。

Assessing aesthetics of generated abstract images using correlation structure
Authors Sina Khajehabdollahi, Georg Martius, Anna Levina
我们可以在没有自然或人类所选图像中产生抽象的美学图像，或者是人类所选图像，CORPI是在本文中的相关函数中被挑选的美学图像，我们向这些和更多问题提供了答案。我们使用具有随机权重和变化架构的组成模式产生网络生成图像。我们证明即使对于随机选择的权重，相关函数仍然很大程度上由网络架构确定。在受控实验中，人类受试者从所有生成图像的大型数据集中挑选了审美图像。统计分析表明，对于美学图像，相关函数确实不同。

SAIL-VOS 3D: A Synthetic Dataset and Baselines for Object Detection and 3D Mesh Reconstruction from Video Data
Authors Yuan Ting Hu, Jiahong Wang, Raymond A. Yeh, Alexander G. Schwing
从视频数据中提取对象的详细信息是整体场景理解的重要目标。虽然最近的方法在从单个图像重建对象的网格时显示了令人印象深刻的结果，但结果通常保持模糊，因为该对象的一部分是不可观察的。此外，用于网格重建的现有图像数据集Don T允许研究集成时间信息的模型。为了缓解我们的担忧，我们呈现Sail VOS 3D，通过框架网格注释框架框架的综合视频数据集，其扩展了Sail Vos。我们还通过时间模型开发用于从视频数据重建3D网格的第一个基线。我们展示了所提出的基线对帆VIS 3D和PIX3D的功效，表明时间信息提高了重建质量。资源和其他信息可供选择

ACAE-REMIND for Online Continual Learning with Compressed Feature Replay
Authors Kai Wang, Luis Herranz, Joost van de Weijer
在线持续学习旨在从许多不同任务中学习非IID数据流，其中学习者仅允许考虑一次数据。通常允许使用有限缓冲器存储流中的一些图像。最近，发现特征重放，其中存储或生成图像的中间层表示，而不是图像重放的卓越结果，同时需要较少的存储器。量化示例可以进一步降低存储器使用。然而，这些方法的缺点是它们使用固定或非常顽固的骨干网络。这显着限制了可以区分所有任务之间的陈述的学习。为了解决这个问题，我们提出了一个辅助分类器自动编码器ACAE模块，用于高压缩速率的中间层的特征重放。每张图像的降低的内存占用空间允许我们保存更多的示例以进行重播。在我们的实验中，我们在在线持续学习设置下进行任务不良评估，并在Imagenet子集中获取最新的艺术表现，CiFar100和CiFar10数据集。

Vision Transformer for Fast and Efficient Scene Text Recognition
Authors Rowel Atienza
场景文本识别str使计算机能够在自然场景中读取文本，例如对象标签，道路标志和说明。 STR帮助机器执行明智的决策，例如挑选的对象，哪个方向，以及下一步行动。在STR的工作机构中，重点一直是识别准确性。很少强调速度和计算效率，这同样重要，特别是对于能量受限移动机器。在本文中，我们提出了一种具有简单的单级模型架构的Strstr，包括在计算和参数高效视觉变压器Vit上的简单单级模型架构。在比较强大的基线方法（如TRBA）等特点为84.3时，我们的小VIVSTR实现了82.6 84.2的竞争精度，数据增强速度为2.4倍的增速，仅使用参数的43.4个参数和42.2拖幅。 VITSTR的微小版实现了80.3精度82.1，数据增强，速度为2.5倍，只需要参数数量的10.9和11.9拖鞋。通过数据增强，我们的基础Vitstr在85.2精度83.7时占TRBA，而无需增强速度，但需要73.2个参数和61.5更多的拖力。在贸易票据方面，几乎所有的VITSTR配置都在边缘或附近的前沿，同时最大化精度，速度和计算效率。

Assessing bikeability with street view imagery and computer vision
Authors Koichi Ito, Filip Biljecki
评估距离的研究通常计算成型循环条件的空间指标，并在定量指标中混合它们。许多研究涉及站点访问或传统地理空间方法，很少有研究杠杆化街景图像SVI进行虚拟审核。这些已经评估了有限的方面，并且并非所有使用计算机视觉CV都已自动化。此外，研究尚未归因于衡量这些技术的可用性。我们在精细空间规模和跨多个地理新加坡和东京进行实验，我们是否可以使用SVI和CV全面评估距离。延长相关的工作，我们开发了由34个指标组成的穷举性的平方指数。结果表明，SVI和CV足以全面评估城市的北极自行道。由于它们优于非SVI对应于广泛的边缘，因此也发现SVI指标在评估城市北徒可行性方面优越，并且可能可以独立使用，取代传统技术。但是，纸张暴露了一些限制，表明前进的最佳方式是组合SVI和非SVI方法。新的直接性指数呈现出交通和城市分析的贡献，它是可扩展的，以广泛评估骑自行车的吸引力。

Unsupervised identification of surgical robotic actions from small non homogeneous datasets
Authors Daniele Meli, Paolo Fiorini
机器人辅助手术是一项既定的临床实践。一系列应用需要自动识别外科手术，包括对学员的性能评估和用于自主执行和监测的外科手术造型。然而，由于手动注释潜在复杂和长手术执行的录音的负担，监督措施是不可行的。此外，通常可以记录外科手术的示例执行。本文提出了一种新颖的算法，用于在标准外科训练任务中的外科手术识别识别，环路转移，由Da Vinci研究套件执行。利用运动和语义视觉功能自动从一个非常有限的执行数据集中提取，我们能够显着优于相似应用的最新状态，提高分割88与82匹配分数和聚类67对54的质量。即使在存在噪声，短暂的动作和非均匀工作流的存在下也是分数，即非重复动作序列。具有标准商业规范的硬件上的全动作识别在不到1秒内执行单执行。

Overparametrization of HyperNetworks at Fixed FLOP-Count Enables Fast Neural Image Enhancement
Authors Lorenz K. Muller
深度卷积神经网络可以增强用小型移动摄像机传感器拍摄的图像，并在Demoisaicing，去噪和超级分辨率等任务中擅长。但是，对于移动设备的实际应用，这些网络通常需要太多拖鞋并减少卷积层的絮凝，也降低了其参数计数。鉴于最近发现参数化神经网络的最近发现，这通常是有问题的，这通常是概遍的那些。在本文中，我们建议使用HyperNetworks打破标准卷积参数的固定比率。这允许我们超过先前的SSIM和MS SSIM在Zurich RAW上的最先前状态，以10倍降低的拖动计数。在Zrr上，我们进一步观察到在大图像限制的固定翻转计数中与双触觉行为一致的概括曲线。最后，我们展示了相同的技术可以应用于现有网络VDN以降低其计算成本，同时在智能手机图像去噪数据集SIDD上保持保真度。关键函数的代码在附录中给出。

Progressively Normalized Self-Attention Network for Video Polyp Segmentation
Authors Ge Peng Ji, Yu Cheng Chou, Deng Ping Fan, Geng Chen, Huazhu Fu, Debesh Jha, Ling Shao
现有的视频息肉分割VPS模型通常采用卷积神经网络CNN来提取特征。然而，由于其接收领域有限，CNN不能在连续的视频帧中完全利用全局时间和空间信息，从而导致错误的正分割结果。在本文中，我们提出了新的PNS净净逐步规范化的自我注意网络，可以在单个RTX 2080 GPU上的实时速度140FPS有效地从息肉视频中学习表示。我们的PNS网络仅基于基本标准化的自我注意力块，完全配备重复和CNNS。关于