【AI视野·今日CV 计算机视觉论文速览第154期】Wed, 4 Sep 2019_domain randomization and pyramid consistency: simu-CSDN博客

本文链接：https://blog.csdn.net/u014636245/article/details/100538014

AI视野·今日CS.CV 计算机视觉论文速览
Wed, 4 Sep 2019
Totally 95 papers
?上期速览✈更多精彩请移步主页

在这里插入图片描述

Interesting:

?多传感器语义深度图融合新方法, 研究人员提出了一种新的方法来实现体积深度的融合，将tsdf转变为了语义、多传感器和场景去噪补全三个内容上。在语义方面，语义信息可以丰富场景的表达并与融合过程相配合；在融合方面，深度信息可以与不同传感器或算法的结果进行融合；在场景去噪方面，传感器会在某些情形下缺失数据、这一方法可以对几何形状进行去噪、补全空洞，并为每个语义类别的表面进行严密的补全。最后提出了一个网络来实现上述所有过程的学习。(from 苏黎世理工)
多传感器融合网络，左边为传感器置信度网络，右边为语义三维重建网络。：
在这里插入图片描述
在RGB、法向量和深度图输入下这一方法融合的结果：

datasetSUNCG [41], ScanNet [11] and ETH3D [40].

?基于RGB图和mask得到去除某个主体的深度图, 由于场景的结构较为简单，像素往往超过了所需，所有研究人员提出利用掩膜和输入的rgb图除去图中的某些物体并预测出场景的深度信息。(from 伊利诺伊香槟)
在这里插入图片描述

下面是从深度图计算法向量的方法：

一些物体去除的结果：

?**假网站识别器WhiteNet, (from CISPA Helmholtz Center for Information Security)
在这里插入图片描述

?基于风格迁移来进行数据增强STaDA, (from 都柏林圣三一学院)
在这里插入图片描述
code will be:https://github.com/zhengxu001/

?自监督的深度信息去噪模型, (from )
在这里插入图片描述

code：https://github.com/VCL3D/DeepDepthDenoising

?HarDNet :Harmonic Densely Connected Network,高效的低内存消耗的信息交互网模块
在这里插入图片描述

?卫星的视觉6D姿态估计
在这里插入图片描述

KiTS19 challenge肾脏肿瘤分割
在这里插入图片描述

ForkNet 基于单深度图的多分支体积语义补全深度网络
在这里插入图片描述

 PSDNet and DPDNet高效通道拓展、深度-点-深度的可逆网络模块

+++DeepHealth深度学习在健康信息领域的回顾、挑战和基于，包括医学图像、电子病历、基因、传感器、在线健康等

Daily Computer Vision Papers

Robust Invisible Video Watermarking with Attention
Authors Kevin Alex Zhang, Lei Xu, Alfredo Cuesta Infante, Kalyan Veeramachaneni
视频水印的目标是在视频文件中嵌入消息，使其最小化影响观看体验，但即使视频被重新分发和修改也可以恢复，允许媒体制作者声明对其内容的所有权。本文介绍了RivaGAN，一种用于鲁棒视频水印的新颖架构，它具有基于自定义注意的机制，用于嵌入任意数据，以及两个独立的对抗网络，这些网络对视频质量进行评判并优化稳健性。使用这种技术，我们能够在基于深度学习的视频水印中实现最先进的结果，并且产生具有最小视觉失真并且对常见视频处理操作具有鲁棒性的水印视频。

Online Pedestrian Group Walking Event Detection Using Spectral Analysis of Motion Similarity Graph
Authors Vahid Bastani, Damian Campo, Lucio Marcenaro, Carlo S. Regazzoni
本文提出了一种在线识别视频中运动目标群的方法。每个帧处的该方法使用运动相似性图上的谱聚类来识别具有相似局部瞬时运动模式的被跟踪对象组。然后，算法的输出用于检测PETS2015挑战所要求的两个以上物体一起移动的事件。在PETS2015数据集上评估算法的性能。

A CNN-based approach to classify cricket bowlers based on their bowling actions
Authors Md Nafee Al Islam, Tanzil Bin Hassan, Siamul Karim Khan
随着硬件技术和深度学习技术的进步，将这些技术应用于不同领域已变得可行。卷积神经网络CNN是深度学习领域的一种架构，它彻底改变了计算机视觉。体育是使用计算机视觉蓬勃发展的途径之一。板球是一个复杂的游戏，包括不同类型的投篮，保龄球动作和许多其他活动。每个投球手，在板球比赛中，用不同的保龄球击球。我们利用这一点来识别不同的保龄球。在本文中，我们提出了一个CNN模型，根据他们使用转移学习的保龄球动作来识别十八个不同的板球保龄球。此外，我们创建了一个全新的数据集，其中包含这18个保龄球运动员的8100张图像，用于训练拟议的框架并评估其性能。我们使用了预先使用ImageNet数据集训练的VGG16模型，并在其上添加了几个层来构建我们的模型。在尝试了不同的策略之后，我们发现冻结网络前14层的权重并训练其余层的效果最好。我们的方法在测试集上实现了93.3的总体平均准确度，并且收敛到非常低的交叉熵损失。

Translating Visual Art into Music
Authors Maximilian M ller Eberstein, Nanne van Noord
本研究中引入的Synesthetic变分自动编码器SynVAE能够在没有配对数据集的情况下学习视觉和听觉感官模态之间的一致映射。对MNIST以及Behance Artistic Media数据集BAM的定量评估表明，SynVAE能够在翻译期间保留足够的信息内容，同时保持交叉模态潜在空间的一致性。在定性评估试验中，人类评估员还能够将音乐样本与生成它们的图像进行匹配，准确度高达73。

A Low-Cost, Flexible and Portable Volumetric Capturing System
Authors Vladimiros Sterzentsenko, Antonis Karakottas, Alexandros Papachristou, Nikolaos Zioulis, Alexandros Doumanoglou, Dimitrios Zarpalas, Petros Daras
多视图捕获系统是工程师的复杂系统。它们需要技术知识来安装和复杂的过程，以便主要与传感器空间对准相关联，即外部校准。然而，随着新生产方法的不断发展，我们现在处于可以使用商品传感器生产高质量逼真3D资产的位置。尽管如此，使用这些方法开发的捕获系统与方法本身密切相关，依赖于定制解决方案，如果根本不公开，很少。鉴于此，我们设计，开发并公开提供基于最新RGB D传感器技术的多视图捕获系统。对于我们的系统，我们开发了一种便携且易于使用的外部校准方法，可大大减少所需的工作量和知识，并简化整个过程。

Efficient Real-Time Camera Based Estimation of Heart Rate and Its Variability
Authors Amogh Gudi, Marian Bittner, Roelof Lochmans, Jan van Gemert
远程照片体积描记术rPPG使用远程放置的相机来估计人的心率HR。类似于心率如何提供关于人的生命体征的有用信息，可以从心率变异性HRV获得关于潜在的生理心理状况的见解。 HRV是心跳之间间隔精细波动的量度。然而，这种措施需要以高精度暂时定位心脏搏动。我们引入了一种精确高效的实时rPPG流水线，具有新颖的滤波和运动抑制功能，不仅可以更准确地估计心率，还可以提取脉搏波形以计算心跳时间并测量心率变异性。该方法不需要rPPG特定培训，并且能够实时操作。我们在理想化的实验室设置下对自记录数据集验证我们的方法，并在具有真实条件VicarPPG和PURE的两个公共数据集上显示最新结果。

Few-Shot Generalization for Single-Image 3D Reconstruction via Priors
Authors Bram Wallace, Bharath Hariharan
最近关于单视图3D重建的工作显示了令人印象深刻的结果，但仅限于一些固定类别，其中提供了大量的培训数据。将这些模型推广到训练数据有限的新类的问题基本上是公开的。为了解决这个问题，我们提出了一种新的模型体系结构，该体系结构将单视图3D重建重新构建为所提供的类别特定先验的学习，类别无关的细化。所提供的用于新类的先前形状可以从该类中的少至一个3D形状获得。我们的模型可以使用此先前开始从小说类重建对象，而无需查看此类的任何训练图像并且无需任何再训练。我们的模型优于类别无关的基线，并且与更复杂的基线保持竞争力，这些基线可以对新类别进行微调。此外，尽管没有接受多视图重建任务的培训，但我们的网络能够改善多视图的重建。

Cross View Fusion for 3D Human Pose Estimation
Authors Haibo Qiu, Chunyu Wang, Jingdong Wang, Naiyan Wang, Wenjun Zeng
我们提出了一种方法，通过在我们的模型中结合多视图几何先验，从多视图图像中恢复绝对3D人体姿势。它包括两个单独的步骤1，用于估计多视图图像中的2D姿势，以及2从多视图2D姿势中恢复3D姿势。首先，我们将一种跨视图融合方案引入CNN，以共同估计多个视图的2D姿势。因此，每个视图的2D姿势估计已经从其他视图中受益。其次，我们提出了一个递归的图形结构模型，以从多视图2D姿势中恢复3D姿势。它以可承受的计算成本逐步提高3D姿态的准确性。我们在两个公共数据集H36M和Total Capture上测试我们的方法。两个数据集的平均每个关节位置误差分别为26毫米和29毫米，优于26毫米对52毫米，29毫米对35毫米的艺术状态。我们的代码在网址上发布

Self-Supervised Deep Depth Denoising
Authors Vladimiros Sterzentsenko, Leonidas Saroglou, Anargyros Chatzitofis, Spyridon Thermos, Nikolaos Zioulis, Alexandros Doumanoglou, Dimitrios Zarpalas, Petros Daras
深度感知被认为是各种视觉任务的宝贵信息来源。然而，使用消费者级传感器获取的深度图仍然遭受不可忽略的噪声。最近，这一事实促使研究人员利用传统滤波器以及深度学习范例，以便在保留几何细节的同时抑制上述非均匀噪声。尽管付出了努力，深度去噪仍然是一个开放的挑战，主要是由于缺乏可用作基本事实的清晰数据。在本文中，我们提出了一种完全卷积的深度自动编码器，它可以学习去噪深度图，超越缺乏地面实况数据。具体地，所提出的自动编码器利用来自不同视点的相同场景的多个视图，以便学习在训练期间使用深度和颜色信息以自我监督的端对端方式抑制噪声，而在推理期间仅使用深度。为了实施自我监控，我们利用可微分渲染技术来开发光度监控，并使用几何和表面先验进一步规范化。由于所提出的方法依赖于原始数据采集，因此使用英特尔实感传感器收集大型RGB D语料库。作为定量评估的补充，我们证明了所提出的自监督去噪方法对已建立的三维重建应用的有效性。代码可用于

MRI Reconstruction Using Deep Bayesian Inference
Authors GuanXiong Luo, Na Zhao, Wenhao Jiang, Peng Cao
目的开发基于深度学习的贝叶斯推断MRI重建。方法我们根据最近提出的PixelCNN方法，用贝叶斯定理模拟MRI重建问题。通过最大化后验可能性来获得不完全k空间测量的图像重建。利用生成网络作为图像先验，其在计算上易于处理，并且通过使用等式约束来强制执行k空间数据保真度。利用随机反向传播计算最大后验过程中的下降梯度，并使用投影的次梯度法来施加等式约束。与其他深度学习重建方法相比，所提出的方法使用先验的可能性作为训练损失和重建中的目标函数来改善图像质量。结果与GRAPPA，ell 1 ESPRiT和MODL（一种最先进的深度学习重建方法）相比，该方法在保留图像细节和减少混叠伪像方面表现出改进的性能。与其他方法相比，所提出的方法通常实现压缩感测和并行成像重建的峰值信噪比改善超过5dB。结论与压缩感知重建任务中的常规ell 1稀疏度先验相比，贝叶斯推断显着改善了重建性能。更重要的是，所提出的重建框架可以针对大多数MRI重建场景进行推广。

Fast and Efficient Model for Real-Time Tiger Detection In The Wild
Authors Orest Kupyn, Dmitry Pranchuk
迄今为止，最高精度的物体探测器基于两级方法，例如Fast R CNN或一级探测器，例如Retina Net或具有深且复杂骨干的SSD。在本文中，我们介绍了TigerNet简单而有效的基于FPN的网络架构，用于野外的Amur Tiger Detection。该模型具有600k参数，每个图像需要0.071 GFLOP，并且可以近乎实时地在边缘设备智能相机上运行。此外，我们通过伪标记学习方法引入两阶段半监督学习，以从大网络中提取知识。对于ATRW ICCV 2019老虎检测子挑战，基于公共排行榜得分，我们的方法与其他方法相比表现出优越的性能。

ForkNet: Multi-branch Volumetric Semantic Completion from a Single Depth Image
Authors Yida Wang, David Joseph Tan, Nassir Navab, Federico Tombari
我们基于单个编码器和用于重建原始和完成场景的不同几何和语义表示的三个独立生成器，从单个深度图像提出用于3D语义完成的新模型，所有这些都共享相同的潜在空间。为了在网络的几何和语义分支之间传递信息，我们在它们之间引入了在相应网络层连接特征的路径。受来自真实场景的有限数量的训练样本的启发，我们的架构的一个有趣属性是通过生成具有高质量，逼真场景甚至包括遮挡和真实噪声的新训练数据集来补充现有数据集的能力。我们通过直接从潜在空间中采样特征来构建新数据集，该潜在空间生成一对部分体积表面和完成的体积语义表面。此外，我们利用多个鉴别器来提高重建的准确性和真实性。我们展示了我们的方法在两个最常见的完成任务语义3D场景完成和3D对象完成的标准基准测试中的优势。

Face-to-Parameter Translation for Game Character Auto-Creation
Authors Tianyang Shi 1 , Yi Yuan 1 , Changjie Fan 1 , Zhengxia Zou 2 , Zhenwei Shi 3 , Yong Liu 4 1 NetEase Fuxi AI Lab, 2 University of Michigan, 3 Beihang University, 4 Zhejiang University
角色定制系统是角色扮演游戏角色扮演游戏中的重要组成部分，允许玩家使用自己的喜好编辑游戏角色的面部外观，而不是使用默认模板。本文提出了一种根据输入的面部照片自动创建玩家游戏角色的方法。我们通过解决大量物理上有意义的面部参数的优化问题，在面部相似性测量和参数搜索范例下制定上述艺术创作过程。为了有效地最小化所创建的面部与真实面部之间的距离，特别设计了两种损失函数，即辨别力损失和面部内容丢失。由于游戏引擎的渲染过程不可区分，因此进一步引入生成网络作为模仿游戏引擎物理行为的模仿者，使得所提出的方法可以在神经风格转移框架下实现，并且可以优化参数通过梯度下降。实验结果表明，我们的方法在全局外观和局部细节方面实现了输入面部照片与游戏角色创建之间的高度生成相似性。我们的方法已经在去年的新游戏中部署，现在已被玩家使用超过100万次。

Knowledge Distillation for End-to-EndPerson Search
Authors Bharti Munjal, Fabio Galasso, Sikandar Amin
介绍端到端人物搜索的知识蒸馏。端到端方法是用于人员搜索的现有技术，其共同解决检测和重新识别。这些用于联合优化的方法由于次优检测器而显示出其最大的性能下降。

STaDA: Style Transfer as Data Augmentation
Authors Xu Zheng, Tejo Chalasani, Koustav Ghosal, Sebastian Lutz, Aljosa Smolic
训练深度卷积神经网络CNN的成功在很大程度上取决于大量的标记数据。最近的研究发现，神经风格转移算法可以将一个图像的艺术风格应用于另一个图像而不改变后者的高级语义内容，这使得采用神经风格转移作为数据增加方法来增加更多变化是可行的。训练数据集。本文的贡献是对神经风格转移作为图像分类任务的数据增强方法的有效性的全面评估。我们探索了最先进的神经风格转移算法，并将其作为数据增强方法应用于Calt