【今日CV 计算机视觉论文速览第107期】Mon, 29 Apr 2019

本文链接：https://blog.csdn.net/u014636245/article/details/89683922

今日CS.CV 计算机视觉论文速览
Mon, 29 Apr 2019
Totally 31 papers
?上期速览✈更多精彩请移步主页

在这里插入图片描述

Interesting:

?人脸数据增强综述, 系统地总结了目前数据增强方法特别是深度学习方面的方法（GANs），阐述了各种方法的原理、讨论了生成的结果和应用以及局限，同时也给出了这些方法不同的测评方法。最后指出了人脸图像增强领域存在的挑战和机会。(from CloudMinds Technologies Inc. 达闼科技)
在这里插入图片描述
几何颜色、发型化妆配饰、朝向表情年龄等数据增强手段：

几何、光色变化：

发型与妆容：

位姿和表情：

年龄/胡须：

各种方法总结：

生成模型的全局与局域连接：

各种GANs架构及其结果：
在这里插入图片描述
目前面临的挑战：身份特征保持、解耦表示、非监督数据增强、GANs的改进(BigGAN\MAD-GAN\DGAN\GAGAN\StarGAN\ CR-GAN\GAN – FaceID-GAN）。

?Lifting AutoEncoders, 基于深度非刚体的sfm建立的完全解耦的3D可变形非监督模型。可以通过非结构化的图像序列生成非监督模型，并结构视角、非刚体外形、光强、反射率等各种参数。模型充分结合了sfm、图像合成、可变形模型等，在非监督的条件下来学习可控制的几何模型。结合三维表示和不同的渲染器，并利用对抗训练生成了清晰、真实的图像。这种方法可以通过控制几何和其他视觉因素生成不同的个体、表情、朝向和光照情况下的人脸。(from CentraleSupelec法国巴黎中央理工-高等电力学院 ´Stony Brook University The Alan Turing Institute, UCL)
在这里插入图片描述
架构：

可变形AE学习图像平面变形：

纹理和光照的变化解码器LAE-lux：

数据集：1. CelebA [44] 2. Multi-PIE [23]3. AFLW2000-3D [88]
ref:
[1] The neural mesh renderer on github. https://github.com/hiroharu-kato/neural_renderer. 15
[2] A pytorch port of the neural mesh rendereron github. https://github.com/daniilidis-group/neural_renderer. 15

?Meta-Sim, 通过图形学引擎来获取与真实数据相媲美的模拟数据，利用神经网络参数化数据集生成器、它学习修改场景图（概率场景语法）的属性，并最小会渲染数据与真实数据的分布距离，可以提高人类工程师概率场景语法生成图像的质量。(from Nvidia)
在这里插入图片描述

不同损失示意图：

合成数据集效果：

code:https://nv-tlabs.github.io/meta-sim/
ref:
1https://www.sidefx.com/
2https://www.esri.com/en-us/arcgis/products/esri-cityengine/overview
3https://www.paralleldomain.com/

?MotionGAN基于单张图片和关键点的人脸视频生成, 利用单张RGB图和一系列稀疏的关键点（热力图）实现人脸变形序列的生成。(from 帝国理工)
主要由编解码器和LSTM模块三部分构成，中间为frame判别器，右边视频关键点判别器。
在这里插入图片描述
生成的结果：

dataset:Radboud Faces Database (RaFD) [22] :https://www.ru.nl/bsi/research/facilities/radboud-faces-database/

?基于框驱动的、填充比引导的弱监督语义分割, 为了充分利用分类级别区域级别的bbox先验信息，研究人员引入了框驱动的分类掩膜模型首先来移除每一类不相关区域，随后提出像素级的备选区并计算每一类的填充率来作为先验信息，最后利用填充率引导的自适应损失来帮助模型更好的分类忽略误分类的像素。(from 自动化所)
下图中b为基于框的区域移除和分割proposal，c为基于每一类的填充率计算。
在这里插入图片描述
BCM–填充率—FRguide—弱监督分割：

?高分辨风格迁移模型,模型衔接了多尺度子网络的特征，使得高分辨模型可以接受低分辨模型的信息，让生成图像包含更多精细的结构(from 海南大学)
在这里插入图片描述
一些结果：

code:https://github.com/limingcv/Photorealistic-Style-Transfer

?基于无人机小目标检测的搜救系统, 综合利用图像分割、增强和检测技术来实现小物体检测，同时利用数据增强和图像合成等手段来提升系统能力。(from Jet Propulsion Laboratory 加州理工)
在这里插入图片描述

?DeepPerimeter:基于单目图像序列的室内墙面边界估计, 利用多序列估计深度并计算点云，并利用聚类网络得到不同墙面的点云分类，最后得到视野周围的墙面边界(from Magic Leap, Inc.)
在这里插入图片描述

?Temporal Unet基于wifi信号的行为识别与分类,(from 浙江大学)
行为与信号的联系：
在这里插入图片描述
不同行为对应不同的信号：

datset:“Joint activity recognition and indoor localization"
code:https://github.com/geekfeiw/WiSLAR

?基于光流的面部表情分类, 从光流中获取面部动作流图，并基于动作分类表情。(from CNRS Department of Computer Science and Software Engineering, The University of Western Australia)
在这里插入图片描述

?基于物理渲染用于处理玻璃反射, (from KAIST)
在这里插入图片描述

?基于暗通道回归的多线性模型用于图像去雾, (from Texas A&M University)
在这里插入图片描述

Daily Computer Vision Papers

Lifting AutoEncoders: Unsupervised Learning of a Fully-Disentangled 3D Morphable Model using Deep Non-Rigid Structure from Motion
Authors Mihir Sahasrabudhe, Zhixin Shu, Edward Bartrum, Riza Alp Guler, Dimitris Samaras, Iasonas Kokkinos
在这项工作中，我们介绍了Lifting Autoencoders，一种基于生成3D表面的对象类别模型。我们将来自运动，图像形成和可变形模型的非刚性结构的想法汇集在一起，以非完整无监督的方式从非结构化图像集中学习3D类别的可控几何模型。我们利用模型的3D几何特性，并使用正常信息将外观分解为照明，阴影和反照率。我们进一步利用弱监督将人脸的非刚性形状变异性转化为身份和表达。我们将3D表示与可微分渲染器相结合，以生成RGB图像，并附加经过对侧训练的细化网络，以获得清晰，逼真的图像重建结果。学习的生成模型可以根据可解释的几何和外观因素进行控制，允许我们对身份，表情，3D姿势和照明属性进行照片级逼真的图像处理。

Single Image Reflection Removal with Physically-based Rendering
Authors Soomin Kim, Yuchi Huo, Sung Eui Yoon
近来，基于深度学习的单图像反射分离方法已被广泛开发。为了有益于学习方法，以各种方式合成了大量训练图像对，即有和没有反射，但是它们远离基于物理的方向。在本文中，基于物理的渲染用于忠实地合成所需的训练图像，并提出相应的网络结构。我们利用现有的图像数据来估计网格，然后通过路径追踪物理模拟网格，玻璃和镜头之间的深度相关光传输。为了更好地引导分离，我们还考虑了一个消除复杂重影和模糊玻璃效果的模块，这允许在玻璃变形之前获得先验信息。该模块很容易适应我们的方法，因为我们的渲染过程可以物理地生成先验信息。所提出的考虑先验信息以及现有后验信息的方法用各种真实反射图像进行验证，并且与该技术的状态相比，证明了在视觉上令人愉悦且数值上更好的结果。

GN-Net: The Gauss-Newton Loss for Deep Direct SLAM
Authors Lukas von Stumberg, Patrick Wenzel, Qadeer Khan, Daniel Cremers
SLAM的直接方法在测距任务中表现出优异的性能。然而，它们仍然受到动态照明天气变化和大基线上的错误初始化的影响。为了减轻这两种影响，我们提出了一种方法，为每个像素提供深度视觉描述符作为SLAM系统的输入。在这项工作中，我们引入了GN Net，这是一个用新颖的Gauss Newton损失优化的网络，用于训练深层特征。它被设计为最大化高斯牛顿算法内正确像素对应的概率。与通常在基于SLAM的方法中使用的单通道灰度图像相比，这导致具有更大会聚盆的特征。我们的网络可以通过不同图像之间的地面实况像素对应来训练，这些对应可以从模拟数据或任何现有技术SLAM算法产生。我们表明，我们的方法对于错误的初始化，白天的变化和天气变化更加强大，从而超越了最先进的直接和间接方法。此外，我们发布了我们称之为重定位跟踪的评估基准。它是使用CARLA模拟器以及从Oxford RobotCar Dataset获取的序列创建的。

Graph Optimized Convolutional Networks
Authors Bo Jiang, Ziyan Zhang, Jin Tang, Bin Luo
图形卷积网络GCN已经被广泛研究用于图形数据表示和学习任务。现有的GCN通常使用固定的单个图，这可能导致数据表示学习的次优，并且也难以处理多个图。为了解决这些问题，我们提出了一种新的图优化卷积网络GOCN，用于图形数据表示和学习。我们的GOCN是基于我们对正则化优化框架中的图形卷积的重新解释而产生的。 GOCN的核心思想是将图形优化和图形卷积表示形成一个统一的框架，从而协同工作以提高它们在GCN学习方案中的各自性能。此外，基于所提出的统一图优化卷积框架，我们提出了一种新的多图优化卷积网M GOCN，以自然地用多个图来解决数据。实验结果证明了GOCN和M GOCN的有效性和有益效果。

Unifying Part Detection and Association for Recurrent Multi-Person Pose Estimation
Authors Rania Briq, Andreas Doering, Juergen Gall
我们提出了一种用于2D多人姿势估计MPPE的人体关节检测和关联的联合模型。该方法统一了联合检测和关联的训练，而不需要进一步处理或复杂的启发法，以便将关节与人单独关联。该方法包括两个阶段，其中第一阶段联合检测热图和关联特征被提取，而在第二阶段，其输入是第一阶段的提取特征，我们引入一个递归神经网络RNN，预测的热图每次迭代中一个人的关节。此外，网络学习停止标准，以便一旦识别出图像中的所有个体就停止。这种方法允许我们消除关联所需的几个启发式假设和参数，这些假设和参数不一定适用。另外，这种端到端方法允许在训练期间知道并直接优化最终目标。我们在具有挑战性的MSCOCO数据集上评估了我们的模型，并获得了对基线的改进，特别是在具有遮挡的挑战性场景中。

Simultaneous Feature Aggregating and Hashing for Compact Binary Code Learning
Authors Thanh Toan Do, Khoa Le, Tuan Hoang, Huu Le, Tam V. Nguyen, Ngai Man Cheung
通过紧凑哈希码表示图像对于基于大规模内容的图像检索是有吸引力的方法。在大多数现有技术的基于散列的图像检索系统中，对于每个图像，首先将局部描述符聚合为全局表示向量。然后对该全局向量进行散列函数以生成二进制散列码。在以前的工作中，聚合和散列过程是独立设计的。因此，这些框架可能生成次优的哈希码。在本文中，我们首先提出了一种新的无监督散列框架，其中特征聚合和散列是同时设计和联合优化的。具体来说，我们的联合优化生成聚合表示，可以通过一些二进制代码更好地重建。这导致更具辨别力的二进制哈希码并提高检索准确性。此外，所提出的方法是灵活的。它可以扩展为有监督的散列。当数据标签可用时，框架可以适用于学习二进制代码，该代码最小化重建损失w.r.t.标签向量。此外，我们还提出了在我们提出的框架中使用的现有技术哈希方法二进制自动编码器的快速版本。在各种设置下对基准数据集进行的大量实验表明，所提出的方法优于无监督和监督散列方法的现有技术。

Producing Corpora of Medieval and Premodern Occitan
Authors Jean Baptiste Camps CJM , Gilles Guilhem Couffignal PLH
在数字语料库，版本或库，或多或少可自由获取的数据量显着增加的时候，数据挖掘工具或深度学习方法的开发使研究人员能够为他们的研究建立一个研究范围，丰富他们的数据并利用它们。开放的光学字符识别OCR工具可以适应旧的印刷品，incunabula甚至手稿，具有可用的结果，允许快速创建文本语料库。训练和校正阶段的交替使得可以通过快速累积原始文本数据来提高结果的质量。然后可以将这些结构化，例如在XML TEI中，并且可以丰富。通过图形或语言注释来丰富文本也可以是自动化的。语言学家和现代语言的功能所知的这些过程给中世纪奥克西唐语这样的语言带来了困难，部分原因在于缺乏足够大的词汇化语料库。将提出创建适应古代语言相当大的拼写变异的工具的建议，以及中世纪和前现代奥克西唐语的词典化实验。这些技术为许多开发开辟了道路。如果每个人都麻烦地使他们的数据在网上免费提供，那么可用的质量文本和数据量的增加使得改进数字语言学方法成为可能。

A Large Scale Urban Surveillance Video Dataset for Multiple-Object Tracking and Behavior Analysis
Authors Guojun Yin, Bin Liu, Huihui Zhu, Tao Gong, Nenghai Yu
多目标跟踪和行为分析是公共安全和城市管理监控视频分析的重要组成部分。随着全世界捕获数十亿的监控视频，通过手工劳动进行多个对象跟踪和行为分析是麻烦且成本高昂的。由于近年来深度学习算法的快速发展，自动目标跟踪和行为分析对大规模注释的监控视频数据集提出了迫切需求，能够反映实际应用中的多样化，拥挤和复杂的场景。本文介绍了迄今为止规模最大，最全面的城市监控视频数据集USVD。该数据集包括在7个典型的户外场景街道，十字路口，医院入口，学校门口，公园，步行街和公共广场中捕获的16个场景。超过200k的视频帧被仔细注释，产生超过3700万个物体边界框和约7千个轨迹。我们进一步使用该数据集来评估典型算法在多目标跟踪和异常行为分析中的性能，并探索这些方法在城市拥挤情景中的鲁棒性。

EM-Fusion: Dynamic Object-Level SLAM with Probabilistic Data Association
Authors Michael Strecke, J rg St ckler
使用RGB D摄像机获取密集3D环境地图的大多数方法都假设静态环境或拒绝将对象移动为异常值。然而，移动物体的表示和跟踪在机器人或增强现实中具有显着的应用潜力。在本文中，我们提出了一种具有密集对象级表示的动态SLAM的新方法。我们在局部体积有符号距离函数SDF图中表示刚性对象，并将多对象跟踪表示为RGB D图像与SDF表示的直接对齐。我们的主要新颖性是概率性公式，自然导致数据关联和遮挡处理的策略。我们在实验中分析了我们的方法，并证明我们的方法在稳健性和准确性方面与现有技术方法相比是有利的。

Representation Similarity Analysis for Efficient Task taxonomy & Transfer Learning
Authors Kshitij Dwivedi, Gemma Roig
当标记的示例很少时，转移学习被广泛用于深度神经网络模型中。常见的方法是在类似任务中采用预先训练好的网络并对模型参数进行微调。这通常是盲目地完成，不需要从一组预先训练的模型中预先选择，或者通过微调一组在不同任务上训练的模型并通过交叉验证选择性能最佳的模型。我们通过提出一种评估视觉任务与其任务特定模型之间关系的方法来解决这个问题。我们的方法使用表达相似性分析RSA，其通常用于发现来自脑数据和模型的神经元反应之间的相关性。通过RSA，我们通过计算在不同任务上训练的模型之间的相关性来获得任务之间的相似性得分。我们的方法很有效，因为它只需要经过预先训练的模型，而一些图像无需进一步培训。我们证明了我们在Taskonomy数据集上生成任务分类的方法的有效性和有效性。接下来，我们将评估RSA与Taskonomy任务的转移学习性能以及新任务Pascal VOC语义分段之间的关系。我们的研究结果表明，训练相似度较高的任务的模型表现出较高的转学习绩效。令人惊讶的是，Pascal VOC语义分割的最佳转移学习结果不是从预训练的语义分割模型中获得的，可能是由于域差异，我们的方法成功地选择了高性能模型。

Box-driven Class-wise Region Masking and Filling Rate Guided Loss for Weakly Supervised Semantic Segmentation
Authors Chunfeng Song, Yan Huang, Wanli Ouyang, Liang Wang
语义分割通过采用深度全卷积网络FCN取得了巨大进步。然而，基于FCN的模型的性能严重依赖于像素级注释的量，这是昂贵且耗时的。为了解决这个问题，学习在边界框中进行弱监督是一个很好的选择。如何充分利用边界框中的类级别和区域级别监督是弱监督学习任务的关键挑战。在本文中，我们首先介绍一个盒子驱动的类智能掩蔽模型BCM，以删除每个类的不相关区域。此外，基于从边界框监督生成的像素级细分提议，我们可以计算每个类的平均填充率作为重要的先验提示，然后我们提出填充率引导自适应损失FR Loss以帮助模型忽略提案中错误标记的像素。与先前使用固定的单个分段提议直接训练模型的方法不同，我们的方法可以使用全局统计信息来调整模型学习。因此，它可以帮助减少错误标记的提案的负面影响。我们在具有挑战性的PASCAL VOC 2012基准测试中评估所提出的方法，并与其他方法进行比较。大量实验结果表明，该方法是有效的，并达到了最先进的效果。

A Survey on Face Data Augmentation
Authors Xiang Wang, Kai Wang, Shiguo Lian
训练集的质量和大小对基于面部相关任务的深度学习结果有很大影响。然而，收集和标记具有高质量和平衡分布的足够样本仍然是费力且昂贵的工作，因此各种数据增加技术已被广泛用于丰富训练数据集。在本文中，我们从转换类型和方法的角度系统地回顾了面部数据增强的现有工作，并涉及最新的方法。在所有这些方法中，我们将重点放在基于深度学习的工作上，特别是近年来被认为是更强大和有效工具的生成性对抗网络。我们提出他们的原则，讨论结果并展示他们的应用和限制。还介绍了用于评估这些方法的不同评估指标。我们指出面部数据增加领域的挑战和机遇，并提供简短而富有洞察力的讨论。

Weighted second-order cone programming twin support vector machine for imbalanced data classification
Authors Saeideh Roshanfekr, Shahriar Esmaeili, Hassan Ataeian, Ali Amiri
我们提出了一种使用加权二阶锥规划双支持向量机WSOCP TWSVM进行不平衡数据分类的方法。该方法基于采样方法构建图形，该方法用于去除异常值并减少可分配的多数样本。然后，设置适当的权重以减少多数类的样本的影响并且增加分类器的优化公式中的少数类的影响。这些权重嵌入在二阶锥编程SOCP双支持向量机公式的优化问题中。测试此方法，并将其性能与标准数据集上的先前方法进行比较。实验结果证实了该方法的可行性和有效性。

Scene Graph Prediction with Limited Labels
Authors Vincent S. Chen, Paroma Varma, Ranjay Krishna, Michael Bernstein, Christopher Re, Li Fei Fei
诸如Visual Genome之类的视觉知识库为计算机视觉中的众多应用提供动力，包括视觉问答和字幕，但却遭受稀疏，不完整的关系。迄今为止，所有场景图模型仅限于对一小组视觉关系进行培训，每个视觉关系都有数千个训练标签。雇用人类注释器是昂贵的，并且使用文本知识库完成方法与视觉数据不兼容。在本文中，我们介绍了一种半监督方法，该方法使用少量标记示例将概率关系标签分配给大量未标记图像。我们分析视觉关系以建议两种类型的图像不可知特征，这些特征用于生成噪声启发式，其输出使用基于因子图的生成模型进行聚合。通过少至10个标记的关系示例，生成模型创建足够的训练数据以训练任何现有的现有技术场景图模型。我们证明了我们生成训练数据的方法优于5.16召回100的所有基线方法。由于我们只使用了几个标签，我们定义了一个关系的复杂性度量，作为指标R 2 0.778，用于我们的方法成功转移的条件学习，有限标签培训的事实上的方法。

Meta-Sim: Learning to Generate Synthetic Datasets
Authors Amlan Kar, Aayush Prakash, Ming Yu Liu, Eric Cameracci, Justin Yuan, Matt Rusiniak, David Acuna, Antonio Torralba, Sanja Fidler
将模型训练到高端性能需要大型标记数据集的可用性，这些数据集的获取成本很高。我们的工作目标是自动合成与下游任务相关的标记数据集。我们提出Meta Sim，它学习合成场景的生成模型，并通过图形引擎获取图像以及相应的基础事实。我们使用神经网络对我们的数据集生成器进行参数化，该神经网络学习修改从概率场景语法获得的场景图的属性，以便最小化其渲染的输出和目标数据之间的分布差距。如果真实数据集带有小的标记验证集，我们还旨在优化元目标，即下游任务性能。实验表明，所提出的方法可以在人工设计的概率场景语法上大大提高内容生成质量，无论是定性还是定量，都可以通过下游任务的性能来衡量。

Small Target Detection for Search and Rescue Operations using Distributed Deep Learning and Synthetic Data Generation
Authors Kyongsik Yun, Luan Nguyen, Tuan Nguyen, Doyoung Kim, Sarah Eldin, Alexander Huyen, Thomas Lu, Edward Chow
为搜索和救援行动尽快找到目标非常重要。监视摄像系统和无人驾驶飞行器UAV用于支持搜索和救援。自动物体检测很重要，因为人无法在24小时内同时监控多个监控屏幕。而且，物体通常太小而不能被监视屏幕上的人眼识别。这项研究使用休斯顿港周围的无人机和固定监控摄像机来建立一个自动目标探测系统，支持美国海岸警卫队USCG帮助找到目标，例如人员落水。我们将图像分割，增强和卷积神经网络相结合，以减少检测小目标的检测时间。我们比较了自动检测系统和人眼之间的性能。我们的系统在8秒内检测到目标，但人眼在25秒内检测到目标。我们的系统还使用合成数据生成和数据增强技术来提高目标检测精度。该解决方案可以及时帮助第一响应者的搜索和救援操作。

High-Resolution Network for Photorealistic Style Transfer
Authors Ming Li, Chunyang Ye, Wei Li
逼真的风格转移旨在将一个图像的样式转移到另一个图像，但保留了内容图像的原始结构和细节轮廓，这使得内容图像在样式转移后仍然看起来像真实的镜头。尽管已经提出了一些逼真的图像样式方法，但是这些方法易于丢失内容图像的细节并产生一些不规则的变形结构。在本文中，我们使用高分辨率网络作为图像生成网络。与其他降低分辨率然后恢复高分辨率的方法相比，我们的发电网络在整个过程中保持高分辨率。通过并行和重复多尺度融合将高分辨率子网连接到低分辨率子网，高分辨率子网可以连续接收来自低分辨率子网的信息。这允许我们的网络丢弃图像中包含的较少信息，因此生成的图像可以具有更精细的结构和更少的失真，这对于视觉质量是至关重要的。我们进行了大量实验并将结果与现有方法进行了比较。实验结果表明，我们的模型是有效的，并产生比现有的照片级真实感图像风格更好的结果。我们的PyTorch框架源代码将在公开发布

DeepPerimeter: Indoor Boundary Estimation from Posed Monocular Sequences
Authors Ameya Phalak, Zhao Chen, Darvin Yi, Khushi Gupta, Vijay Badrinarayanan, Andrew Rabinovich
我们提出DeepPerimeter，一种基于深度学习的管道，用于推断完整的室内周界，即来自一系列构成的RGB图像的外部边界图。我们的方法依赖于用于深度估计和墙分割的鲁棒深度方法来生成外部边界点云，然后使用深度无监督聚类来拟合壁平面以获得房间的最终边界图。我们证明DeepPerimeter在流行的ScanNet和FloorNet数据集上具有出色的视觉和定量性能，适用于各种复杂性的房间形状以及多房间场景。我们还为未来的室内周边估算工作建立了重要的基线，随着增强现实和机器人等应用领域变得越来越重要，这些主题将越来越普遍。

Optical Flow Techniques for Facial Expression Analysis: Performance Evaluation and Improvements
Authors Benjamin Allaert, Isaac Ronald Ward, Ioan Marius Bilasco, Chaabane Djeraba, Mohammed Bennamoun
在估计场景中的运动时，光流技术变得越来越高性能，但是它们的性能尚未在面部表情识别领域得到证实。在这项工作中，跨多个面部表情数据集评估各种光流方法，以提供一致的性能评估。此外，多种光流方法的优势结合在一种新颖的数据增强方案中。根据该方案，取决于光流方法和数据集的选择，平均准确度增加了多达6个。

Multiple Linear Regression Haze-removal Model Based on Dark Channel Prior
Authors Binghan Li, Wenrui Zhang, Mi Lu
暗通道先前DCP是广泛认可的传统除雾算法。然而，它可能在明亮区域中失败并且恢复图像的亮度比模糊图像更暗。在本文中，我们提出了一种优化DCP的有效方法。我们建立了基于DCP大气散射模型的多元线性回归雾霾去除模型，并使用RESIDE数据集训练该模型，旨在减少由透射图tx和大气光A的粗略估计引起的意外误差.RESIDE数据集提供了足够的合成朦胧的图像和他们相应的groundtruth图像进行训练和测试。我们根据两个重要的完整参考度量，峰值信噪比PSNR以及结构相似性指数测量SSIM来比较不同的去雾算法的性能。实验结果表明，我们的模型获得了最高的SSIM值，其PSNR值也高于大多数现有的除雾算法。我们的结果也克服了DCP对现实世界模糊图像的弱点

Asynchronous "Events" are Better For Motion Estimation
Authors Yuhu Guo, Han Xiao, Yidong Chen, Xiaodong Shi
基于事件的相机是一种生物启发的视觉传感器，可在每个像素中异步记录称为事件的强度变化。作为基于事件的相机的一个实例，动态和有源像素视觉传感器DAVIS结合了标准相机和基于事件的相机。但是，传统模型无法异步处理事件流。为了异步分析事件流，大多数现有方法在特定时间间隔内累积事件并将累积事件视为同步帧，这浪费了强度变化信息并削弱了DAVIS的优点。因此，在本文中，我们提出了第一种神经异步方法来处理基于事件的摄像机的事件流。我们的方法通过利用灰度帧的先前运动和关键特征来异步地从事件中提取动态信息。据我们所知，这是第一个通过新型深度神经网络分析事件流的神经异步方法。大量实验表明，我们提出的模型在最先进的基线方面取得了显着的进步。

TVQA+: Spatio-Temporal Grounding for Video Question Answering
Authors Jie Lei, Licheng Yu, Tamara L. Berg, Mohit Bansal
我们提出了Spatio Temporal Video Question Answering的任务，它要求智能系统同时检索相关时刻并检测参考视觉概念人和物体以回答关于视频的自然语言问题。我们首先使用310.8k边界框扩充TVQA数据集，将描述的对象链接到问题和答案中的视觉概念。我们将此增强版本命名为TVQA。然后，我们提出了具有基础证据STAGE的Spatio Temporal Answerer，这是一个统一的框架，可以在空间和时间域中提供证据来回答有关视频的问题。全面的实验和分析证明了我们的框架的有效性以及我们的TVQA数据集中的丰富注释如何有助于问题回答任务。作为副产品，通过执行此联合任务，我们的模型能够产生更具洞察力的中间结果。数据集和代码是公开的。

Unsupervised Deep Learning by Neighbourhood Discovery
Authors Jiabo Huang, Qi Dong, Shaogang Gong, Xiatian Zhu
深度卷积神经网络CNN通过监督学习强大的视觉特征表示，在计算机视觉方面取得了显着的成功。但是，培训CNN在很大程度上依赖于详尽的培训数据注释的可用性，在许多应用场景中显着限制了它们的部署和可扩展性。在这项工作中，我们引入了一种通用的无监督深度学习方法来训练深度模型，而无需任何手动标签监督。具体而言，我们逐步发现样本锚定中心邻域，以推理和累积地推理和学习基础类决策边界。每个单独的社区都是专门制定的，以便所有成员样本可以高概率地共享相同的看不见的类标签，以便于在训练期间提取类别判别特征表示。图像分类的实验表明，所提出的方法相对于包括粗粒度和细粒度对象图像分类在内的六个基准的现有技术无监督学习模型的性能优势。

Face Video Generation from a Single Image and Landmarks
Authors Kritaphat Songsri in, Stefanos Zafeiriou
在本文中，我们关注的是在仅给出图像和由一组稀疏地标编码的一般面部运动的情况下产生可变形面的完整图像序列的挑战性问题。为此，我们建立了图像到图像转换的最新突破，例如pix2pix，CycleGAN和StarGAN，它们学习深度卷积神经网络DCNN，学习在不同域之间映射对齐的对或图像，即具有不同的标签并提出新的架构，不是由标签驱动，而是由空间地图，面部地标驱动。特别地，我们提出了MotionGAN，其根据目标地标的热图将输入面部图像变换为新的。我们展示了使用单个图像和一组目标地标创建非常逼真的面部视频是可能的。此外，我们的方法可用于根据地标（例如，表情，语音等）编辑具有任意运动的面部图像。与基于离散表达式，音频或动作单元的模型相比，这为面部编辑，表情转换，面部视频创建等提供了更大的灵活性。

On Exact Computation with an Infinitely Wide Neural Net
Authors Sanjeev Arora, Simon S. Du, Wei Hu, Zhiyuan Li, Ruslan Salakhutdinov, Ruosong Wang
像AlexNet或VGG19这样的经典深网络体系结构如何在CIFAR 10等标准数据集上进行分类时，其宽度即卷积层中的通道数和完全连接的内部层中的节点数可以增加到无穷大这些问题在理论上理解深度学习及其关于优化和泛化的奥秘，已经走到了最前沿。他们还将深度学习与高斯过程和内核等概念联系起来。最近的一篇论文Jacot et al。，2018年引入了神经切线内核NTK，它捕获了由梯度下降训练的无限宽度限制中完全连接的深网的行为，这个对象在其他一些近期的论文中是隐含的。随后的文章Lee et al。，2019给出了启发式蒙特卡罗方法来估计NTK及其扩展，卷积神经切线核CNTK，并用它来试图理解像CIFAR 10这样的数据集上的限制行为。

Temporal Unet: Sample Level Human Action Recognition using WiFi
Authors Fei Wang, Yunpeng Song, Jimuyang Zhang, Jinsong Han, Dong Huang
人类行动将导致WiFi失真，其被广泛地用于动作识别，例如老年人跌倒检测，手部手语识别和击键估计。作为我们的最佳调查，过去的工作通过将一个完整的扭曲系列分类为一个动作来识别人类行为，我们将其称为系列级别动作识别。在本文中，我们向WiFi感知域引入了更细粒度和挑战性的动作识别任务，即样本级别动作识别。在此任务中，整个系列中的每个WiFi失真样本应归类为一个动作，这是精确动作定位，连续动作分割和实时动作识别中的关键技术。为了实现基于WiFi的样本级动作识别，我们充分分析了基于图像的语义分割以及基于视频的帧级动作识别的方法，然后提出了一种简单而有效的深度卷积神经网络，即时间Unet。实验结果表明，Temporal Unet很好地完成了这项新任务。代码已公开发布于

Accurate and Robust Alignment of Variable-stained Histologic Images Using a General-purpose Greedy Diffeomorphic Registration Tool
Authors Ludovic Venet, Sarthak Pati, Paul Yushkevich, Spyridon Bakas
病理学家常规使用各种染色的组织切片来评估来自各种解剖部位的提取的组织样本并确定疾病的存在或程度。预期顺序载玻片的评估能够更好地理解细胞和血管的空间排列和生长模式。在本文中，我们提出了一种基于微分同位配准的实用两步法，将数字化序列组织病理学染色的载玻片相互对齐，从初始仿射步骤开始，然后估计详细的变形场。

Perceptual Attention-based Predictive Control
Authors Keuntaek Lee, Gabriel Nakajima An, Viacheslav Zakharov, Evangelos A. Theodorou
在本文中，我们提出了一种新的信息处理架构，用于自治系统的端到端视觉导航。所提出的信息处理架构用于支持基于感知注意的预测控制算法，该算法利用模型预测控制，卷积神经网络和不确定性量化方法。关键思想依赖于使用模型预测控制来训练卷积神经网络以预测输入视觉信息中的感兴趣区域。然后将这些感兴趣的区域用作Macula网络的输入，Macula网络是一种3D卷积神经网络，其被训练以产生控制动作以及对输入数据流中的认知和任意不确定性的估计。所提出的架构在模拟示例和1 5级地面车辆上进行测试。实验结果表明，所提出的体系结构优于先前的方法，用于早期检测初始训练集之外的新对象数据。所提出的架构是在安全关键域中使用端到端感知控制策略的第一步。

DeepFreak: Learning Crystallography Diffraction Patterns with Automated Machine Learning
Authors Artur Souza, Leonardo B. Oliveira, Sabine Hollatz, Matt Feldman, Kunle Olukotun, James M. Holton, Aina E. Cohen, Luigi Nardi
连续晶体学是通过衍射图案研究晶体结构和性质的科学领域。在本文中，我们介绍了一个新的连续晶体学数据集，包括真实和合成图像，合成图像是通过使用可扩展和准确的模拟器生成的。生成的数据集称为DiffraNet，它由25,457个512x512灰度标记图像组成。我们探索了几种用于在DiffraNet上进行分类的计算机视觉方法，例如与随机森林和支持向量机相关的标准特征提取算法，以及为此新数据集定制的端到端CNN拓扑，称为DeepFreak。所有实现都是公开可用的，并且使用现成的AutoML优化工具进行了微调，以进行公平比较。我们的最佳模型在合成图像上获得98.5的准确度，在真实图像上获得94.51的准确度。我们相信，DiffraNet数据集及其分类方法将在加速许多学科的发现方面产生积极影响，包括化学，地质学，生物学，材料科学，冶金学和物理学。

Interactive user interface based on Convolutional Auto-encoders for annotating CT-scans
Authors Martin L ngkvist, Jonas Widell, Per Thunberg, Amy Loutfi, Mats Lid n
高分辨率计算机断层扫描HRCT是间质性肺病最重要的成像方式，放射科医师有兴趣识别某些模式及其体积和区域分布。机器学习的使用可以通过执行语义分割来帮助放射科医师完成这两项任务。在本文中，我们提出了一种用于语义分割的交互式注释工具，它有助于放射科医师对CT扫描进行标记。注释工具由六位放射科医师和放射学居民评估健康肺和网状图案i HRCT图像。使用系统可用性分数SUS和来自使用该工具注释CT卷的读者的交互信息来评估系统的可用性。结果发现，用户之间经验丰富的可用性以及用户与系统的交互方式各不相同。用户给出了较高的SUS分数，优先考虑学习速度而不是模型精度，并且花费较少的时间进行手动标记，而是利用GUI提供的建议。对读者之间注释变异的分析表明Cohen s kappa 0.69对于肺纤维化中健康和受影响的肺实质的分类具有实质性的一致性。读者之间的差异对于基本事实的定义是一个挑战。

Improved visible to IR image transformation using synthetic data augmentation with cycle-consistent adversarial networks
Authors Kyongsik Yun, Kevin Yu, Joseph Osborne, Sarah Eldin, Luan Nguyen, Alexander Huyen, Thomas Lu
红外红外图像对于提高暗物或伪装物体的可见度至关重要。基于使用IR图像的神经网络的对象识别和分割比彩色可见图像提供更多的准确性和洞察力。但瓶颈是用于训练的相关红外图像的数量。为特殊目的收集真实世界的红外图像很困难，包括太空探索，军事和消防应用。为了解决这个问题，我们使用基于Unity的3D游戏编辑器创建了彩色可见光和红外图像。这些合成生成的彩色可见光和红外图像用于训练循环一致的对抗网络CycleGAN，以将可见图像转换为IR图像。 CycleGAN的优势在于它不需要精确匹配可见和IR对进行转换训练。在本研究中，我们发现其他合成数据有助于提高CycleGAN的性能。使用真实数据N 20的神经网络训练比使用真实N 10和合成N 10数据组合的训练执行更准确的变换。结果表明合成数据不能超过实际数据的质量。使用真实N 10和合成N 100数据组合的神经网络训练显示出与使用真实数据N 20的训练几乎相同的性能。为获得相同的性能，至少需要比实际数据多10倍的合成数据。总之，CycleGAN与合成数据一起使用以改善可见图像的IR图像转换性能。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

在这里插入图片描述
pic from pixels.com