【今日CV 计算机视觉论文速览第93期】Wed, 3 Apr 2019-CSDN博客

本文链接：https://blog.csdn.net/u014636245/article/details/89036718

今日CS.CV 计算机视觉论文速览
Wed, 3 Apr 2019
Totally 55 papers

在这里插入图片描述

Daily Computer Vision Papers

Exploring Randomly Wired Neural Networks for Image Recognition
Authors Saining Xie, Alexander Kirillov, Ross Girshick, Kaiming He
用于图像识别的神经网络已经通过广泛的手动设计从简单的链式模型演变为具有多个布线路径的结构。 ResNets和DenseNets的成功在很大程度上归功于他们的创新布线计划。现在，神经结构搜索NAS研究正在探索布线和操作类型的联合优化，然而，尽管被搜索，但可能的布线空间受到约束并且仍然由手动设计驱动。在本文中，我们通过随机有线神经网络的镜头探索更多样化的连接模式。为此，我们首先定义了一个随机网络生成器的概念，它封装了整个网络生成过程。封装提供了NAS和随机有线网络的统一视图。然后，我们使用三个经典随机图模型为网络生成随机有线图。结果令人惊讶，这些随机生成器的几个变体产生的网络实例在ImageNet基准测试中具有竞争准确性。这些结果表明，专注于设计更好的网络生成器的新努力可以通过探索较少约束的搜索空间以及更多的新颖设计空间而带来新的突破。

Spatial Attentive Single-Image Deraining with a High Quality Real Rain Dataset
Authors Tianyu Wang, Xin Yang, Ke Xu, Shaozhe Chen, Qiang Zhang, Rynson Lau
从单个图像中去除雨水条纹已引起相当大的关注，因为雨水条纹会严重降低图像质量并影响现有户外视觉任务的性能。尽管最近基于CNN的derainer已经报道了有希望的表现，但出于两个原因，脱轨仍然是一个悬而未决的问题。首先，就模拟真实雨水特征（例如雨形，方向和强度）而言，现有的合成雨水数据集仅具有有限的真实性。其次，对真实雨水图像进行定量比较没有公共基准，这使得目前的评估不那么客观。核心挑战是无法同时捕获真实世界的雨水清洁图像对。在本文中，我们以两种方式解决单一图像除雨问题。首先，我们提出了一种半自动方法，它结合了时间先验和人工监督，从真实雨水图像的每个输入序列生成高质量的清洁图像。使用这种方法，我们构建了一个大型的29.5K雨雨无图像对的大型数据集，涵盖了广泛的自然雨场景。其次，为了更好地覆盖实际雨水条纹的随机分布，我们提出了一种新颖的SPAtial Attentive Network SPANet，以从局部到全球的方式去除雨水条纹。大量实验表明，我们的网络对最先进的去除方法有利。

Guided Super-Resolution as a Learned Pixel-to-Pixel Transformation
Authors Riccardo de Lutio, Stefano D Aronco, Jan Dirk Wegner, Konrad Schindler
引导超分辨率是几个计算机视觉任务的统一框架，其中输入是一些目标数量的低分辨率源图像，例如，使用飞行时间相机获取的透视深度和来自不同域的高分辨率引导图像，例如灰色来自传统相机的缩放图像和目标输出是我们示例中的高分辨率版本的源，高分辨率深度图。查看该问题的标准方法是将其表述为超分辨率任务，即，将源图像上采样到目标分辨率，同时从指南传送丢失的高频细节。在这里，我们建议将其解释为头部，而不是将其视为指南图像到源图像域的像素到像素的映射。像素方式映射被参数化为多层感知器，其权重通过最小化源图像和下采样目标图像之间的差异来学习。重要的是，我们的公式可以仅规范映射函数，同时避免输出的正规化，从而产生清晰，自然的图像。所提出的方法是无监督的，仅使用特定的源和引导图像来拟合映射。我们在两个不同的任务上评估我们的方法，深度图的超分辨率和树高图。在这两种情况下，我们在定量比较中明显优于最近的基线，同时提供视觉上更清晰的输出。

Semantics Disentangling for Text-to-Image Generation
Authors Guojun Yin, Bin Liu, Lu Sheng, Nenghai Yu, Xiaogang Wang, Jing Shao
从文本描述合成照片真实图像是一个具有挑战性的问题。先前的研究已经显示出所生成图像的视觉质量的显着进步。在本文中，我们考虑输入文本描述中的语义，以帮助渲染照片逼真的图像。然而，不同的语言表达在提取一致语义方面提出了挑战，即使它们描述了同样的事物。为此，我们提出了一种新颖的照片真实文本到图像生成模型，它隐含地解开了语义，以实现高级语义一致性和低级语义多样性。具体而言，我们在鉴别器中设计1个连体机制以学习一致的高级语义，2通过语义条件批量规范化设计视觉语义嵌入策略以找到不同的低级语义。对CUB和MS COCO数据集的广泛实验和消融研究证明了所提出的方法与现有技术方法相比的优越性。

Good News, Everyone! Context driven entity-aware captioning for news images
Authors Ali Furkan Biten, Lluis Gomez, Mar al Rusi ol, Dimosthenis Karatzas
当前的图像字幕系统仅在描述级别执行，基本上枚举场景中的对象及其关系。相反，人类通过整合世界先前知识的几个来源来解释图像。在这项工作中，我们的目标是通过将这些背景信息整合到字幕管道中，更接近于生成提供对场景的合理解释的字幕。为此，我们专注于用于说明新闻文章的图像的字幕。我们提出了一种新颖的字幕方法，该方法能够利用与图像相关联的新闻文章的文本提供的上下文信息。我们的模型能够有选择地从视觉提示引导的文章中提取信息，并动态地将输出字典扩展到出现在上下文源中的词汇命名实体之外。此外，我们介绍了GoodNews，这是文献中最大的新闻图像字幕数据集，并展示了最先进的结果。

Cooperative Embeddings for Instance, Attribute and Category Retrieval
Authors William Thong, Cees G.M. Snoek, Arnold W.M. Smeulders
本文的目标是基于实例，属性和类别相似性概念检索图像。与现有作品（通常仅隔离其中一个实体）不同，我们引入了协作嵌入来集成它们，同时保留其特定级别的语义表示。代数结构定义了一个充满实例的超空间。属性是轴对齐以形成子空间，而类别影响类似实例的排列。这些关系使他们能够合作以实现图像检索的共同利益。我们推导出基于代理的softmax嵌入损失，以同时学习超空间和子空间中的所有相似性度量。我们在来自两个不同域的数据集上评估我们的模型。图像检索任务的实验显示了协作嵌入对于建模多个图像相似性以及发现类别之间和类别内实例的样式演变的好处。

A Dataset for Semantic Segmentation of Point Cloud Sequences
Authors Jens Behley, Martin Garbade, Andres Milioto, Jan Quenzel, Sven Behnke, Cyrill Stachniss, Juergen Gall
语义场景理解对于各种应用程序很重要。特别是，自动驾驶汽车需要对其附近的表面和物体进行细致的理解。光检测和测距LiDAR提供有关环境的精确几何信息，因此是几乎所有自动驾驶汽车的传感器套件的一部分。尽管语义场景理解与此应用程序相关，但缺少基于汽车LiDAR的此任务的大型数据集。

Context and Attribute Grounded Dense Captioning
Authors Guojun Yin, Lu Sheng, Bin Liu, Nenghai Yu, Xiaogang Wang, Jing Shao
密集字幕旨在同时定位语义区域并用自然语言中的短语或句子描述这些感兴趣区域ROI。以前的研究已经显示出了显着的进步，但是它们通常容易受到孔径问题的影响，即由一个ROI内部的特征产生的字幕在输入图像中缺乏与其周围环境的上下文相干性。在这项工作中，我们研究了基于从相邻内容到目标ROI的多尺度消息传播的上下文推理。为此，我们设计了一个新颖的端到端上下文和属性扎根密集字幕框架，包括1个上下文可视化挖掘模块和2个多级属性扎根描述生成模块。知道字幕经常与语言属性（例如谁，什么和何处）共同发生，我们还从层级语言属性中加入辅助监督来增强学习字幕的独特性。对Visual Genome数据集的广泛实验和消融研究证明了所提出的模型与现有技术方法相比的优越性。

Vehicle Re-identification in Aerial Imagery: Dataset and Approach
Authors Peng Wang, Bingliang Jiao, Lu Yang, Yifei Yang, Shizhou Zhang, Wei Wei, Yanning Zhang
在这项工作中，我们构建了一个用于车辆识别ReID的大型数据集，其中包含由无人机安装的摄像机捕获的13k车辆实例的137k图像。据我们所知，它是最大的基于无人机的车辆ReID数据集。为了增加类内变化，每个车辆被不同位置的至少两个UAV捕获，具有不同的视角和飞行高度。我们手动标记各种车辆属性，包括车辆类型，颜色，天窗，保险杠，备用轮胎和行李架。此外，对于每个车辆图像，还需要注释器标记有助于他们将该特定车辆与其他车辆区分开的辨别部分。除了数据集，我们还设计了一个特定的车辆ReID算法，以充分利用丰富的注释信息。它能够明确地检测每个特定车辆的判别部分，并且明显优于所评估的基线和现有技术的车辆ReID接近。

Spontaneous Facial Micro-Expression Recognition using 3D Spatiotemporal Convolutional Neural Networks
Authors Sai Prasanna Teja Reddy, Surya Teja Karri, Shiv Ram Dubey, Snehasis Mukherjee
视频中的面部表情识别是计算机视觉研究的一个活跃领域。然而，即使是人类也难以识别伪造的面部表情。另一方面，面部微观表达通常代表一个人的实际情感，因为它是通过人脸表达的自发反应。尽管为识别微表达式做了一些尝试，但问题仍然远不是一个解决的问题，其由现有技术方法所示的较差的准确率描述。在文献中发现了一些基于CNN的方法来识别来自静止图像的微小面部表情。然而，自发微表达视频包含必须一起处理以编码空间和时间信息的多个帧。本文提出了两种3D CNN方法MicroExpSTCNN和MicroExpFuseNet，通过利用CNN框架中的时空信息进行自发的面部微表情识别。 MicroExpSTCNN考虑完整的空间信息，而MicroExpFuseNet则基于眼睛和嘴部区域的3D CNN特征融合。通过CAS ME 2和SMIC微表达数据库进行实验。提出的MicroExpSTCNN模型优于最先进的方法。

Effective Aesthetics Prediction with Multi-level Spatially Pooled Features
Authors Vlad Hosu, Bastian Goldlucke, Dietmar Saupe
我们提出了一种有效的深度学习方法来进行美学质量评估，该方法依赖于一种新型的预训练特征，并将其应用于AVA数据集，即当前最大的美学数据库。虽然以前的方法错过了原始图像中的一些信息，但由于在训练期间采取了小幅作物，缩小比例或翘曲原稿，我们提出了第一种有效支持全分辨率图像作为输入的方法，并且可以在变量输入上进行训练大小。这使我们能够显着改进现有技术，将基础真实平均意见得分MOS的Spearman等级相关系数SRCC从现有的最佳报告值0.612增加到0.756。为了实现这一性能，我们从训练有素的InceptionResNet v2网络的所有卷积块中提取多级空间池MLSP特征，并在这些新特征上训练自定义浅层卷积神经网络CNN架构。

A Simple