【今日CV 计算机视觉论文速览第120期】Thu, 23 May 2019

最新推荐文章于 2021-06-13 16:45:50 发布

hitrjj

最新推荐文章于 2021-06-13 16:45:50 发布

阅读量1.3k

点赞数

分类专栏：视觉目标检测计算机视觉机器学习深度学习点云三维重建数据集 Papers 文章标签： Computervision Paper

本文链接：https://blog.csdn.net/u014636245/article/details/90484354

版权

Papers 同时被 3 个专栏收录

458 篇文章 102 订阅

订阅专栏

计算机视觉

379 篇文章 72 订阅

订阅专栏

视觉

286 篇文章 54 订阅

订阅专栏

今日CS.CV 计算机视觉论文速览
Thu, 23 May 2019
Totally 36 papers
?上期速览✈更多精彩请移步主页

在这里插入图片描述

Interesting:

?PEPSI++快速轻量级图像修复模型, 为了减小生成对抗网络对于图像修复的巨大计算量，研究人员提出了一种并行拓展路径编码器用于语义图像修复(parallel extended-decoder path
for semantic inpainting，PEPSI)，不仅减小了硬件开销，同时提高了修复效果。(from 高丽大学)
模型中包含了粗解码路径和图像修复两条路径。
在这里插入图片描述
修图路径利用上下文注意力模块（contextual attention module CAM)得到高质量的特征重建，研究人员同时还提出了Diet-PEPSI减小了网络参数。以及用来寻找图像中空洞的RED(region ensemble discriminator)：

减小参数量的DPU:
在这里插入图片描述

一些结果：
在这里插入图片描述

?基于平面的高效几何及纹理优化用于室内RGBD重建, 基于粗糙的mesh重建，随后建立清晰面问题和锐利特征的轻量级的低多边形mesh来表示，基于[16]的方法为位置平面纹理和几何优化增加了线约束。(from 德克萨斯达拉斯分校)
在这里插入图片描述
code:https://github.com/chaowang15/plane-opt-rgbd
ref:Plane-based optimization of geometry and texture for rgb-d reconstruction of indoor scenes

?红外图像的多模态目标检测, (from Indian Institute of Technology, Hyderabad)
在这里插入图片描述
dataset:FLIR ADAS[13] dataset

?UDAE基于Unet的水下图像颜色纠正, (from 夫琅禾费研究所德国)
网络架构如下：
在这里插入图片描述
效果如下：

?基于随机游走算法的种子学习用于图像分割, 利用CNN从隐含图中预测边缘权重，可以被视为学习到了上下文相关的线性扩散过程，并提出了简单的稀疏梯度采样过程。(from 德国海德堡大学)
在这里插入图片描述
得到结果：

code:https://github.com/hci-unihd/pytorch-LearnedRandomWalker
dataset:https://cremi.org/leaderboard/ https://cremi.org/

?Oculum afficit人眼情感数据集, (from 伊利诺伊大学)
在这里插入图片描述

Daily Computer Vision Papers

Data-Efficient Image Recognition with Contrastive Predictive Coding
Authors Olivier J. H naff, Ali Razavi, Carl Doersch, S. M. Ali Eslami, Aaron van den Oord
当标记图像丰富时，大规模深度学习表现优异，但数据有效学习仍然是一项长期挑战。虽然生物视觉被认为利用大量未标记的数据来解决有限监督下的分类问题，但计算机视觉迄今尚未在这种半监督制度中取得成功。我们的工作通过对比度预测编码解决了这一挑战，这是一种无监督的物体，可以从静止图像中提取稳定的结构。结果是一个表示，配备一个简单的线性分类器，比所有竞争方法更好地分离ImageNet类别，并超过完全监督的AlexNet模型的性能。当给出少量标记图像时，每个类别少至13个，这种表示保留了强大的分类性能，超过了现有技术半监督方法的10个前5个准确度和监督方法20个。最后，我们发现我们的无监督表示作为PASCAL VOC 2007数据集上图像检测的有用基质，接近使用完全注释的ImageNet数据集训练的表示的性能。我们希望这些结果能够打开通向管道的大门，这些管道使用可扩展的无监督表示作为标记稀缺的真实世界视觉任务的监督替代。

Bridging Stereo Matching and Optical Flow via Spatiotemporal Correspondence
Authors Hsueh Ying Lai, Yi Hsuan Tsai, Wei Chen Chiu
立体匹配和流量估计是场景理解的两个基本任务，空间3D和时间运动。由于获得大规模地面实况数据的资源有限，现有方法已经集中在无监督设置上。为了构建一个可自学的目标，共同相关的任务通常被链接在一起以形成一个联合框架。然而，先前的工作通常对每个任务使用独立的网络，因此不允许跨模型学习共享的特征表示。在本文中，我们提出了一个单一的原理网络，共同学习立体匹配和流量估计的时空对应，新设计的几何连接作为时间上相邻的立体对的无监督信号。我们表明，对于KITTI基准数据集的无监督深度和流量估计，我们的方法对几种最先进的基线表现良好。

Dual Active Sampling on Batch-Incremental Active Learning
Authors Johan Phan, Massimiliano Ruocco, Francesco Scibilia
最近，卷积神经网络CNN在计算机视觉领域取得了前所未有的成功，特别是在依靠通用方法挑战图像分类任务时，即在监督示例的大量数据集上训练深度模型。虽然未标记的数据通常是丰富的资源，但另一方面，收集大量标记数据非常昂贵，这通常需要相当大的人力。缓解这种情况的一种方法是从未标记数据池中有效地选择和标记高信息量的实例，即主动学习。本文提出了一种基于简单假设的批量模式主动学习，双主动采样DAS的新方法，如果相同结构的两个深度神经网络DNN在相同数据集上训练，给出给定样本的输出显着不同，然后应选择该特定样本进行额外培训。虽然该领域中的其他现有技术方法通常需要强大的计算能力或依赖于复杂的结构，但是DAS更容易实现，并且设法在Cifar 10上获得改进的结果，与核心集方法相比具有更好的计算时间。

Oculum afficit: Ocular Affect Recognition
Authors Elmar Langholz
认识到人类的情感和情感是一个在学术界和工业界都有广泛应用的问题。计算机视觉中的影响和情感识别主要依赖于面部图像。随着便携式设备的普及，例如智能手机和智能眼镜，获取用户面部图像需要专注，时间和精确度。虽然现有系统对于正面正面很有效，但是在使用时，它们往往不能像部件面部那样很好地工作。因此，我们提出了一种方法，通过观察个体的眼部区域，我们可以准确地推断出一个人的整体情感。

Separating Overlapping Tissue Layers from Microscopy Images
Authors Zahra Montazeri, Gopi M
用于显微镜成像的组织切片的手动制备可以引入组织撕裂和重叠。通常，诸如来自组织图像堆叠的配准和3D重建的其他数字处理算法不能处理具有组织撕裂重叠伪像的图像，因此通常丢弃这样的图像。在本文中，我们提出了一种成像模型和算法，将小鼠脑图像的重叠组织数据数字化分成两层。我们通过比较我们的结果和基本事实来证明我们的模型和算法的正确性。

WPU-Net:Boundary learning by using weighted propagation in convolution network
Authors Boyuan Ma, Chuni Liu, Xiaoyan Wei, Mingfei Gao, Xiaojuan Ban, Hao Wang, Haiyou Huang, Weihua Xue
深度学习推动了自然和生物图像处理的巨大进步。然而，在材料科学和工程中，复杂的样品制备引起的材料显微图像经常存在一些缺陷和不确定性，即使是由于材料本身，也阻碍了目标物体的检测。在这项工作中，我们提出了WPU网络，重新设计U Net的体系结构和加权损失，迫使网络整合来自相邻切片的信息，并更加关注该边界检测任务中的拓扑。然后，将WPU网应用于典型的材料实例，即多晶材料的晶界检测。实验证明，与现有技术方法相比，所提出的方法实现了有希望的性能。此外，我们提出了一种新的相邻切片之间的目标跟踪方法，可以有效地重建整个材料的三维结构，同时保持相对准确性。

Segmentation-Aware Hyperspectral Image Classification
Authors Berkan Demirel, Omer Ozdil, Yunus Emre Esin, Safak Ozturk
在本文中，我们提出了一种统一的高光谱图像分类方法，该方法以三维高光谱数据立方体作为输入并产生分类图。在所提出的方法中，一起使用将光谱和空间信息与残余连接一起使用的深度神经网络和基于像素亲和度网络的分割感知超像素。在该体系结构中，分段感知超像素在深度残差网络的初始分类图上运行，并对获得的结果应用多数表决。实验结果表明，我们的预测方法在两个基准数据集中产生了最先进的结果。此外，我们还表明，在训练数据不足的情况下，分割感知超像素对高光谱图像分类方法的成功有很大贡献。

Multi-View Large-Scale Bundle Adjustment Method for High-Resolution Satellite Images
Authors Xu Huang, Rongjun Qin
给定足够的多视图图像对应点也称为连接点和地面控制点GCP，用于高分辨率卫星图像的束调整用于在统一的大地测量框架中细化每个卫星图像的方向或最常用的几何参数Rational Polynomial Coefficients RPC，这在许多摄影测量和计算机视觉应用中非常关键。然而，越来越多的高分辨率星载光学传感器给光束调整带来了两个挑战。来自不同卫星相机的图像可能具有不同的成像日期，视角，分辨率等，从而导致光束中的几何和辐射失真。调整2大比例映射区域始终对应于大量的束调整校正，包括RPC偏差和对象空间点坐标。由于计算机内存的限制，很难同时完善所有修正。因此，如何有效地实现大规模区域中的束调整非常重要。本文特别针对多视图大规模束调整问题，通过两步1得到不同卫星图像之间的鲁棒连接点，设计了一种基于平面校正和极线约束的多视点，多源连接点匹配算法，能够补偿卫星数据集之间的几何和局部非线性辐射失真，以及2在大规模束调整中解决数十万甚至数百万个变量束调整校正，我们使用只有少量计算机存储器的有效解决方案。在轨道和轨道外卫星数据集上的实验表明，所提出的方法能够计算子像素精度束调整结果。

Using Orthophoto for Building Boundary Sharpening in the Digital Surface Model
Authors Xiaohu Lu, Rongjun Qin, Xu Huang
如今，密集立体匹配已经成为城市地区三维重建的主要工具之一，因为它在生成密集的3D点时具有低成本和高灵活性。然而，现有技术的立体匹配算法通常应用半全局匹配SGM策略。该策略通常假设表面几何形状是平面的，其中施加平滑的惩罚以处理非纹理或重复纹理区域。这一方面产生了很多光滑的表面模型，而另一方面，可能部分地导致深度不连续的平滑，特别是对于栅栏形区域或具有狭窄街道的密集建筑区域。为了解决这个问题，在这项工作中，我们建议使用从相应的正射影像中提取的线段信息作为姿势处理工具来锐化由SGM生成的数字表面模型DSM的建筑物边界。提出并比较了两种基于图切割和平面拟合的方法。几个具有基础事实的卫星数据集的实验结果表明了所提出的DSM锐化方法的鲁棒性和有效性。

A Comparison of Stereo-Matching Cost between Convolutional Neural Network and Census for Satellite Images
Authors Bihe Chen, Rongjun Qin, Xu Huang, Shuang Song, Xiaohu Lu
立体密集图像匹配可以根据其匹配成本度量被分类为基于低级特征的匹配和基于深度特征的匹配。人口普查已被证明是最有效的基于特征的低级特征匹配方法之一，而快速卷积神经网络fst CNN作为一种基于深度特征的方法，具有较小的计算时间并且对于卫星图像具有鲁棒性。因此，fst CNN和人口普查之间的比较对于立体密集图像匹配的进一步研究是至关重要的。本文利用fst CNN和人口普查的成本函数进行立体匹配，然后利用半全局匹配方法获得优化的视差图像。这些图像用于生成数字表面模型，以与地面真实点进行比较。它解决了fstCNN在绝对匹配精度，误差分布直方图和匹配完整性方面比人口普查表现更好的问题，但这两种算法仍然在相同的数量级上执行。

A Comprehensive Study of ImageNet Pre-Training for Historical Document Image Analysis
Authors Linda Studer, Michele Alberti, Vinaychandran Pondenkandath, Pinar Goktepe, Thomas Kolonko, Andreas Fischer, Marcus Liwicki, Rolf Ingold
扫描的历史文档的自动分析包括广泛的图像分析任务，由于缺乏人类注释的学习样本，这些任务通常对于机器学习具有挑战性。随着深度神经网络的出现，应对缺乏训练数据的有希望的方法是预先训练来自不同领域的图像上的模型，然后在历史文档上微调它们。在当前的研究中，这种跨域转移学习的典型示例是使用已在ImageNet数据库上预先训练用于对象识别的神经网络。这个预训练是否有助于分析历史文档，这与ImageNet相比具有根本不同的图像属性，这仍然是一个绝对悬而未决的问题。在本文中，我们对ImageNet预训练对各种历史文档分析任务的影响进行了全面的实证调查，包括字符识别，样式分类，手稿约会，语义分割和基于内容的检索。虽然我们在像素级获得了语义分割的混合结果，但我们观察到不同网络架构的明显趋势，即ImageNet预训练对分类以及基于内容的检索具有积极影响。

Automated Segmentation for Hyperdense Middle Cerebral Artery Sign of Acute Ischemic Stroke on Non-Contrast CT Images
Authors Jia You, Philip L.H. Yu, Anderson C.O. Tsang, Eva L.H. Tsui, Pauline P.S. Woo, Gilberto K.K. Leung
已报道高密度大脑中动脉MCA点征是由于大血管闭塞导致的急性缺血性中风诊断的重要因素。解释这些患者的初始CT脑部扫描需要高水平的专业知识，并且具有较高的观察者间差异性。对紧急CT脑图像进行自动计算机化解释，重点是发现缺血性中风的早期征兆，这将有助于早期患者诊断，分诊，并缩短这些患者血运重建时间的大门。在本文中，我们提出了一种基于强大的深度学习技术在非对比CT脑图像扫描上分割MCA点标志的自动检测方法。

End-to-End Learned Random Walker for Seeded Image Segmentation
Authors Lorenzo Cerrone, Alexander Zeilmann, Fred A. Hamprecht
我们提出了一种用于种子分割的端到端学习算法。我们的方法基于Random Walker算法，我们使用卷积神经网络预测基础图的边缘权重。这可以被解释为线性扩散过程的学习上下文相关的扩散性。除了计算用于优化这些扩散的精确梯度之外，我们还提出了对梯度进行稀疏采样并仍然产生有竞争力结果的简化。所提出的方法在CREMI神经元分割挑战的种子版本上实现了当前最佳结果。

Robust Motion Segmentation from Pairwise Matches
Authors Federica Arrigoni, Tomas Pajdla
在本文中，我们解决了以前没有考虑过的分类问题，即仅给出成对匹配的运动分割。我们对这一未开发的任务的贡献是一个新的运动分割公式，作为一个两步过程。首先，独立地对图像对执行运动分割。其次，我们将独立的成对分割结果以稳健的方式结合到最终的全局一致分割中。我们的方法受到平均方法成功的启发。我们在模拟和实际实验中证明，我们的方法在减少成对运动分割中的误差方面非常有效，并且可以应对大量的不匹配。

What Would You Expect? Anticipating Egocentric Actions with Rolling-Unrolling LSTMs and Modality Attention
Authors Antonino Furnari, Giovanni Maria Farinella
以自我为中心的行动预期包括了解相机佩戴者在不久的将来将与哪些物体互动以及他们将执行哪些行动。我们解决了一个问题，提出了一个能够使用两个LSTM来预测过去的多个时间尺度的行为的架构，以及2个关于未来的预测。考虑三种互补模态外观RGB，运动光流和基于对象对象的特征来处理输入视频。使用新颖的Modality ATTention MATT机制融合模态特定预测，该机制学习以自适应方式权衡模态。对两个大型基准数据集的广泛评估表明，我们的方法在具有挑战性的EPIC KITCHENS数据集（包括超过2500个动作）上优于现有技术多达7个，并推广到EGTEA Gaze。我们的方法也被证明可以概括为早期行动识别和行动识别的任务。在提交时，我们的方法在EPIC KITCHENS自我中心行动预期挑战的排行榜中排名第一。

Spatial Sampling Network for Fast Scene Understanding
Authors Davide Mazzini, Raimondo Schettini
我们提出了一种网络架构来执行有效的场景理解。这项工作提出了三个主要的新颖性，第一个是改进的引导上采样模块，可以替代普通语义分割网络中的解码器部分。我们的第二个贡献是引入基于空间采样的新模块来执行实例分割。它提供了非常快速的实例分段，在推理时只需要阈值处理作为后处理步骤。最后，我们提出了一种新颖的高效网络设计，包括新模块，并针对不同的数据集进行测试，以便进行室外场景理解。据我们所知，我们的网络是迄今为止发布的最有效的场景理解架构之一，而且比语义分段中最快的竞争者更准确8.6，并且比最有效的网络实例分割快近五倍。

PEPSI++: Fast and Lightweight Network for Image Inpainting
Authors Yong Goo Shin, Min Cheol Sagong, Yoon Jae Yeo, Seung Wook Kim, Sung Jea Ko
基于生成对抗网络GAN的图像修复方法利用具有上下文关注模块CAM的粗到精网络已经显示出显着的性能。然而，由于两个堆叠的生成网络，它们需要许多计算资源，例如卷积运算和网络参数，这导致低速。为了解决这个问题，我们提出了一种新的网络结构，称为PEPSI并行扩展解码器路径，用于语义修复网络，不仅可以降低硬件成本，还可以提高修复性能。 PEPSI由单个共享编码网络和具有粗略和修复路径的并行解码网络组成。粗略路径生成初步修复结果以训练编码网络以预测CAM的特征。同时，通过使用CAM重建的精细特征，修复路径导致更高的修复质量。此外，我们提出了一种Diet PEPSI，它可以在保持性能的同时显着降低网络参数。在所提出的方法中，我们提出了Diet PEPSI单元DPU，其利用少量参数有效地聚合全局上下文信息。广泛的实验和与现有技术的图像修复方法的比较表明，PEPSI和Diet PEPSI都在定性评分和降低的计算成本方面取得了显着的改进。

Underwater Color Restoration Using U-Net Denoising Autoencoder
Authors Yousif Hashisho, Mohamad Albadawi, Tom Krause, Uwe Freiherr von Lukas
用车辆目视检查水下结构，例如遥控车辆ROV在科学，军事和商业领域发挥着重要作用。然而，使用软件工具自动提取信息受到水的特性的阻碍，这降低了捕获的视频的质量。作为恢复水下图像颜色的贡献，使用具有U Net架构的去噪自动编码器开发了Underwater Denoising Autoencoder UDAE模型。所提出的网络考虑了使用端到端自动编码器网络实现水下视觉任务的实时实现的准确性和计算成本。通过重建捕获的帧来改善水下车辆的感知，从而在水下任务中获得更好的性能。相关的学习方法使用生成对抗网络GAN来生成色彩校正的水下图像，据我们所知，本文是第一个处理能够产生相同或更好结果的自动编码器的论文。此外，构建图像对用于训练所提出的网络，其中很难从水下景观获得这样的数据集。最后，将所提出的模型与现有技术方法进行比较。

Attributes Guided Feature Learning for Vehicle Re-identification
Authors Aihua Zheng, Xianmin Lin, Chenglong Li, Ran He, Jin Tang
最近，Vehicle Re ID因其在智能城市和城市监控领域的潜在应用而备受关注。然而，它遭受由视图变化和照明变化引起的大的类内变化，以及类间相似性，特别是对于具有相似外观的不同身份。为了解决这些问题，在本文中，我们提出了一种新颖的深度网络架构，该架构由有意义的属性引导，包括摄像机视图，车辆类型和车辆Re ID的颜色。特别是，我们的网络是端对端训练的，并且包含由相应属性嵌入的三个深度特征子网，即摄像机视图，车辆类型和车辆颜色。此外，为了克服不同视图的有限车辆图像的缺点，我们设计了一个指定生成对抗网络的视图来生成多视图车辆图像。对于网络培训，我们在VeRi 776数据集上注释视图标签。注意，可以直接采用预训练视图以及仅具有ID信息的其他数据集上的类型和颜色子网，这证明了我们模型的推广。基准数据集VeRi 776和VehicleID的广泛实验表明，所提出的方法实现了有前景的性能并且产生了车辆Re ID的新技术水平。

LapTool-Net: A Contextual Detector of Surgical Tools in Laparoscopic Videos Based on Recurrent Convolutional Neural Networks
Authors Babak Namazi, Ganesh Sankaranarayanan, Venkat Devarajan
我们提出了一种新的多标记分类器，称为LapTool Net，用于检测腹腔镜视频每帧中手术工具的存在。 LapTool Net的新颖之处在于利用不同工具的使用，工具和任务，即工具使用的上下文之间的相互关系。为实现这一目标，工具共同出现的模式被用于设计基于递归卷积神经网络RCNN架构的多标签分类器的决策策略，以同时提取空间时间特征。与先前的多标签分类方法相反，使用多任务学习方案以端对端方式训练RCNN和决策模型。为了克服高不平衡并避免由于训练数据缺乏多样性而导致的过度拟合，基于更频繁的组合选择高的下采样率。此外，在后处理步骤，通过设计双向RNN来对视频的所有帧的预测进行校正，以对长期任务的顺序进行建模。 LapTool网使用公开的腹腔镜胆囊切除术数据集进行训练。结果表明，即使使用较少的训练样本和较浅的架构，LapTool Net也能显着优于现有方法。

Segmentation-Aware Image Denoising without Knowing True Segmentation
Authors Sicheng Wang, Bihan Wen, Junru Wu, Dacheng Tao, Zhangyang Wang
最近的几项工作讨论了应用驱动的图像恢复神经网络，它不仅能够去除图像中的噪声，而且能够保留它们的语义感知细节，使它们适合作为预处理步骤的各种高级计算机视觉任务。然而，这些方法需要额外注释用于其高级视觉任务，以便使用混合损失训练联合管道。这些注释的可用性通常仅限于少数图像集，这可能限制了这些方法对更加看不见和未注释的图像进行去噪的一般适用性。受此启发，我们提出了一种基于具有像素明确不确定性损失的新型无监督方法的称为U SAID的分割感知图像去噪模型。 U SAID不需要任何地面实况分割图，因此可以应用于任何图像数据集。它生成具有可比较甚至更好质量的去噪图像，并且与其监督对应或经典应用无关的去噪器相比，去噪结果显示出对后续语义分割任务更强的鲁棒性。此外，我们通过插入其通用降噪器而不进行微调来证明U SAID具有三倍的优越性，通过将1个去噪看不见的图像2去噪作为用于分割看不见的噪声图像的预处理和用于看不见的高级任务的3个去噪。大量实验证明了所提出的U SAID相对于各种流行图像集的有效性，鲁棒性和普遍性。

Domain Adaptation for Vehicle Detection from Bird's Eye View LiDAR Point Cloud Data
Authors Khaled Saleh, Ahmed Abobakr, Mohammed Attia, Julie Iskander, Darius Nahavandi, Mohammed Hossny
来自3D LiDAR传感器的点云数据是多功能安全关键应用（如自动驾驶车辆）最重要的传感器模式之一。由于点云数据的注释是一个昂贵且耗时的过程，因此最近为此任务利用模拟环境和3D LiDAR传感器开始变得流行。通过模拟传感器和环境，获得带注释的合成点云数据的过程变得更加容易。然而，生成的合成点云数据仍然缺少通常存在于来自真实3D LiDAR传感器的点云数据中的假象。结果，由于模拟和真实环境之间的域移位，在实际点云数据上测试时，用于感知任务的训练模型对该数据的性能降低。因此，在这项工作中，我们提出了一个域适应框架，用于弥合合成和实际点云数据之间的这种差距。我们提出的框架基于深循环一致的生成对抗网络CycleGAN架构。我们已经从鸟瞰图中评估了我们提出的车辆检测任务框架的性能。来自真实3D LiDAR传感器的BEV点云图像。该框架显示了竞争结果，当在真实BEV点云图像上进行测试时，其平均精度得分比其他基线方法提高了7倍以上。

Learning Fully Dense Neural Networks for Image Semantic Segmentation
Authors Mingmin Zhen, Jinglu Wang, Lei Zhou, Tian Fang, Long Quan
语义分割是像素分类，其保留关键的空间信息。在基于CNN的方法中通常采用特征映射重用，以利用早期层中的特征映射用于稍后的空间重建。沿着这个方向，我们更进一步，提出一个完全密集的神经网络，其编码器解码器结构我们缩写为FDNet。对于解码器模块中的每个阶段，自适应地聚合所有先前块的特征映射以作为输入前馈。一方面，它准确地重建了空间边界。另一方面，它通过更有效的梯度反向传播更有效地学习。此外，我们提出了边界感知损失函数，以更多地关注边界附近的像素，这增强了硬标签的标签。我们已经在两个基准数据集PASCAL VOC 2012，NYUDv2上展示了FDNet的最佳性能，而不考虑其他数据集的培训。

A Neural-Symbolic Architecture for Inverse Graphics Improved by Lifelong Meta-Learning
Authors Michael Kissner, Helmut Mayer
我们遵循将视觉公式化为逆图形的想法，并为此任务提出一种新类型的元素，即神经符号囊。它能够将场景渲染为语义信息前馈，以及渲染它向后反馈。用于图形基元的初始胶囊组从生成语法获得并连接到完整的胶囊网络中。终身元学习通过使用少量镜头学习为场景中检测到的新的和更复杂的对象添加胶囊，不断提高网络的检测能力。初步结果证明了我们新方法的潜力。

Looking to Relations for Future Trajectory Forecast
Authors Chiho Choi, Behzad Dariush
推断道路使用者以及道路使用者及其周围物理空间之间的关系行为是朝向道路场景参与者采用的导航策略的有效建模和预测的重要一步。为此，我们提出了一个用于未来轨迹预测的关系感知框架。我们的系统旨在从道路使用者之间以及与环境的相互作用中推断出关系信息。第一个模块涉及空间时间特征的可视编码，其捕获人类人类和人类空间随时间的相互作用。以下模块明确地构建了来自时空交互的成对关系，并通过考虑其过去的轨迹来识别对目标道路使用者的未来运动具有高度影响的更具描述性的关系。得到的关系特征用于以热图的形式预测目标的未来位置，其具有空间依赖性的额外指导和对不确定性的考虑。对公共基准数据集的广泛评估表明，通过高于现有技术方法的性能观察到所提出的框架的稳健性和有效性。

Efficient Plane-Based Optimization of Geometry and Texture for Indoor RGB-D Reconstruction
Authors Chao Wang, Xiaohu Guo
我们提出了一种基于平面基元重建RGB D室内场景的新方法。我们的方法将RGB D序列和从其重建的密集粗网格作为输入，并生成具有清晰面部纹理和清晰特征的轻量级，低多边形网格，而不会丢失原始场景中的几何细节。与仅覆盖场景中的大平面区域的现有方法相比，我们的方法通过自适应平面构建整个场景而不丢失几何细节并且还保留网格中的尖锐特征。实验表明，我们的方法从RGB D数据生成纹理网格比现有技术更有效。

Semi-Supervised Learning with Scarce Annotations
Authors Sylvestre Alvise Rebuffi, Sebastien Ehrhardt, Kai Han, Andrea Vedaldi, Andrew Zisserman
虽然半监督学习SSL算法提供了使用标记和未标记数据的有效方式，但是当注释样本的数量非常小时，它们通常会很困难。在这项工作中，我们考虑使用很少标记实例的SSL多类分类问题。我们介绍两个关键的想法。第一个是简单但有效的一个，我们利用不同任务和自我监督之间的转移学习的力量来初始化数据的良好表示而不使用任何标签。第二个想法是一种新的SSL算法，可以很好地利用这种预先训练的表示。

Joint Object and State Recognition using Language Knowledge
Authors Ahmad Babaeian Jelodar, Yu Sun
对象的状态是机器人应用中的重要知识。状态和对象交织在一起，这意味着对象信息可以帮助识别图像的状态，反之亦然。本文讨论了烹饪相关图像中的状态识别问题，并一起使用状态和对象预测来从单个图像中提高对象及其状态的分类准确度。本文介绍的管道包括一个带有双重分类层的CNN和顶部的Concept Net语言知识图。语言知识在对象和状态之间创建语义可能性。来自深层体系结构的结果对象和状态置信度与来自语言知识图的对象和状态相关性估计一起使用以产生对象和状态的边际概率。将对象或状态的边际概率和置信度融合在一起以改进最终对象或状态分类结果。对烹饪对象数据集的实验表明，在深度神经网络上使用语言知识图有效地增强了对象和状态分类。

Borrow from Anywhere: Pseudo Multi-modal Object Detection in Thermal Imagery
Authors Chaitanya Devaguptapu, Ninad Akolekar, Manuj M Sharma, Vineeth N Balasubramanian
我们可以通过借用视觉RGB等丰富域中的特征来改善热域中的检测。在本文中，我们提出了一种在自然图像域数据上训练的伪多模态物体检测器，以帮助提高热图像中物体检测的性能。我们假设在可视RGB域中访问大规模数据集，并且就热域中的实例而言，相对较小的数据集，如今常见。我们建议使用众所周知的图像到图像转换框架以生成给定热图像的伪RGB等效物，然后使用多模态结构用于热图像中的物体检测。我们表明，我们的框架优于现有的基准测试，而不需要明确需要来自这两个领域的配对培训示例。我们还表明，在使用我们的方法时，我们的框架能够使用来自热域的更少数据进行学习。

Fine-grained Optimization of Deep Neural Networks
Authors Mete Ozay
在最近的研究中，理论上导出了深度神经网络DNN上的泛化误差的几个渐近上界。这些边界是DNN的若干权重范数的函数，例如Frobenius和频谱范数，并且它们是根据DNN的输入和输出信道分组的权重来计算的。在这项工作中，我们推测如果我们可以对DNN的权重施加多个约束以使权重范数上限，并用这些权重训练DNN，那么我们就可以获得更接近推导出的理论界限的经验推广误差，并改进DNN的准确性。

Beyond Alternating Updates for Matrix Factorization with Inertial Bregman Proximal Gradient Algorithms
Authors Mahesh Chandra Mukkamala, Peter Ochs
矩阵分解是一种流行的非凸目标，主要使用交替最小化方案。它们通常遭受主要缺点，即解决方案偏向于优化变量之一。补救措施是非交替方案。然而，由于矩阵分解问题中梯度缺乏Lipschitz连续性，无法保证收敛。最近开发的补救措施依赖于Bregman距离的概念，该概念推广了标准的欧几里德距离。我们通过为矩阵分解问题提出一种新的Bregman距离来利用这一理论，同时允许简单的闭合形式更新步骤。因此，对于非交替方案，例如最近引入的Bregman近似梯度BPG方法和惯性变量Convex Concave Inertial BPG CoCaIn BPG，证明了矩阵分解的整个序列与静止点的收敛。在几个实验中，我们观察到非交替方案在极限点的速度和目标值方面的优越性能。

Joint Information Preservation for Heterogeneous Domain Adaptation
Authors Peng Xu, Zhaohong Deng, Kup Sze Choi, Jun Wang, Shitong Wang
域适应旨在通过源域的知识来协助目标域的建模任务。由于各种数据收集方法，这两个域通常位于不同的特征空间中，这导致异构域自适应HDA的更具挑战性的任务。 HDA的核心问题是如何在适应期间保留原始数据的信息。在本文中，我们提出了一种联合信息保存方法来处理这个问题。该方法从两个方面保留原始数据的信息。一方面，虽然配对样本通常存在于HDA的两个域之间，但是当前的算法没有充分利用这些信息。所提出的方法通过最大化共享子空间中的配对样本的相关性来保留配对信息。另一方面，所提出的方法改进了保留原始数据的结构信息的策略，其中同时保留局部和全局结构信息。最后，通过分布匹配来整合联合信息保存。实验结果表明，该方法优于现有的HDA算法。

Automated Pupillary Light Reflex Test on a Portable Platform
Authors Dogancan Temel, Melvin J. Mathew, Ghassan AlRegib, Yousuf M. Khalifa
在本文中，我们介绍了一种在耳机上表示为实验室的便携式眼睛成像设备，它可以自动执行摆动手电筒测试。我们在临床研究中利用该装置获得了高分辨率的眼睛记录，同时它们暴露于不同的光刺激下。一半的参与者有相对传入的瞳孔缺陷RAPD，而另一半是对照组。在阳性RAPD的情况下，当光刺激从未受影响的眼睛摆动到受影响的眼睛时，患者的瞳孔收缩较少或不收缩。为了自动诊断RAPD，我们提出了一种基于瞳孔定位，瞳孔大小测量以及光反射测试期间右眼和左眼的瞳孔大小比较的算法。我们验证了从22个受试者获得的数据集的算法性能，并表明所提出的算法可以达到93.8的灵敏度和87.5的特异性。

DoPa: A Fast and Comprehensive CNN Defense Methodology against Physical Adversarial Attacks
Authors Zirui Xu, Fuxun Yu, Xiang Chen
最近，卷积神经网络CNN显示出对抗性攻击的相当大的脆弱性，这种攻击很容易受到对抗性扰动的误导。通过提出更具侵略性的方法，对抗性攻击也可以应用于物理世界，从而给各种CNN供电的应用程序带来实际问题。大多数用于物理对抗性攻击的现有防御工作仅侧重于从输入中消除显式扰动模式，忽略对CNN固有漏洞的解释和解决方案。因此，它们中的大多数依赖于相当大的数据处理成本，并且缺乏对不同攻击的预期多功能性。在本文中，我们建议DoPa采用快速而全面的CNN防御方法来对抗物理对抗性攻击。通过解释CNN的漏洞，我们发现非语义对抗性扰动可以激活具有显着异常激活的CNN，甚至压倒其他语义输入模式激活。我们通过添加自我验证阶段来改进CNN识别过程，以分析仅涉及一个CNN推断的区别激活模式的语义。根据检测结果，我们进一步提出了一种数据恢复方法来防御物理对抗性攻击。我们将这种检测和防御方法应用于图像和音频CNN识别过程。实验表明，我们的方法可以实现攻击检测的平均成功率90次，以及图像物理对抗性攻击的81次准确率恢复。此外，所提出的防御方法可以实现音频识别应用的92检测成功率和77.5准确度恢复。此外，与现有技术的防御方法相比，所提出的防御方法最多快2.3倍，使得它们对于资源受限的平台（例如移动设备）是可行的。

Large-scale Distance Metric Learning with Uncertainty
Authors Qi Qian, Jiasheng Tang, Hao Li, Shenghuo Zhu, Rong Jin
距离度量学习DML在过去几十年中因其基于距离的算法的卓越性能而得到了广泛的研究。大多数现有方法建议学习具有成对或三重约束的距离度量。然而，约束的数量在原始示例的数量中是二次的或甚至是立方的，这使得DML处理大规模数据集具有挑战性。此外，现实世界数据可能包含各种不确定性，尤其是对于图像数据。不确定性会误导学习过程并导致性能下降。通过调查图像数据，我们发现原始数据可以从一小组具有不同失真的清洁潜在实例中观察到。在这项工作中，我们提出了边缘保留度量学习框架，以同时学习距离度量和潜在的例子。通过利用潜在示例的理想特性，可以显着提高训练效率，同时学习的度量对于原始数据中的不确定性也变得稳健。此外，我们可以证明该度量仅从潜在示例中学习，但即使对于原始数据，它也可以保留大边距属性。对基准图像数据集的实证研究证明了该方法的有效性和有效性。

Robust Optimization over Multiple Domains
Authors Qi Qian, Shenghuo Zhu, Jiasheng Tang, Rong Jin, Baigui Sun, Hao Li
在这项工作中，我们研究了为多个域学习单个模型的问题。与传统的机器学习场景不同，其中每个域可以具有相应的模型，由于云计算服务中的维护负载，多个域即应用程序用户可以共享相同的机器学习模型。例如，数字识别模型应该适用于手写数字，门牌号，车牌等。因此，云计算的理想模型必须在每个适用的领域都表现良好。为了应对云计算带来的这一新挑战，我们开发了一个针对多个域的稳健优化框架。为了最大限度地减少经验风险，我们的目标是学习一个针对多个领域的对抗分布进行优化的模型。因此，我们建议与随机算法同时学习模型和对抗分布以提高效率。从理论上讲，我们分析了凸模型和非凸模型的收敛速度。据我们所知，我们首先研究用实用算法学习鲁棒非凸模型的收敛速度。此外，我们证明了框架的稳健性和收敛率可以通过适当的正规分子进一步增强对抗分布。对现实世界细粒度视觉分类和数字识别任务的实证研究验证了所提框架的有效性和有效性。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

在这里插入图片描述
pic from pexels.com