【今日CV 计算机视觉论文速览第116期】Mon, 13 May 2019

最新推荐文章于 2024-03-26 10:47:37 发布

hitrjj

最新推荐文章于 2024-03-26 10:47:37 发布

阅读量1.5k

点赞数 1

分类专栏：视觉目标检测计算机视觉深度学习点云文章标签： Computervision Papers

本文链接：https://blog.csdn.net/u014636245/article/details/90182952

版权

计算机视觉同时被 3 个专栏收录

379 篇文章 72 订阅

订阅专栏

视觉

286 篇文章 54 订阅

订阅专栏

深度学习

261 篇文章 13 订阅

订阅专栏

今日CS.CV 计算机视觉论文速览
Mon, 13 May 2019
Totally 40 papers
?上期速览✈更多精彩请移步主页

在这里插入图片描述

Interesting:

?T-Net新的编码器解码器架构，新提出的编码器解码器架构可以有效克服U-Net编解码器间只能有单支衔接的限制。在编码/解码过程中同时处理了池化和上采样，使得不同尺寸的特征图可以在单一block中获取。 (from KAIST)
在这里插入图片描述
T-Net 3/5结构比较：

一种优化过的结构：

?设备自适应的高效卷积设计, 自动的为移动端设备设计高精度低延时的网络，提出了单支路的神经架构搜索模型。新提出的架构可以在4小时内完成搜索，包括新的单支路搜索方法，利用共享卷积核参数将冗余参数化的卷积编码全部的架构决策空间，提高了搜索效率（5000x），实现了高精度。(from CMU，Joint Workshop on On-Device Machine Learning & Compact Deep Neural Network Representations ODML-CDNNR 2019. ICML 2019 Workshop.)
在这里插入图片描述
类似mobileNet的搜索空间，对应可搜索的超级kernel：

code:https://github.com/dstamoulis/single-path-nas

?DeepICP三维点云注册配准方法,首先构建了能选择静态特征点的关键点检测器。随后使用学习候选点间的匹配概率来代替搜索算法实现匹配。损失函数包含了局域和全局的信息。 (from 百度自动驾驶)
首先通过权重层计算关键点、随后利用栅格体生成关键点间的匹配区域、最后基于点生成层实现匹配。
在这里插入图片描述
包含了抽取关键点的权重计算层，随后利用深度特征抽取层添加到对应关键点生成进行匹配。

与相关方法在KATTI和阿波罗数据上的比较：

?KinD，Kindling the Darkness 弱光条件下的图像增强方法，暗光增强, 弱光带来的噪声、退化极大影响图像质量，研究人员基于Retinex理论（I = R ◦ L人类视觉的亮度和颜色感知的模型，色彩恒常理论）将图像解构成两个部分，一个是负责调光的照明另外一个是负责退化消除的反射。原始图像空间被解构成两个子空间，更容易学习。(from 天津大学)
解耦成反射和照明的两部分架构：
在这里插入图片描述
与其他方法的比较，在不同数据集上的测评：

?Deep Sky Modeling单图像室外光照估计, 在缺乏数据的情况下研究人员使用了互补数据的方法训练模型，使用了SUN360的光照数据和标定过的物理精确的LavalHDR天空数据。主要贡献在于提供了一种同时解决光照建模的端到端方法，可以直接估计HDR环境光map，而不需要分析光线模型。算法具有较好的适应性。(from adobe)
在这里插入图片描述
skynet模型：

?EdgeSegNet紧凑的语义分割网络, 基于人机协同的网络设计实现了超过20x的模型缩减，并在Jetson AGX上实现了38.5fps的速度。(from 滑铁卢大学 ICML PMLR2019)
在这里插入图片描述
实现的效果：

?AI在艺术创造中应用的综述白皮书, AI在创造性行业中的应用，扮演的角色和今后十年AI带来的变革。从音乐、视觉、内容和信息媒体等方面阐述了现有技术应用于创意工作的的概览和所面临的机遇与挑战。(from New European Median)

?基于合成数据集实现船舶识别, 利用船舶三维模型和unity构建了俯视图船舶识别的合成数据集。(from SSC PAC USA)
在这里插入图片描述
dataset:BCCT200 dataset [1], BCCT-Synth dataset

Daily Computer Vision Papers

Exploiting temporal context for 3D human pose estimation in the wild
Authors Anurag Arnab, Carl Doersch, Andrew Zisserman
我们提出了一种基于束调整的算法，用于从单眼视频中恢复准确的3D人体姿势和网格。与以前在单帧上运算的算法不同，我们表明在整个序列上重建一个人可以提供额外的约束来解决歧义。这是因为视频通常会给出一个人的多个视图，但整体的体形不会改变，3D位置也会缓慢变化。我们的方法不仅改进了基于标准mocap的数据集，例如Human 3.6M，我们在这些数据集中显示了定量改进，但也改进了野生数据集（如Kinetics）中的挑战。基于我们的算法，我们提供了一个新的数据集，其中包含来自Kinetics的300多万帧YouTube视频，并自动生成3D姿势和网格。我们展示了通过对3DPW和HumanEVA数据集进行评估，对该数据进行单帧重建3D姿态估计可以提高现实世界和mocap数据的准确性。

Breast Tumor Classification and Segmentation using Convolutional Neural Networks
Authors Parvin Yousefikamal
乳腺癌被认为是全世界女性中最致命的癌症类型，在其早期阶段被诊断至关重要。在目前的研究中，我们的目标是代表一个快速有效的框架，包括两个主要部分1图像分类和2肿瘤区域分割。在初始阶段，图像分为正常和异常两类。由于深度神经网络已经在机器视觉任务中成功完成，我们将采用卷积神经网络进行图像分类。在第二阶段，建议的框架是诊断和分割乳房摄影图像中的肿瘤。首先，通过去除噪声和伪影来预处理乳房摄影图像，然后使用基于空间模糊c均值聚类的水平集算法来分割图像。正确的初始化和最佳配置对水平集分割的性能具有强烈影响。因此，在我们建议的框架中，我们通过利用空间模糊c均值聚类来改进水平集算法，这最终导致更精确的分割。为了评估所提出的方法，我们使用Mammographic Image Analysis MIAS数据集进行了实验。测试表明，卷积神经网络可以在图像分类中实现高精度。此外，改进的水平集分割方法，以及模糊c均值聚类，可以完美地对肿瘤区域进行分割。所建议的方法将图像分类为78的准确度和69的AUC，与先前的方法相比，其更准确2和更好的AUC，并且能够以更精确的方式提取肿瘤区域。

Neuroscore: A Brain-inspired Evaluation Metric for Generative Adversarial Networks
Authors Zhengwei Wang, Qi She, Alan F. Smeaton, Tomas E. Ward, Graham Healy
生成性对抗性网络GAN越来越受到计算机视觉，自然语言处理，语音合成和类似领域的关注。可以说最引人注目的结果是图像合成领域。但是，评估GAN的性能仍然是一个开放且具有挑战性的问题。现有评估指标主要使用自动统计方法测量实际图像和生成图像之间的差异。它们通常需要大样本量才能进行评估，并且不能直接反映人类对图像质量的感知。在这项工作中，我们引入了一个评估指标，我们称之为Neuroscore，用于评估GAN的性能，通过利用脑信号更直接地反映心理感知图像质量。我们的研究结果表明，Neuroscore具有优于当前评估指标的性能1它更符合人类判断2评估过程需要更少数量的样本和3它能够按照每个GAN对图像质量进行排序。还提出了基于卷积神经网络的脑启发框架来从GAN生成的图像预测神经科学。重要的是，我们表明，在网络训练阶段包括神经反应可以显着提高所提出模型的预测能力。

Talking with Your Hands: Scaling Hand Gestures and Recognition with CNNs
Authors Okan K p kl , Yao Rong, Gerhard Rigoll
手势的使用为人机交互HCI系统的麻烦的接口设备提供了自然的替代方案。随着技术的进步和人与机器之间的通信变得更加复杂，人机交互系统也应相应地进行扩展，以适应引入的复杂性。在本文中，我们提出了一种通过使用预定义的手势音素形成手势来缩放手势的方法，以及基于CNN的卷积神经网络框架，通过仅学习手势音素的成分来识别手势。通过增加使用的手势音素的数量，可以指数地增加可能的手势的总数。为此，我们引入了一个名为Scaled Hand Gestures Dataset SHGD的新基准数据集，其训练集中只有手势音素，测试集中有3个元组手势。在我们的实验分析中，我们实现识别包含一个和三个手势音素的手势，分别在15个班级和94.69个班级中准确度为98.47。我们的数据集，代码和预训练模型是公开的。

EdgeSegNet: A Compact Network for Semantic Segmentation
Authors Zhong Qiu Lin, Brendan Chwyl, Alexander Wong
在这项研究中，我们引入了EdgeSegNet，一种紧凑的深度卷积神经网络，用于语义分割任务。利用人机协同设计策略创建EdgeSegNet，其中原则性网络设计原型与机器驱动设计探索相结合，创建具有针对任务定制的定制模块级宏架构和微架构设计的网络。实验结果表明，EdgeSegNet可以实现语义分割精度，与比RefineNet小20倍的模型大小和计算复杂的网络相当，并且在NVidia Jetson AGX Xavier上实现38.5 FPS的推断速度。因此，建议的EdgeSegNet非常适合低功耗边缘场景。

Virtual Mixup Training for Unsupervised Domain Adaptation
Authors Xudong Mao, Yun Ma, Zhenguo Yang, Yangbin Chen, Qing Li
我们研究了无监督域适应的问题，其旨在使在标记的源域上训练的模型适应完全未标记的靶域。领域对抗性训练是一种很有前景的方法，并且已经成为无监督领域适应中许多现有技术方法的基础。域对抗训练的想法是通过对角度训练域分类器和特征编码器来对齐源域和目标域之间的特征空间。最近，聚类假设已经应用于无监督域适应并且实现了强大的性能。在本文中，我们提出了一种称为虚拟混合训练VMT的新正则化方法，它能够进一步约束聚类假设的假设。 VMT的想法是通过沿着训练样本对之间的线平滑输出分布来对模型施加局部Lipschitz约束。与传统的混合模型不同，我们的方法构建没有标签信息的组合样本，使其适用于无监督的域自适应。所提出的方法是通用的，并且可以使用域对抗训练与现有方法组合。我们将VMT与最新的VADA模型相结合，广泛的实验表明，VMT显着提高了VADA在几个领域适应基准数据集上的性能。对于使MNIST适应SVHN的挑战性任务，当不使用实例规范化时，VMT将VADA的准确度提高了30多倍。使用实例归一化时，我们的模型达到了96.4的精度，非常接近目标模型上列车的准确度96.5。代码将公开发布。

Kindling the Darkness: A Practical Low-light Image Enhancer
Authors Yonghua Zhang, Jiawan Zhang, Xiaojie Guo
在低光照条件下拍摄的图像通常会出现部分较差的能见度。除了不令人满意的照明外，由于相机质量有限而导致的多种类型的降级，例如噪音和色彩失真，都隐藏在黑暗中。换句话说，仅仅调高暗区的亮度将不可避免地放大隐藏的伪像。这项工作为textbf建立了一个简单而有效的网络，即表示为KinD的textbf D arkness，受Retinex理论的启发，将图像分解为两个组成部分。单组分照明负责光调节，而另一组分照明用于降解去除。以这种方式，原始空间被解耦成两个较小的子空间，期望更好地规范学习。值得注意的是，我们的网络使用在不同曝光条件下拍摄的成对图像进行训练，而不是使用任何地面实况反射和照明信息。进行了大量实验以证明我们的设计的功效及其优于现有技术替代品的优越性。我们的KinD可以抵抗严重的视觉缺陷，并且用户可以随意调节光线强度。此外，我们的模型花费不到50毫秒来处理2080Ti GPU上VGA分辨率的图像。以上所有优点使我们的KinD具有实用性。

DeepICP: An End-to-End Deep Neural Network for 3D Point Cloud Registration
Authors Weixin Lu, Guowei Wan, Yao Zhou, Xiangyu Fu, Pengfei Yuan, Shiyu Song
我们为DeepICP提供了一种新颖的基于端到端学习的3D点云注册框架，该框架实现了与先前几何方法相当的注册精度。与通常需要RANSAC过程的其他基于关键点的方法不同，我们实现了使用各种深度神经网络结构来建立端到端可训练网络。我们的关键点检测器通过这种端到端结构进行训练，使系统能够避免动态物体的推断，利用静止物体上足够突出的特征，从而实现高稳健性。不是搜索现有点之间的对应点，而是关键贡献是我们基于一组候选者之间的学习匹配概率创新地生成它们，这可以提高配准精度。我们的损失功能结合了局部相似性和全局几何约束，以确保所有上述网络设计都能朝着正确的方向收敛。我们使用KITTI数据集和Apollo SouthBay数据集全面验证了我们方法的有效性。结果表明，我们的方法实现了与现有技术基于几何的方法相当或更好的性能。包括详细的消融和可视化分析，以进一步说明我们网络的行为和见解。我们的方法的低配准误差和高稳健性使其对依赖点云注册任务的实际应用具有吸引力。

Neural-Guided RANSAC: Learning Where to Sample Model Hypotheses
Authors Eric Brachmann, Carsten Rother
我们提出了神经引导的RANSAC NG RANSAC，它是来自鲁棒优化的经典RANSAC算法的扩展。 NG RANSAC使用先验信息来改进模型假设搜索，增加了找到离群自由最小集的机会。以前的作品使用手工制作描述符距离等启发式边信息来指导假设搜索。相比之下，我们以原则性方式学习假设搜索，这样我们可以在训练期间优化任意任务丢失，从而大大改进经典计算机视觉任务。我们向NG RANSAC提出了两个进一步的扩展。首先，使用inlier计数本身作为训练信号允许我们以自我监督的方式训练神经指导。其次，我们将神经引导与可微分RANSAC相结合，构建神经网络，专注于输入数据的某些部分，并使输出预测尽可能好。我们在各种计算机视觉任务上评估NG RANSAC，即估计极线几何，水平线估计和相机重新定位。与最先进的，有学问的估算器相比，我们获得了优越或有竞争力的结果。

Towards Emotion Retrieval in Egocentric PhotoStream
Authors Estefania Talavera, Petia Radeva, Nicolai Petkov
由于可穿戴相机的使用日益增多，以自我为中心的数据的可用性和使用正在迅速增加。我们的目的是研究以自我为中心的图像或事件对观察者的积极，中性或消极的影响。鉴于以自我为中心的照片流捕捉佩戴者的日子，我们提出了一种方法，旨在为从自我中心照片流提取的事件分配情绪。这样的时刻可以根据它们代表相机佩戴者的积极体验的可能性来检索。所提出的方法在测试集上获得了75的分类精度，偏差为8。我们的模型向前迈出了一步，打开了以自我为中心的照片流中的情感识别之门。

Hierarchical approach to classify food scenes in egocentric photo-streams
Authors Estefania Talavera, Maria Leyva Vallina, Md. Mostafa Kamal Sarker, Domenec Puig, Nicolai Petkov, Petia Radeva
最近的研究表明，人们食用的环境会影响他们的营养行为。在这项工作中，我们提供自动工具，通过检查每日记录的以自我为中心的照片流来个性化地分析一个人的健康习惯。具体来说，我们提出了一种新的食品相关环境分类自动方法，能够对多达15个这样的场景进行分类。通过这种方式，人们可以监控他们的食物摄入量的背景，以便客观地了解他们的日常饮食习惯。我们提出了一种模型，用于对以语义层次结构组织的食物相关场景进行分类。此外，我们提供并提供一个新的自我中心数据集，该数据集由可穿戴式摄像机记录的超过33000个图像组成，我们提出的模型已经过测试。我们的方法分别获得56和65的准确度和F分数，明显优于基线方法。

Towards Unsupervised Familiar Scene Recognition in Egocentric Videos
Authors Estefania Talavera, Nicolai Petkov, Petia Radeva
如今，人们对使用栩栩如生的装置感兴趣。因此，这种装置产生大量的图像数据，对用于分析和总结这些数据的自动方法的需求急剧增加。基于通过自动配置的COSFIRE滤波器进行背景图案检测，我们提出了一种在自我中心视频中熟悉场景识别的新方法。我们提出了一些关于使用Narrative Clip获得的以自我为中心的数据的实验。

SPLINE-Net: Sparse Photometric Stereo through Lighting Interpolation and Normal Estimation Networks
Authors Qian Zheng, Yiming Jia, Boxin Shi, Xudong Jiang, Ling Yu Duan, Alex C. Kot
本文利用生成网络SPLINE网络，通过光照插值和正态估计解决了稀疏光度立体声。 SPLINE Net包含一个照明插值网络，用于生成密集的照明观察，给定一组稀疏的光作为输入，然后是一个正常的估计网络来估计表面法线。两种网络都受到所提出的对称和非对称损失函数的共同约束，以强制执行各向同性约束并执行全局照明效果的异常值抑制。通过仅使用10个不同光源的图像而不是使用近100个图像，SPLINE Net被验证为优于现有BRDF光度立体声方法。

Support Relation Analysis for Objects in Multiple View RGB-D Images
Authors Peng Zhang, Xiaoyu Ge, Jochen Renz
理解物体之间的物理关系，尤其是它们的支撑关系，对机器人操纵至关重要。关于RGB D图像中的简单配置的支持关系和结构稳定性的推理已经有了工作。在本文中，我们提出了一种方法，使用定性推理和直观的物理模型从一组RGB D图像中提取更详细的物理知识，这些图像取自同一场景但来自不同视图。我们的方法不是提供简单的接触关系图并且近似于凸形状的稳定性，而是能够基于体积表示提供详细的支持关系分析。具体地说，确定对象之间的真正支持关系，例如，如果对象通过在侧面触摸另一个对象来支持另一个对象，或者如果上面的对象有助于下面对象的稳定性。我们将我们的方法应用于仓库场景中捕获的真实世界结构，并显示我们的方法可以按需运行

Unsupervised routine discovery in egocentric photo-streams
Authors Estefania Talavera, Nicolai Petkov, Petia Radeva
一个人的日常工作由不同日子的活动的发生来定义，并且可以直接影响人的健康。在这项工作中，我们致力于确认日常相关日期。为此，我们依靠以自我为中心的图像，这些图像由可穿戴式相机记录，并允许从第一人称视角观察用户的生活。我们提出了一种无监督模型，该模型根据离群值检测方法识别常规相关日期。我们在整个72天内以照片流的形式测试所提出的框架，覆盖5个不同相机佩戴者的寿命约2周。我们的模型为所有用户实现了平均76精度和68加权F分数。因此，我们表明我们的框架能够识别日常相关的日子，并为理解人们的行为打开了大门。

Region Attention Networks for Pose and Occlusion Robust Facial Expression Recognition
Authors Kai Wang, Xiaojiang Peng, Jianfei Yang, Debin Meng, Yu Qiao
遮挡和姿势变化可以显着改变面部外观，是自动面部表情识别FER的两个主要障碍。虽然自动FER在过去几十年取得了实质性进展，但是FER的闭塞鲁棒性和姿势不变问题受到的关注相对较少，特别是在现实世界场景中。本文通过三重贡献来解决现实世界姿势和遮挡强大的FER问题。首先，为了激发现实世界遮挡和变异姿势下的FER研究，我们在野外面部表情数据集中构建了几个带有社区手动注释的数据集。其次，我们提出了一种新颖的区域注意网络RAN，以自适应地捕捉面部区域对于遮挡和姿势变异FER的重要性。 RAN将骨干卷积神经网络产生的不同数量的区域特征聚合并嵌入到紧凑的固定长度表示中。最后，受面部表情主要由面部动作单元定义这一事实的启发，我们提出了一个区域偏差损失，以鼓励最重要区域的高注意力。我们在构建的测试数据集和四个流行数据集FERPlus，AffectNet，RAF DB和SFEW上验证了我们的RAN和区域偏差。大量实验表明，我们的RAN和区域偏差损失在很大程度上改善了具有遮挡和变异姿态的FER的性能。我们的方法还在FERPlus，AffectNet，RAF DB和SFEW上实现了最先进的结果。代码和收集的测试数据将公开提供。

Towards Egocentric Person Re-identification and Social Pattern Analysis
Authors Estefania Talavera, Alexandre Cola, Nicolai Petkov, Petia Radeva
可穿戴式摄像机捕获摄像机佩戴者日常活动的第一人称视图，提供用户行为的视觉日记。检测相机用户与之交互以进行社交互动分析的人的外观是非常感兴趣的。一般来说，社交活动，生活方式和健康是高度相关的，但缺乏监测和分析它们的工具。我们认为自我中心视觉提供了获取信息和理解用户社交互动的工具。我们提出了一个模型，使我们能够评估和可视化通过分析以自我为中心的照片流中的社交互动外观而获得的社会特征。给定一组以自我为中心的图像，我们在相机佩戴者的日子里检测到面部的外观，并依靠聚类算法对其特征描述符进行分组以便重新识别人。在照片流中检测到的面部的重现允许我们形成用户的社交行为模式的概念。我们验证了我们的模型在几周内由不同的相机佩戴者记录。我们的研究结果表明，社交概况可能对社会行为解释有用。

Exact Adversarial Attack to Image Captioning via Structured Output Learning with Latent Variables
Authors Yan Xu, Baoyuan Wu, Fumin Shen, Yanbo Fan, Yong Zhang, Heng Tao Shen, Wei Liu
在这项工作中，我们研究了基于CNN RNN的图像字幕系统遭受对抗性噪声的鲁棒性。我们建议欺骗图像字幕系统，为受到对抗性噪音污染的图像生成一些目标部分字幕，即使目标字幕与图像内容完全无关。部分标题表示此标题中某些位置的单词被观察到，而其他位置的单词则没有

A fast online cascaded regression algorithm for face alignment
Authors Lin Feng, Caifeng Liu, Shenglan Liu, Huibing Wang
基于机器学习的传统面部对齐通常使用离线训练的静态模型来跟踪面部地标的定位，其中所有训练数据都是预先可用的。当新的训练样本到达时，必须从头开始重新训练静态模型，这非常耗费时间并且消耗内存。在许多实时应用中，训练数据是逐个或逐批获得的。这导致静态模型在具有广泛变化的连续图像上限制其性能。因此，该领域中最关键和最具挑战性的方面是动态更新跟踪器模型，以持续增强预测和泛化能力。为了解决这个问题，我们开发了一种快速准确的面部对齐在线学习算法。特别是，我们将在线顺序极端学习机纳入并行级联回归框架，创造了增量级联回归ICR。据我们所知，这是第一个使用非线性回归量的增量级联框架。 ICR的一个主要优点是，当新输入进入时，跟踪器模型可以以增量方式快速更新，而无需整个重新训练过程。实验结果表明，与最近的现有级联方法相比，所提出的ICR在静止或连续图像上更准确和有效。此外，本文提出的增量学习可以实时更新训练模型。

Memory-Attended Recurrent Network for Video Captioning
Authors Wenjie Pei, Jiyuan Zhang, Xiangrong Wang, Lei Ke, Xiaoyong Shen, Yu Wing Tai
用于视频字幕的典型技术遵循编码器解码器框架，其仅关注于正在处理的一个源视频。这种设计的潜在缺点是它不能捕获出现在训练数据中的多于一个相关视频中的单词的多个视觉上下文信息。为了解决这个限制，我们提出了用于视频字幕的存储器参与循环网络MARN，其中存储器结构被设计用于探索单词及其在训练数据中的视频之间的各种类似视觉上下文之间的全谱对应。因此，我们的模型能够对每个单词实现更全面的理解，并产生更高的字幕质量。此外，构建的内存结构使我们的方法能够显式地模拟相邻单词之间的兼容性，而不是像大多数现有模型那样隐式地学习模型。对两个真实单词数据集的广泛验证表明，我们的MARN始终优于最先进的方法。

Spatio-temporal Video Re-localization by Warp LSTM
Authors Yang Feng, Lin Ma, Wei Liu, Jiebo Luo
由于Web上用户生成的视频的爆发，有效地找到用户想要的视频内容的需求正在增加。现有的基于关键字或基于内容的视频检索方法通常确定视频中发生的内容，而不是何时何地。在本文中，我们通过制定新任务，即时空视频重新定位来回答何时何地的问题。具体地，给定查询视频和参考视频，时空视频重新定位的目的是定位参考视频中的小管，使得小管在语义上对应于查询。为了在参考视频中准确地定位所需的小管，我们提出了一种新颖的warp LSTM网络，其长时间传播时空信息，从而捕获相应的长期依赖性。时空视频重新定位的另一个问题是缺少适当标记的视频数据集。因此，我们重新组织AVA数据集中的视频，以形成用于时空视频再定位研究的新数据集。大量的实验结果表明，所提出的模型在空间时间视频重定位任务上比设计基线具有更好的性能。

Multi-scale Aggregation R-CNN for 2D Multi-person Pose Estimation
Authors Gyeongsik Moon, Ju Yong Chang, Kyoung Mu Lee
来自2D图像的多人姿势估计是具有挑战性的，因为它不仅需要关键点定位而且还需要人类检测。在现有技术自上而下的方法中，多尺度信息是精确姿势估计的关键因素，因为它包含关键点周围的本地信息和整个人的全局信息。虽然多尺度信息允许这些方法实现最先进的性能，但自上而下的方法仍然需要大量的计算，因为它们需要使用额外的人体检测器来将裁剪的人类图像馈送到它们的姿势估计模型。为了有效地利用较小计算的多尺度信息，我们提出了多尺度聚合R CNN MSA R CNN。它由多尺度RoIAlign块MS RoIAlign和多尺度关键点头网MS KpsNet组成，旨在有效地利用多尺度信息。此外，与先前的自上而下方法相比，MSA R CNN在单个模型中执行人体检测和关键点定位，这导致计算减少。所提出的模型在基于单个模型的方法中实现了最佳性能，并且其结果与基于分离模型的方法的结果相当，在公共可用的2D多人关键点定位数据集上具有较少量的计算。

Illumination Normalization via Merging Locally Enhanced Textures for Robust Face Recognition
Authors Chaobing Zheng, Shiqian Wu, Wangming Xu, Shoulie Xie
为了提高不同光照条件下人脸识别的准确性，提出了一种基于差分滤波图像FDFI LTEIN融合的局部纹理增强光照归一化方法，以减弱光照变化引起的影响。首先，通过对数变换扩展黑暗或阴影区域中的面部图像的动态范围。然后，利用高斯滤波器的差异和双边滤波器的差异对全局对比度增强面部图像进行卷积，并且使用基于图像的标准偏差SD的系数选择规则对滤波后的图像进行加权和合并，这可以增强图像纹理信息。滤除大部分噪音。最后，对融合的面部图像执行局部对比度均衡LCE，以减少由高亮区域或暗区域中的过饱和或低于饱和的像素值引起的影响。扩展Yale B人脸数据库和CMU PIE人脸数据库的实验结果表明，与其他光照归一化方法和基于CNN的深度照明不变人脸识别方法相比，该方法对光照变化更具鲁棒性，并获得更高的识别精度。

Deep Sky Modeling for Single Image Outdoor Lighting Estimation
Authors Yannick Hold Geoffroy, Akshaya Athawale, Jean Fran ois Lalonde
我们提出了一种数据驱动的学习天空模型，我们将其用于从单个图像进行室外照明估计。由于没有大规模的图像数据集及其相应的地面实况照明，我们使用互补数据集来训练我们的方法，将SUN360的多种多样的照明条件与放射性校准和物理精确的Laval HDR天空数据库相结合。我们的主要贡献是提供照明建模和估算的整体视图，从头到尾解决这两个问题。从测试图像，我们的方法可以直接估计照明的HDR环境地图，而不依赖于分析照明模型。我们展示了我们学习的天空模型的多功能性和表现力，并表明它可以用于恢复合理的照明，从而导致视觉上令人愉悦的虚拟对象插入。为了进一步评估我们的方法，我们捕获了HDR 360全景图的数据集，并通过广泛的验证显示我们明显优于以前的技术水平。

Ship classification from overhead imagery using synthetic data and domain adaptation
Authors Chris M. Ward, Josh Harguess, Cameron Hilton
在本文中，我们重新审视了从头顶图像中检测到的船舶海上船舶的分类问题。尽管对这一非常重要和相关的问题进行了最近十年的研究，但它仍然基本上没有得到解决。在海事领域中检测和分类船舶和其他物体的主要问题之一是缺乏训练最先进的机器学习算法所需的大量地面实况数据。我们通过使用Unity游戏引擎和3D船模建立一个大型200k合成图像数据集来解决这个问题。我们证明，通过使用合成数据，分类性能会显着提高，尤其是在训练中使用的注释图像非常少时。

Joint Segmentation and Path Classification of Curvilinear Structures
Authors Agata Mosinska, Mateusz Kozinski, Pascal Fua
长期以来一直关注图像中曲线结构的检测。该问题最具挑战性的方面之一是推断曲线网络的图形表示。大多数现有的描绘方法首先执行图像的二进制分割，然后使用一组手工设计的启发法或单独的分类器对其进行细化，该分类器将可能性分配给从像素明智的预测中提取的路径。在我们的工作中，我们通过训练同时执行这两个任务的深层网络来弥合分段和路径分类之间的差距。我们证明这种方法是有益的，因为它强制整个处理流程的一致性。我们将我们的方法应用于道路和神经元数据集。

Hierarchical Cross-Modal Talking Face Generationwith Dynamic Pixel-Wise Loss
Authors Lele Chen, Ross K. Maddox, Zhiyao Duan, Chenliang Xu
我们设计了一种级联GAN方法来生成会话面部视频，该视频对不同的面部形状，视角，面部特征和嘈杂的音频条件都很稳健。我们建议首先将音频传输到高级结构（即面部标志），然后生成以标志为条件的视频帧，而不是学习从音频到视频帧的直接映射。与直接音频到图像方法相比，我们的级联方法避免了与语音内容无关的视听信号之间的伪相关性。我们人类对视频中的时间不连续性和微妙的伪像很敏感。为了避免这些像素抖动问题并强制网络专注于视听相关区域，我们提出了一种具有注意机制的新型动态可调像素明显丢失。此外，为了生成具有良好同步的面部运动的更清晰的图像，我们提出了一种新的基于回归的鉴别器结构，其考虑序列级信息以及帧级信息。对几个数据集和现实世界样本进行的周密实验表明，通过我们的方法获得的结果显着优于定量和定性比较中的现有技术方法。

Interpreting and Evaluating Neural Network Robustness
Authors Fuxun Yu, Zhuwei Qin, Chenchen Liu, Liang Zhao, Yanzhi Wang, Xiang Chen
最近，对抗性欺骗成为深度神经网络面临的最大威胁之一。然而，与各种对抗性攻击和防御的新设计的广泛研究相比，神经网络固有的鲁棒性仍然缺乏彻底的调查。这项工作旨在通过损失可视化定性地解释对抗性攻击和防御机制，并建立定量度量来评估神经网络模型的内在鲁棒性。所提出的鲁棒性度量标识给定域中的模型的预测偏差的上界，并因此指示该模型是否可以维持稳定的预测。通过大量实验，我们的度量标准证明了几个优于基于传统对抗性测试精度的稳健性评估的优势1它为具有不同结构和参数尺度的模型提供了统一的评估2它执行传统的基于精度的鲁棒性估计，并提供了更加可靠的评估，该评估对于不同的测试设置3它可以快速生成而无需大量的测试成本。

T-Net: Encoder-Decoder in Encoder-Decoder architecture for the main vessel segmentation in coronary angiography
Authors Tae Joon Jun, Jihoon Kweon, Young Hak Kim, Daeyoung Kim
在本文中，我们提出在编码器解码器结构EDiED内部包含小编码器解码器的T Net。 T Net克服了U Net在编码器和解码器块之间只能有一组连接层的限制。更准确地说，U Net对称地形成连接层，因此编码器的低级特征连接到解码器的后半部分，并且高级特征连接到解码器的开头。 T Net在编码器处理期间适当地排列合并和上采样，并且同样在解码过程期间，以便在单个块中获得各种大小的特征图。结果，从编码器提取的从低级到高级的所有特征从解码器的开始传递，以预测更准确的掩模。我们评估了T Net在冠状动脉造影图像中分割三个主要血管的问题。该实验包括在相同条件下U Net和T Nets的比较，以及主血管分割的优化T Net。结果，T Net记录的骰子相似系数得分DSC为0.815，比U Net高0.095，优化的T Net记录的DSC为0.890，比U Net高0.170。此外，我们可视化T Net和U Net卷积层的权重激活，以显示T Net实际上预测了早期解码器的掩码。因此，我们期望T Net可以有效地应用于其他类似的医学图像分割问题。

AI in the media and creative industries
Authors Giuseppe Amato CNR PISA , Malte Behrmann, Fr d ric Bimbot PANAMA , Baptiste Caramiaux LRI, EX SITU , Fabrizio Falchi CNR PISA , Ander Garcia, Joost Geurts Inria , Jaume Gibert, Guillaume Gravier LinkMedia , Hadmut Holken, Hartmut Koenitz HKU , Sylvain Lefebvre MFX , Antoine Liutkus LORIA, ZENITH , Fabien Lotte Potioc, LaBRI , Andrew Perkis NTNU , Rafael Redondo, Enrico Turrin FEP , Thierry Vieville Mnemosyne , Emmanuel Vincent MULTISPEECH
由于大数据革命和不断增长的计算能力，人工智能AI在过去几年中取得了令人印象深刻的复兴，现在在研究和工业领域都无处不在。创意部门一直是人工智能技术的早期采用者，而且情况仍然如此。事实上，最近的技术发展不断推动智能系统在创意应用中的界限，2016年发布的备受好评的电影Sunspring完全是由人工智能技术编写的，也是第一部使用AI制作的名为Hello World的音乐专辑。已于今年发布。同时，创意过程的探索性质正在为人工智能提出重要的技术挑战，例如人工智能技术在有限的数据资源下准确的能力，而不是传统的大数据方法，或者处理，分析和匹配的能力来自多种模态的数据同时包含文本，声音，图像等。本白皮书的目的是了解人工智能的未来技术进步及其对创意产业日益增长的影响。本文讨论了以下问题人工智能在创意产业中的运作情况如何在未来十年内人工智能如何改变创意产业本白皮书旨在提供创意产业中人工智能行为范围的现实视角，提出一个这种技术如何在这种背景下促进研究和开发工作的愿景，并确定研究和发展的挑战。

On the Connection Between Adversarial Robustness and Saliency Map Interpretability
Authors Christian Etmann, Sebastian Lunz, Peter Maass, Carola Bibiane Sch nlieb
最近对神经网络的对抗性脆弱性的研究表明，训练对抗对抗性攻击更强大的模型比非强健对应物表现出更多可解释的显着性图。我们的目标是通过考虑输入图像和显着图之间的对齐来量化这种行为。我们假设随着与决策边界的距离增加，对齐也会增加。在线性模型的情况下，这种连接是严格正确的。我们通过基于使用局部Lipschitz正则化训练的模型的实验来确认这些理论发现，并确定神经网络的非线性特性削弱了这种关系的位置。

Single-Path NAS: Device-Aware Efficient ConvNet Design
Authors Dimitrios Stamoulis, Ruizhou Ding, Di Wang, Dimitrios Lymberopoulos, Bodhi Priyantha, Jie Liu, Diana Marculescu
我们能否在移动设备的延迟约束下自动设计具有最高图像分类精度的卷积网络ConvNet神经架构搜索NAS for ConvNet设计是一个具有挑战性的问题，因为它具有组合大的设计空间和至少200 GPU小时的搜索时间。为了减轻这种复杂性，我们提出了单路径NAS，这是一种新颖的可区分NAS方法，可在不到4小时内设计出高效的设备。 1.新的NAS公式我们的方法引入了单一路径，通过参数化的ConvNet来编码所有具有共享卷积核参数的架构决策。 2. NAS效率我们的方法将NAS搜索成本降低到8个时期30个TPU小时，即比之前的工作快了5,000倍。 3.在设备图像分类上，单路径NAS在ImageNet上实现了74.96的前1精度，在Pixel 1手机上具有79ms的推理延迟，与具有类似延迟80ms的NAS方法相比，这是最先进的精度。

Two-layer Near-lossless HDR Coding with Backward Compatibility to JPEG
Authors Hiroyuki Kobayashi, Osamu Watanabe, Hitoshi Kiya
我们提出了一种有效的两层近无损编码方法，该方法使用扩展直方图打包技术，与传统JPEG标准向后兼容。 JPEG XT是压缩HDR图像的国际标准，采用双层编码方法向后兼容传统JPEG标准。但是，这种双层编码方法存在两个问题。一个是它没有表现出比单层结构的HDR图像压缩的其他方法更好的近无损性能。另一个问题是，对于每个输入图像，可能需要确定编码参数的适当值，以利用JPEG XT的双层编码方法实现近无损压缩的良好压缩性能。为了解决这些问题，我们专注于直方图打包技术，该技术考虑了HDR图像的直方图稀疏性。我们使用零跳跃量化，这是为无损编码提出的直方图打包技术的扩展，用于实现所提出的近无损编码方法。实验结果表明，该方法不仅具有比JPEG XT的双层编码方法更好的近无损压缩性能，而且在不失去与JPEG标准的向后兼容性的情况下，参数值的组合也没有问题。。

Which Contrast Does Matter? Towards a Deep Understanding of MR Contrast using Collaborative GAN
Authors Dongwook Lee, Won Jin Moon, Jong Chul Ye
由于最近成功的生成对抗网络GAN用于图像合成，有许多令人兴奋的GAN方法成功地从具有不同对比度的其他图像合成MR图像对比度。这些方法对于图像插补问题可能是重要的，其中通常难以获得完整的数据集，并且图像合成是处理丢失数据问题的关键解决方案之一。遗憾的是，缺乏现有基于GAN的图像转换方法的可扩展性对于理解MR对比度插补问题的本质提出了根本性挑战，对比度确实很重要。在这里，我们提出了使用协作生成对抗网络CollaGAN的系统方法，这使得学习多个MR对比的联合图像流形以研究哪些对比是必要的。我们的实验结果表明，造影剂的外源性对比不可替代，但其他内源性对比如T1，T2等可以从其他对比中合成。这些发现可为实际临床环境中MR的采集协议设计提供重要指导。

Domain Adversarial Reinforcement Learning for Partial Domain Adaptation
Authors Jin Chen, Xinxiao Wu, Lixin Duan, Shenghua Gao
部分域适应旨在将知识从标签丰富的源域转移到标签稀缺的目标域，这放松了跨不同域的完全共享的标签空间假设。在这个更一般和实际的场景中，一个主要的挑战是如何在不同域中的共享类中选择源实例以进行正向传输。为了解决这个问题，我们提出了一个域对抗强化学习DARL框架，以自动选择共享类中的源实例，以避免负转移，同时通过减少域移位来同时学习域之间的可转移特性。具体来说，在这个框架中，我们采用深度Q学习来学习代理人通过近似动作值函数做出选择决策的策略。此外，引入域对抗性学习以通过代理和目标实例来学习所选源实例的域不变特征，并且还基于所选源实例与目标域的相关性来确定代理的奖励。几个基准数据集上的实验表明，我们的DARL方法优于现有技术的部分领域适应性能。

Prototype Propagation Networks (PPN) for Weakly-supervised Few-shot Learning on Category Graph
Authors Lu Liu, Tianyi Zhou, Guodong Long, Jing Jiang, Lina Yao, Chengqi Zhang
各种机器学习应用程序期望从有限数量的标记数据中快速学习。然而，大多数当前模型的成功是对大数据进行大量培训的结果。元学习通过提取可以快速适应新任务的不同任务的常识来解决这个问题。但是，他们并没有完全探索弱监督的信息，这些信息通常是免费或廉价的。在本文中，我们表明，弱标记数据可以显着提高元学习在少数镜头分类中的表现。我们提出了在几个镜头任务上训练的原型传播网络PPN以及由粗标签注释的数据。给定目标精细类和一些弱标记粗类的类别图，PPN学习一种注意机制，该机制在图上将一个类的原型传播到另一个类，以便在传播的原型上定义的K最近邻KNN分类器导致高不同的几个镜头任务的准确性。训练任务由子图采样生成，训练目标通过在子图上累积水平分类损失来获得。生成的原型图可以不断地重新使用和更新以用于新任务和类。我们还介绍了两种实用的测试推理设置，这些设置根据测试任务是否可以利用任何弱监督信息（如培训）而有所不同。在两个基准测试中，PPN在不同设置中明显优于最近几种镜头学习方法，即使他们也被允许训练弱标签数据。

Supervized Segmentation with Graph-Structured Deep Metric Learning
Authors Loic Landrieu, Mohamed Boussaha
我们提出了一种完全超级化的方法，用于学习分割由邻接图构成的数据。我们介绍了图形结构对比损失，一种由地面实况分割构成的损失函数。它促进学习顶点嵌入，这些嵌入在所需的段内是均匀的，并且在它们的界面处具有高对比度。因此，计算这种嵌入的分段常数近似产生接近目标分割的图分区。这种损失完全可以反向传播，这使我们可以使用深度学习算法学习顶点嵌入。我们在3D点云过度分割任务上评估我们的方法，以大幅度定义新的技术水平。这些结果基于Landrieu和Boussaha 2019的出版工作。

MobiVSR: A Visual Speech Recognition Solution for Mobile Devices
Authors Nilay Shrivastava, Astitwa Saxena, Yaman Kumar, Rajiv Ratn Shah, Debanjan Mahata, Amanda Stent
视觉语音识别VSR是仅从视频输入识别口语的任务，没有任何音频。 VSR作为辅助技术有许多应用，特别是如果它可以部署在移动设备和嵌入式系统中。在资源受限的环境中，需要密集的计算资源和大的内存占用是开发VSR的神经网络模型的两个主要障碍。我们提出了一种新的端到端深度神经网络架构，用于字级VSR，称为MobiVSR，其设计参数有助于平衡模型的精度和参数计数。我们首次在VSR领域使用深度可分离3D卷积，并展示它如何使我们的模型高效。 MobiVSR在Wild数据集中具有挑战性的Lip Reading，精度达到73，参数减少6倍，内存占用量比现有技术水平低20倍。通过应用后训练量化，MobiVSR也可以压缩到6 MB。

Building 3D Object Models during Manipulation by Reconstruction-Aware Trajectory Optimization
Authors Kanrun Huang, Tucker Hermans
物体形状为机器人操纵提供了重要信息，例如，选择有效的抓握取决于感兴趣对象的整体和局部形状，而达到杂乱需要精确的表面几何形状以避免与环境的无意接触。基于模型的3D对象操纵是一个被广泛研究的问题，然而，获得用于多个对象的精确3D对象模型通常需要繁琐的工作。在这封信中，我们利用从RGB D传感器数据中提取的高斯过程隐式曲面GPIS来掌握未知对象。我们提出了一种重建感知轨迹优化，其利用提取的GPIS模型计划进行运动，以提高估计对象的3D几何形状的能力，同时执行拾取和放置动作。我们提出了一种概率方法，让机器人能够自主地学习和跟踪物体，同时实现操作任务。

Exposure Interpolation Via Fusing Conventional and Deep Learning Methods
Authors Chaobing Zheng, Zhengguo Li, Yi Yang, Shiqian Wu
基于深度学习的方法已经渗透了许多图像处理问题，并成为这些问题的主要解决方案。这里提出的一个自然问题是，在这些问题上是否有传统方法的空间在本文中，以曝光插值为例来回答这个问题，答案是肯定的。介绍了融合常规和深度学习方法的框架，以生成两个大曝光图像的中等曝光图像。实验结果表明，采用深度学习方法通过传统方法细化插值图像，显着提高了中等曝光图像的质量。可以采用传统方法来提高深度学习方法的收敛速度，并减少深度学习方法所需的样本数量。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

在这里插入图片描述
pic from pexels.com