【AI视野·今日CV 计算机视觉论文速览第160期】Wed, 25 Sep 2019_relational learning for joint head and human detec-CSDN博客

本文链接：https://blog.csdn.net/u014636245/article/details/101384026

AI视野·今日CS.CV 计算机视觉论文速览
Wed, 25 Sep 2019
Totally 39 papers
?上期速览✈更多精彩请移步主页

在这里插入图片描述

Interesting:

?Interactive Sketch & Fill新版插画小哥, 通过给定一个轮廓模型就可以生成一系列推荐的形状，以及最终合成出的结果。在这个过程中可以不断进行交互，下图中的红色为删除绿色为添加线段。可以基于不同的条件从同一形状生成不同的外形(from 牛津 adobe 伯克利)
在这里插入图片描述
下图显示模型的流程，包括了一个形状补全Gs和外表生成Ga两个生成器及其鉴别器：

第一阶段的模型补全如下图所示。输入的草图可以进行多尺度补全：

几种不同的条件补全器：

website:https://arnabgho.github.io/iSketchNFill/

?轻量级图像超分辨网络LWSR,文章主要共享了三个方面首先为了有效地从低分辨率特征中抽取特征，研究人员构建了信息池来混合多尺度特征，并将信息池馈入流程的后半部分；其次利用了压缩模块来进一步减小了参数数量，最后通过证明移除了一系列激活层来保持信息提升结果。(from 中科院大学)
在这里插入图片描述
模型中的残差单元，其中包含了尺度因子的一个分支：

一些结果如下图所示：

code:https://github.com/Sudo-Biao/s-LWSR

?Deep Mangoes芒果检测和种类识别, (from CIRAD.fr)
在这里插入图片描述

?PST900:热成像数据集及分割模型, (from 宾大)

在这里插入图片描述
数据集：

分割网络模型：

?基于超声波图像的胚胎图像分割, (from 纽约大学)
在这里插入图片描述

?**系统级的低功耗目标检测系统, (from 中科院自动化所)
在这里插入图片描述

Daily Computer Vision Papers

Interactive Sketch & Fill: Multiclass Sketch-to-Image Translation
Authors Arnab Ghosh, Richard Zhang, Puneet K. Dokania, Oliver Wang, Alexei A. Efros, Philip H.S. Torr, Eli Shechtman
Arnab Ghosh 6 32 PM我们提出了一种基于GAN的交互式草图到图像翻译方法，该方法可以帮助新手用户创建简单对象的图像。当用户开始绘制所需对象类型的草图时，网络会交互式地建议可行的完成方式，并向用户显示相应的合成图像。这将启用反馈循环，用户可以在其中基于网络的建议来编辑其草图，并在绘制时可视化完成的形状和最终渲染的图像。为了在广泛的对象类中使用单个训练模型，我们引入了一种基于选通的方法进行类条件调整，该方法允许我们从单个生成器网络生成不同的类而无需特征混合。视频可在我们的网站上找到

Object-Contextual Representations for Semantic Segmentation
Authors Yuhui Yuan, Xilin Chen, Jingdong Wang
在本文中，我们解决了语义分割的问题，并将重点放在用于稳健分割的上下文聚合策略上。我们的动机是像素的标签是像素所属对象的类别。我们提出一种简单而有效的方法，即对象上下文表示，通过利用相应对象类的表示来表征像素。首先，我们基于由地面真实分割监督的特征图构造对象区域，然后计算对象区域表示。其次，我们计算每个像素与每个对象区域之间的表示相似度，并使用对象上下文表示来增强每个像素的表示，这是所有对象区域表示根据它们与像素的相似性的加权聚合。我们凭经验证明，所提出的方法在六个具有挑战性的语义分割基准测试中取得了竞争优势，这些基准测试分别是Cityscapes，ADE20K，LIP，PASCAL VOC 2012，PASCAL Context和COCO Stuff。值得注意的是，我们以单一模型在Cityscapes排行榜上排名第2位。

Unified Vision-Language Pre-Training for Image Captioning and VQA
Authors Luowei Zhou, Hamid Palangi, Lei Zhang, Houdong Hu, Jason J. Corso, Jianfeng Gao
本文提出了一个统一的视觉语言预训练VLP模型。该模型的统一之处在于：1可以针对视觉语言生成（例如图像字幕）或理解（例如视觉问题回答任务）进行微调，而2可以使用共享的多层变压器网络进行编码和解码，这与许多使用单独模型实现编码器和解码器的现有方法。使用双向和序列化seq2seq掩盖视觉语言预测的两个任务的无监督学习目标，可以在大量图像文本对上对统一VLP模型进行预训练。两项任务的区别仅在于预测所基于的上下文。这是通过为共享的变压器网络使用特定的自我注意遮罩来控制的。据我们所知，VLP是第一个报告的模型，它在三个具有挑战性的基准数据集COCO Captions，Flickr30k Captions，和VQA 2.0。可以在以下位置获得代码和预先训练的模型

Posture and sequence recognition for Bharatanatyam dance performances using machine learning approach
Authors Tanwi Mallick, Partha Pratim Das, Arun Kumar Majumdar
理解舞蹈等表演艺术的基本语义是一项艰巨的任务。舞蹈本质上是多媒体，并且跨越时间以及空间。捕获和分析舞蹈的多媒体内容对于保护文化遗产，建立视频推荐系统，帮助学习者使用补习系统非常有用。要开发用于舞蹈的应用程序，需要解决舞蹈分析的三个方面：1对舞蹈视频进行分段以找到代表性的动作元素； 2匹配或识别检测到的动作元素； 3识别通过组合一个舞蹈而形成的舞蹈序列某些规则下的动作元素数量。本文试图解决舞蹈分析的三个基本问题，以理解舞蹈形式的潜在语义。我们的重点是印度古典舞ICD形式，即Bharatanatyam。由于舞蹈是由音乐驱动的，因此我们将音乐以及动作信息用于关键姿势提取。接下来，我们使用机器学习以及深度学习技术来识别关键姿势。最后，使用隐马尔可夫模型HMM识别舞蹈序列。我们使用Kinect捕获了婆罗多（Bharatanatyam）舞蹈的多模式数据，并建立了带注释的数据集用于ICD研究。

Augmented Memory for Correlation Filters in Real-Time UAV Tracking
Authors Yiming Li, Changhong Fu, Fangqiang Ding, Ziyuan Huang, Jia Pan
判别相关滤波器DCF出色的计算效率随着各种复杂的改进而逐渐消失。由于DCF框架的传统外观更新方案中历史视图的指数衰减，以前的外观也逐渐被遗忘，从而降低了模型的鲁棒性。在这项工作中，提出了一种基于DCF框架的新型跟踪器，以在以实时速度运行时增加以前出现的视图的存储。培训中同时引入了一些历史视图和当前视图，以使跟踪器适应新的外观并记住以前的外观。提出了一种新颖的快速压缩上下文学习，以有效地提高过滤器的判别能力。在UAVDT和UAV123数据集上进行的大量实验已验证，所提出的跟踪器与CPU上超过40 FPS的其他26个顶级DCF和基于深度的跟踪器相比具有竞争优势。

PST900: RGB-Thermal Calibration, Dataset and Segmentation Network
Authors Shreyas S. Shivakumar, Neil Rodrigues, Alex Zhou, Ian D. Miller, Vijay Kumar, Camillo J. Taylor
在这项工作中，我们建议使用长波红外LWIR图像作为使用基于学习的技术进行语义分割的可行支持方式。我们首先提出一种便携式且易于使用的被动式校准目标和程序，以解决RGB热像仪校准问题。其次，我们展示了PST900，它是894个经过同步和校准的RGB和热图像对的数据集，具有来自DARPA地下挑战赛的四个不同类别的每个像素的人类注释。最后，我们提出了一种用于快速语义分割的CNN架构，该架构以独立利用RGB图像的方式结合了RGB和热图像。我们将我们的方法与最新技术进行了比较，并表明我们的方法在我们的数据集中表现优于它们。

Synthetic dataset generation for object-to-model deep learning in industrial applications
Authors Matthew Z. Wong, Kiyohito Kunii, Max Baylis, Wai Hong Ong, Pavel Kroupa, Swen Koller
大图像数据集的可用性已成为基于深度学习的分类和检测方法成功的关键因素。虽然日常物品的数据集广泛可用，但特定工业用例的数据例如在仓库中识别包装产品仍然很少。在这种情况下，必须从头开始创建数据集，这对在工业应用中深度学习技术的部署构成了关键瓶颈。

Monocular Pedestrian Orientation Estimation Based on Deep 2D-3D Feedforward
Authors Chenchen Zhao, Yeqiang Qian, Ming Yang
自主驾驶的准确行人方位估计有助于自主车辆获得相关环境中行人的意图，这是诸如避免碰撞和预警的安全措施的基础。然而，由于行人相对较小且行人高度变形，普通行人方位估计模型无法从行人中提取足够全面的信息，因此其性能受到限制，特别是单眼行人模型无法获取物体和相关环境的深度信息。本文提出了一种新的单眼行人方位估计模型，称为FFNet。除了捕获摄像头外，该模型还根据行人与行人之间的逻辑关系，将行人的2D和3D尺寸添加为其他两个输入。行人的2D和3D尺寸是从摄像机捕获的图像中确定的，并通过连接到方向估算器的两个前馈链接进一步使用。前馈链接增强了所提出模型的网络结构的逻辑性和可解释性。实验表明，经过相同的训练过程后，提出的模型比大多数最新模型至少增加了1.72 AOS。该模型在KITTI数据集的方向估计评估中也具有竞争性结果。

A System-Level Solution for Low-Power Object Detection
Authors Fanrong Li, Zitao Mo, Peisong Wang, Zejian Liu, Jiayun Zhang, Gang Li, Qinghao Hu, Xiangyu He, Cong Leng, Yang Zhang, Jian Cheng
近年来，借助深度学习，对象检测取得了令人瞩目的进展。但是，现有技术的算法都是计算和存储密集型的。尽管开发了许多轻量级网络以在精度和效率之间进行权衡，但使其在嵌入式设备上实用仍是一个挑战。在本文中，我们提出了一种用于在异构嵌入式设备上进行有效目标检测的系统级解决方案。该检测网络被量化为低位，并允许使用移位算子高效实现。为了充分利用低位量化的优势，我们设计了具有可编程逻辑的专用加速器。在加速器内部，根据不同卷积层的异构特性，利用混合数据流。我们采用一种简单但资源友好的列优先切片策略，将计算密集型卷积层映射到可以支持任意特征大小的加速器。可以在低功耗CPU内核上执行其他操作，并且整个系统以流水线方式执行。作为案例研究，我们在输入尺寸为512x512的真实监控视频上评估了目标检测系统，结果发现该系统可以以6.9W的成本实现18 fps的推理速度，并且mAP为66.4已在PASCAL VOC 2012数据集上验证。

Deep Mangoes: from fruit detection to cultivar identification in colour images of mango trees
Authors Philippe Borianne UMR AMAP , Frederic Borne UMR AMAP , Julien Sarron, Emile Faye EGCE
本文介绍了从树木的彩色图像中检测和鉴定芒果果实的结果。我们评估Faster R CNN网络的行为和性能，以确定其在植物品种，种植计划和视觉信息获取环境方面是否特别强大，可以在特别异质的条件下检测和分类水果。该网络经过培训，可以从3,000个具有代表性的带标签水果注释中区分出Kent，Keitt和Boucodiekhal芒果品种。然后，以0.7的置信度阈值和0.25的非最大抑制阈值测试由大约7,000个注释组成的验证集。 F1分数为0.90，Faster R CNN非常适合在500x500像素的图块中进行简单的水果检测。然后，我们将多重切片方法与Jaccard矩阵相结合，以合并几次检测到的对象的不同部分，从而将以图块比例进行的检测报告给原始的6,000x4,000像素大小的图像。尽管如此，F1分数为0.56，品种识别Faster R CNN网络对同时检测芒果果实和识别其各自的品种提出了一些限制。尽管已证明在水果检测中存在错误，但检测到的芒果果实的品种鉴定率约为80。理想的解决方案可以结合使用Mask R CNN进行树木的图像预分割和双流Faster R CNN来检测芒果果实并确定其各自的品种，从而提供与用户期望更相关的预测。

Restyling Data: Application to Unsupervised Domain Adaptation
Authors Vasileios Gkitsas, Antonis Karakottas, Nikolaos Zioulis, Dimitrios Zarpalas, Petros Daras
机器学习由数据驱动，然而，尽管它们的可用性不断提高，但训练数据需要费力，费时且容易出错的标签或获取基础事实，在某些情况下这是非常困难的，甚至是不可能的。最近的工作已经诉诸于合成数据的生成，但是当将合成数据训练的模型应用于现实世界时，其性能较差，这带来了无监督域自适应的挑战。在这项工作中，我们研究了一种从另一角度出发的无监督域自适应技术，以避免对抗性训练和周期一致性的复杂性。我们利用逼真的样式转移的最新进展，并采用完全数据驱动的方法。虽然已经在域自适应GAN的复杂目标中隐式提出了这一概念，但我们采用一种明确的方法并将其直接应用为数据预处理。最终的技术具有可扩展性，高效性和易于实施性，可为复杂的现有技术提供竞争性性能，并可为领域适应开辟新途径。

Multi-Person 3D Human Pose Estimation from Monocular Images
Authors Rishabh Dabral, Nitesh B Gundavarapu, Rahul Mitra, Abhishek Sharma, Ganesh Ramakrishnan, Arjun Jain
从单个图像进行多人3D人体姿势估计是一个具有挑战性的问题，尤其是在野外环境中，因为缺少3D注释数据。我们提出了HG RCNN，这是一个基于Mask RCNN的网络，该网络还利用Hourglass架构的优势进行多人3D人体姿势估计。提出了一种分两个阶段的方法，该方法首先估计每个兴趣区域RoI中的2D关键点，然后将估计的关键点提升到3D。最后，使用弱透视投影假设以及焦距和根平移的联合优化，将估计的3D姿势放置在相机坐标中。结果是不需要多人3D姿势数据集的用于多人3D人体姿势估计的简单模块化网络。尽管其公式很简单，但HG RCNN在MuPoTS 3D上达到了最先进的结果，同时还逼近了相机坐标系中的3D姿势。

Single Camera Training for Person Re-identification
Authors Tianyu Zhang, Lingxi Xie, Longhui Wei, Yongfei Zhang, Bo Li, Qi Tian
人物识别ReID旨在在不同的相机中找到同一个人。训练这样的系统通常需要从监视视频中注释大量的交叉摄像头行人，这特别是在摄像头数量大的情况下很费力。以不同的方式，本文在未经探索的单摄像机训练SCT设置中研究ReID，其中训练集中的每个人仅出现在一个摄像机中。就我们所知，此设置从未被研究过。 SCT具有低成本数据收集和注释的优势，因此使ReID系统易于在全新的环境中进行培训。然而，由于缺乏跨相机人员的出现，这带来了重大挑战，而传统方法在很大程度上依赖于这种方法来提取辨别特征。应对SCT设置中的挑战的关键在于设计一种有效的机制来补充跨相机注释。我们从用于特征提取的常规深度网络开始，在此基础上，我们提出了一种新颖的损失函数，称为多摄像机负损失MCNL。这是一种由概率引起的度量学习损失，表明在多相机系统中，一个图像更可能比其他相机中最相似的负样本更接近同一相机中最相似的负样本。在实验中，MCNL大大提高了SCT设置中ReID的准确性，这为在新的目标场景上快速部署具有良好性能的ReID系统铺平了道路。

Direct training based spiking convolutional neural networks for object recognition
Authors Shibo Zhou, Ying Chen, Qiang Ye, Jiangxi Li
基于直接训练的尖峰神经网络SNN最近由于其在新兴的神经形态硬件上的高能效而备受关注。但是，由于加标活动的不可区分性，大多数相关的SNN对于复杂的数据集（例如CIFAR 10）仍然无法实现较高的目标识别精度。即使其中一些可以达到90的精度，能耗仍然很高。这些网络非常高。考虑到这一点，我们在本研究中提出了一种使用时间编码方案的基于直接监督学习的尖峰卷积神经网络SCNN，旨在利用最小的可训练参数来高精度识别图像中的对象。 MNIST和CIFAR 10数据集用于评估建议网络的性能。对于MNIST数据集，与其他现有技术模型相比，拟议的带噪声输入的网络能够达到较高的识别精度99.13，但使用的可训练参数比它们低得多。对于CIFAR 10数据集，所提出的带有数据增强步骤的网络可以达到80.49。的识别精度，这是在使用时域编码方式的基于直接训练的SNN领域中最先进的精度。另外，在此类网络中使用的可训练参数的数量远少于文献中报道的基于转换的SCNN中的数量。

Enhancing Traffic Scene Predictions with Generative Adversarial Networks
Authors Peter K nig, Sandra Aigner, Marco K rner
我们提出了一条新的两级管道，用于预测仍能可靠检测到相关物体的交通场景帧。使用最近的视频预测网络，我们首先根据过去的帧生成一系列将来的帧。然后，第二个网络会增强这些框架，以使它们看起来更逼真。这确保了预测帧的质量足以实现物体的精确检测，这对于自动驾驶汽车尤其重要。为了验证这两个阶段的方法，我们对Cityscapes数据集进行了实验。为了增强效果，我们训练了两种基于生成对抗网络的图像到图像转换方法，一种用于盲运动去模糊，一种用于图像超分辨率。所有得到的预测都使用传统指标和最新的物体检测网络进行了定量评估，显示出增强的帧在质量上得到了改善。虽然传统的图像比较指标（即MSE，PSNR和SSIM）无法确认这种视觉印象，但目标检测评估却非常相似。与非增强型预测相比，性能最佳的预测增强流水线能够将每个预测步骤的用于检测汽车的平均精度值提高约9。

Distortion Estimation Through Explicit Modeling of the Refractive Surface
Authors Szabolcs P vel, Csan d S ndor, Lehel Csat
高精度校准是高可靠性3D计算机视觉算法所必需的。一个具有挑战性的情况是，由于折射，相机在保护玻璃或透明物体后面，图像严重变形，无法单独使用针孔相机模型，并且需要失真校正步骤。通过直接建模折射介质的几何形状，我们通过跟踪从相机到目标的各个光线来构建图像生成过程。将生成的图像与其扭曲的观察到的对应图像进行比较，我们通过使用RBF神经网络通过模型反演来估计折射表面的几何参数。我们提出了一种图像收集方法，该方法可生成适合查找失真参数的数据，并在合成和真实数据上测试我们的算法。我们分析算法的结果。

On the Convergence of ADMM with Task Adaption and Beyond
Authors Risheng Liu, Pan Mu, Jin Zhang
随着学习和视觉的发展，乘数ADMM的交替方向法已成为具有线性约束的可分离优化模型的流行算法。然而，由于ADMM及其数值变体（例如，不精确，近端或线性化）在处理复杂的学习和视觉任务时由于其任务适应能力较弱而难以获得最新的性能。最近，人们对将任务特定的计算模块（例如，设计的过滤器或学习的体系结构）结合到ADMM迭代中的兴趣日益浓厚。不幸的是，这些与任务相关的模块引入了不受控制且不稳定的迭代流，它们还破坏了原始优化模型的结构。因此，现有的理论研究对于这些导致的任务特定迭代无效。在本文中，我们开发了一个简单且通用的近端ADMM框架，以结合针对学习和视觉问题的灵活任务特定模块。我们严格证明了目标函数值和约束违反的收敛性，并提供了由迭代复杂度衡量的最坏情况下的收敛速度。我们的研究不仅为分析任务自适应ADMM提供了新的视角，而且还为设计用于实际应用的实际优化方法提供了有意义的指导。进行数值实验以验证理论结果并证明我们算法框架的效率。

Image Recognition using Region Creep
Authors Kieran Greer
本文介绍了一种新型的图像分类器，该分类器使用了浅层架构并具有非常快速的学习阶段。图像被解析为较小的区域，每个区域以及相关的输出类别都直接保存为一个区域。呈现新图像时，将与每个零件进行直接匹配，并返回最佳匹配区域。这些区域可以彼此重叠，并且当从一个区域移动到其邻近区域时，区域图像部分可能只会出现很小的变化。因此，通过累加邻居的结果，可以猜测一个区域的最佳图像部分。实际上，这是分类器的关联功能，可以通过将直接匹配替换为区域匹配建议的内容来重建缺失或嘈杂的输入，这被称为“区域蠕变”。由于每个区域都存储了它所属的类别，因此图像分类过程对其进行求和以返回整个图像的首选类别。分类器主要在本地级别工作，因此要给它某种类型的全局图片，需要添加规则。这些规则在整个图像级别均有效，并且基本上规定，如果存在一组像素，则应删除另一组像素，或者也应存在另一组像素。尽管规则看起来非常具体，但是大多数构造可以自动完成。对一组手写数字的测试产生了最新的结果。

Fast and Accurate Convolutional Object Detectors for Real-time Embedded Platforms
Authors Min Kook Choi, Jaehyung Park, Heechul Jung, Jinhee Lee, Soo Heang Eo
随着对象检测网络的改进，对象检测网络的多种变体已经实现了令人印象深刻的性能。但是，大多数模型的性能评估都集中在检测精度上，并且性能验证主要基于高端GPU硬件。在本文中，我们提出了一种实时对象检测器，它可以保证嵌入式平台上实时系统的均衡性能。所提出的模型利用了RefineDet模型的基本头部结构，该模型是单发物体检测器SSD的变体。为了确保实时性能，具有相对较浅层或较少参数的CNN模型已用作主干结构。除了基本的VGGNet和ResNet结构之外，各种骨干结构（例如MobileNet，Xception，ResNeXt，Inception SENet和SE ResNeXt）已用于此目的。通过适当组合中间层，可以成功地训练对象检测网络。通过评估MS COCO 2017对象检测数据集评估了拟议探测器的准确性，并测试了NVIDIA Drive PX2和Jetson Xaviers板上的推理速度，以验证嵌入式系统的实时性能。实验表明，所提出的模型在嵌入式系统环境中的准确性和推理速度方面确保了平衡的性能。此外，与高端GPU不同，嵌入式GPU的使用还涉及有效推理的其他一些问题，这些问题已在本文中得到了确认。这些代码和模型可以在Web链接上公开获得。

IR-Net: Forward and Backward Information Retention for Highly Accurate Binary Neural Networks
Authors Haotong Qin, Ruihao Gong, Xianglong Liu, Ziran Wei, Fengwei Yu, Jingkuan Song
权重和激活二值化是深度神经网络压缩的有效方法，并且可以通过利用按位运算来加速推理。尽管许多二值化方法通过最小化前向传播中的量化误差提高了模型的准确性，但是在二值化模型和全精度模型之间仍然存在明显的性能差距。我们的经验研究表明，量化会在正向和反向传播中带来信息损失，这是训练高精度二进制神经网络的瓶颈。为了解决这些问题，我们提出了一个信息保留网络IR网络来保留包含前向激活和后向渐变的信息。 IR Net主要依靠两个技术贡献：1，天秤座参数二值化Libra PB通过正向传播中的平衡和标准化权重来最小化量化误差和参数信息丢失2误差衰减估计器EDE通过逐渐向后逼近符号函数来最小化梯度的信息丢失传播，共同考虑更新能力和准确的梯度。在CIFAR 10和ImageNet数据集上使用各种网络结构进行的全面实验表明，所提出的IR网络可以始终胜过最先进的量化方法。

PolSAR Image Classification Based on Dilated Convolution and Pixel-Refining Parallel Mapping network in the Complex Domain
Authors Xiao Dongling, Liu Chang
有效和准确的极化合成孔径雷达PolSAR图像分类和有限数量的先前标签始终充满挑战。对于一般的监督式深度学习分类算法，逐像素算法可实现少量标记像素的精确而低效率的分类，而像素映射算法可实现有效而边缘粗糙的分类，且需要更多的先验标记。为了考虑效率，准确性和先验标记，我们在复杂域中提出了一种新颖的像素细化并行映射网络，称为CRPM Net，并提出了用于PolSAR图像分类的相应训练算法。 CRPM Net由两个并行子网络组成：a复杂域中的传递扩张卷积映射网络C复杂交叉卷积神经网络Cs CNN激活的扩张CNN，旨在精确定位，高效和充分利用相位信息b与C Dilated CNN并行连接的复杂域编码器解码器网络，该网络将提取更多上下文语义特征。最后，我们设计了一种两步算法，通过细化错误分类的标记像素，以少量标记像素训练Cs CNN和CRPM网络，以实现更高的准确性。我们在AIRSAR和E SAR数据集上验证了所提出的方法。实验结果表明，CRPM Net可以实现最佳的分类结果，并且在PolSAR图像分类的效率和准确性方面均明显优于某些最新技术。 CRPM Net的源代码和经过训练的模型可从以下网站获得：

FEED: Feature-level Ensemble for Knowledge Distillation
Authors SeongUk Park, Nojun Kwak
知识蒸馏KD旨在通过在培训阶段将教师网络的预测提供给学生网络，从而在教师学生框架中传递知识，以帮助学生网络更好地推广。它可以使用高容量的老师，也可以使用多位老师的集合。但是，当要使用基于特征图的蒸馏方法时，后者不方便。作为一种解决方案，本文提出了一种功能强大的通用训练算法，即用于知识蒸馏FEED的特征级集成，其目的是使用多个教师网络来传递集成知识。我们介绍了两种训练算法，它们可以在特征图级别将集成知识传递给学生。在基于特征图的蒸馏方法中，使用多个并行的非线性转换来传递多位老师的知识有助于学生找到更通用的解决方案。我们将此方法称为并行FEED，在CIFAR 100和ImageNet上的实验结果表明，该方法具有明显的性能增强，而在测试时没有引入任何其他参数或计算。我们还展示了按顺序向学生提供教师信息的实验结果，因此命名为顺序FEED，并讨论了所获得的课程。另外，在特征图上测量重建误差的经验结果为增强提供了提示。

Unsupervised Deep Features for Privacy Image Classification
Authors Chiranjibi Sitaula, Yong Xiang, Sunil Aryal, Xuequan Lu
由于不了解隐私信息，在线共享图像对广泛的用户构成了安全威胁。深度功能已被证明是图像的有力代表。但是，深层功能通常会遇到较大的问题，并且需要大量数据才能进行微调。与普通图像（例如场景图像）相比，隐私图像由于敏感信息而常常受到限制。在本文中，我们提出了一种新颖的方法，该方法可以处理有限的数据并生成较小尺寸的深层特征。对于训练图像，我们首先从预先训练的模型中提取初始深度特征，然后使用K均值聚类算法来学习这些初始深度特征的质心。我们使用从训练特征中学到的质心来提取每个测试图像的最终特征，并使用三角形编码对最终特征进行编码。为了提高特征的可分辨性，我们进一步执行了从不同层获得的两个建议的无监督深层特征的融合。实验结果表明，在分类准确性和测试时间方面，所提出的特征均优于最新的深层特征。

Multi-scale discriminative Region Discovery for Weakly-Supervised Object Localization
Authors Pei Lv, Haiyu Yu, Junxiao Xue, Junjin Cheng, Lisha Cui, Bing Zhou, Mingliang Xu, Yi Yang
在图像中缺乏监督的对象的本地化是计算机视觉社区研究的关键问题。许多现有的弱监督对象定位WSOL方法通过使用深度卷积神经网络获得的特征图激活图来估计最具区分性的区域来解决此问题，也就是说，将仅定位具有最具区分性的响应的对象或其中的部分。但是，当一个图像包含多个具有相同类型的对象或较小的对象时，激活图通常显示不同的局部最大响应或相对较弱的响应。在本文中，我们提出了一种简单而有效的多尺度判别区域发现方法，该方法不仅可以定位更多积分对象，而且可以仅使用图像级别的类标签来定位尽可能多的对象。流入CNN不同卷积层的梯度权重被用作我们方法的输入，这与以前的方法不同，仅考虑了最终卷积层的梯度权重。为了为对象定位任务挖掘更多的判别区域，利用梯度权重图的多个局部最大值来生成具有平行滑动窗口的定位图。此外，融合来自不同卷积层的多尺度定位图以产生最终结果。我们基于VGGnet在ILSVRC 2016，CUB 200 2011和PASCAL VOC 2012数据集上评估了所提出的方法。在ILSVRC 2016上，提出的方法产生的Top 1本地化误差为48.65，比之前的结果高2.75。在PASCAL VOC 2012上，我们的方法实现了0.43的最高定位精度。即使对于CUB 200 2011数据集，我们的方法仍然可以取得竞争性结果。

Learning deep representations for video-based intake gesture detection
Authors Philipp V. Rouast, Marc T. P. Adam
在进食场合中自动检测单个摄入手势有可能改善饮食监测并支持饮食建议。现有研究通常利用诸如惯性和音频传感器之类的人体解决方案，而将视频用作地面真理。很少尝试直接基于视频进行进气姿势检测。在这项研究中，我们解决了这一差距，并表明深度学习架构可以成功地应用于基于视频的进气手势检测问题。为此，我们使用102位参与者的360度视频收集并标记就餐场合的视频数据。应用来自视频动作识别的最先进方法，我们的结果表明1最佳模型的F 1得分为0.858，2外观特征比运动特征贡献更多，3多个视频帧形式的时间上下文对于顶部模型性能。

Relational Learning for Joint Head and Human Detection
Authors Cheng Chi, Shifeng Zhang, Junliang Xing, Zhen Lei, Stan Z. Li, Xudong Zou
随着深度卷积神经网络的发展，头部和人体检测已得到快速改善。但是，这两项任务通常在不考虑其固有相关性的情况下进行单独研究，从而导致1头部检测经常陷入更多的误报中； 2人类检测器的性能经常在人群场景中急剧下降。为了解决这两个问题，我们提出了一种新颖的联合头部和人体检测网络，即JointDet，它可以有效地同时检测头部和人体。此外，我们设计了一个头部关系识别模块，以进行头部和人体之间的关系学习，并利用这种学习的关系来重新获得被抑制的人体检测并减少头部假阳性。为了验证所提方法的有效性，我们对CityPersons和Caltech USA数据集的头部边界框进行了注释，并对CrowdHuman，CityPersons和Caltech USA数据集进行了广泛的实验。结果，提出的JointDet检测器在这三个基准上均达到了最新的性能。为了促进对头部和人体检测问题的进一步研究，所有新的注释，源代码和训练有素的模型将公开。

diffGrad: An Optimization Method for Convolutional Neural Networks
Authors Shiv Ram Dubey, Soumendu Chakraborty, Swalpa Kumar Roy, Snehasis Mukherjee, Satish Kumar Singh, Bidyut Baran Chaudhuri
随机梯度体面SGD是深层神经网络成功背后的核心技术之一。梯度提供有关功能变化最快的方向的信息。基本SGD的主要问题是所有参数的步长均等，而与梯度行为无关。因此，深度网络优化的有效方法是为每个参数设置自适应步长。最近，已经进行了一些尝试来改善梯度下降方法，例如AdaGrad，AdaDelta，RMSProp和Adam。这些方法依赖于过去梯度平方的指数移动平均值的平方根。因此，这些方法没有利用梯度的局部变化的优势。本文基于当前梯度与过去梯度之间的差异（即diffGrad）提出了一种新颖的优化器。在提出的diffGrad优化技术中，针对每个参数调整步长，以使其对于较大的梯度更改参数应具有较大的步长，对于较低的梯度更改参数应具有较小的步长。使用在线学习框架的后悔约束方法进行收敛性分析。本文对三个合成的复杂非凸函数进行了严格的分析。还对CIFAR10和CIFAR100数据集进行了图像分类实验，以观察diffGrad相对于最先进的优化器（例如SGDM，AdaGrad，AdaDelta，RMSProp，AMSGrad和Adam）的性能。实验中使用了基于残差单元ResNet的卷积神经网络CNN体系结构。实验表明，diffGrad的性能优于其他优化器。此外，我们还显示了diffGrad使用不同的激活函数在网络上的性能均一。源代码在以下位置公开可用

Automatic techniques for cochlear implant CT image analysis
Authors Yiyuan Zhao
本文的目的是使IGCIP术后阶段所需的图像处理技术完全自动化，并对IGCIP中使用的自动图像处理技术的鲁棒性进行全面分析，并评估IGCIP过程的敏感性。整体到单个组件。已开发的自动方法包括在植入后CT中自动定位紧密和远距的CI电极阵列，以及基于刺激模式自动选择电极配置。结合为IGCIP开发的现有自动技术，提出的自动方法使端到端IGCIP过程能够将植入前后的CT图像作为输入，并生成患者定制的电极配置作为输出。

Offline identification of surgical deviations in laparoscopic rectopexy
Authors Arnaud Huaulm , Sandrine Voros, Fabian Reche, Jean Luc Faucheron, Alexandre Moreau Gaudry, Pierre Jannin
目的中位患者中有14.4人在手术期间至少发生了一次不良事件，其中三分之一是可以预防的。不良事件的发生迫使外科医生采取纠正策略，因此偏离了标准的手术过程。因此，很明显，不良事件的自动识别是患者安全的主要挑战。在本文中，我们提出了一种使我们能够识别这种偏差的方法。我们专注于确定由于手术事件而不是解剖学特异性导致的外科医生与标准手术过程的偏差。鉴于典型外科手术流程的高度可变性，这尤其具有挑战性。方法我们引入了一种新方法，该方法旨在基于多维非线性时间标度和隐藏的半马尔可夫模型，通过手动标注手术过程来自动检测和区分手术过程偏差。然后使用交叉验证对方法进行评估。结果最佳结果的准确性超过90。查全率和查准率均高达70。我们提供了对错误检测到的观察结果的详细分析。结论带有隐藏半马氏模型的多维非线性时间标度为检测偏差提供了有希望的结果。我们对错误检测的观测值的错误分析提供了不同的线索，以进一步改进我们的方法。意义我们的方法证明了自动检测手术偏差的可行性，该偏差可用于技能分析和开发基于情境感知的计算机辅助手术系统。

s-LWSR: Super Lightweight Super-Resolution Network
Authors Biao Li, Jiabin Liu, Bo Wang, Zhiquan Qi, Yong Shi
用于超分辨率SR的深度学习DL架构通常包含大量参数，这被视为获得令人满意的性能的关键优势。但是，随着手机广泛用于拍照和修饰照片，此角色极大地阻碍了DL SR模型在移动设备上的部署。为了解决这个问题，本文提出了一种超轻量级的SR网络的LWSR。我们的工作主要有三方面的贡献。首先，为了有效地从低分辨率图像中提取特征，我们建立了一个信息库来混合来自管道前半部分的多级信息。因此，信息池向后半部分提供来自先前各层的层次结构特征的组合。其次，我们采用压缩模块来进一步减小参数的大小。深入的分析证实了其在模型复杂性和准确性之间进行权衡的能力。第三，通过揭示激活在深度模型中的特定作用，我们删除了SR模型中的几个激活层，以保留更多信息以提高性能。大量实验表明，我们的LWSR具有有限的参数和操作，可以实现与其他繁琐的DL SR方法相似的性能。

Multi-scale fully convolutional neural networks for histopathology image segmentation: from nuclear aberrations to the global tissue architecture
Authors R diger Schmitz, Frederic Madesta, Maximilian Nielsen, Ren Werner, Thomas R sch
组织病理学诊断取决于广泛范围内的同时信息，范围从核像差在数学结构上大约为O 0.1微米，在细胞结构上大约为10微米，到全局组织结构gtrapprox大约为1毫米。考虑到人类病理学家使用哪种信息，我们介绍并研究了将多个且广泛分开的空间尺度集成到基于U Net的通用体系结构中的不同策略。基于此，我们提出了一种新的，端到端的可训练，多尺度，多编码器全卷积神经网络，用于人类形态学在组织病理学中启发计算机视觉。

Dimension Estimation Using Autoencoders
Authors Nitish Bahadur, Randy Paffenroth
维度估算DE和维度缩减DR是两个紧密相关的主题，但目标却大不相同。在DE中，人们尝试估计随机向量的一组测量结果中的固有维数或潜在变量的数量。但是，在DR中，人们试图将随机矢量线性或非线性地投影到较低维空间，以保留原始高维空间中包含的信息。当然，这两个想法是紧密联系在一起的，因为例如将DR设置为小于DE建议的尺寸可能会导致信息丢失。因此，在本文中，我们将重点关注一类称为自动编码器的深度神经网络，该网络广泛用于DR，但对DE的研究较少。我们表明，在将自动编码器用于DE时，除了重要的DR DE技术（例如主成分分析）所出现的问题之外，还出现了几个重要的问题。我们解决自动编码器体系结构选择和正则化技术的问题，这些选择和正则化技术使人们可以将自动编码器潜在层表示转换为固有维数的估计。

Deformable Non-local Network For Video Super-Resolution
Authors Hua Wang, Dewei Su, Longcun Jin, Chuangchuang Liu
视频超分辨率VSR任务旨在通过使用其对应的低分辨率帧和多个相邻帧来恢复高分辨率视频帧。目前，许多基于深度学习的VSR方法都依靠光流来执行帧对齐。最终恢复结果将受到光流精度的极大影响。然而，光流估计不能完全准确，并且总是存在一些误差。在本文中，我们提出了一种新的基于非流的可变形非本地网络DNLN。具体来说，我们在对齐模块中应用了改进的可变形卷积，以在特征级别实现自适应帧对齐。此外，我们利用非局部模块捕获参考帧和对齐的相邻帧之间的全局相关性，并同时增强对齐帧中所需的精细细节。为了重建最终的高质量HR视频帧，我们使用残差密集块中的残差来充分利用分层功能。在多个数据集上的实验结果表明，提出的DNLN可以在视频超分辨率任务上达到最先进的性能。

Analysis of Generalized Entropies in Mutual Information Medical Image Registration
Authors Vinicius Pavanelli Vianna, Luiz Otavio Murta Junior
互信息MI是图像配准中使用的标准方法，也是研究最多的一种方法，但是当以自动方式使用时，可能会发散并产生错误的结果。在这项研究中，我们比较了3D Slicer和ITK衍生软件解决方案中使用的ITK Mattes MI函数的结果，以及我们自己的MICUDA Shannon和Tsallis MI函数在3D数学空间中的平移，旋转和比例变换下的结果。通过比较，可以了解为什么在某些情况下配准会失败，以及如何生成更强大的自动算法来配准医学图像。由于我们的算法被设计为使用GPU计算，因此在提高注册质量的同时，我们还获得了巨大的速度提升。

The Field-of-View Constraint of Markers for Mobile Robot with Pan-Tilt Camera
Authors Hongxuan Ma, Wei Zou, Zheng Zhu, Siyang Sun, Zhaobing Kang
在导航和视觉伺服领域，通常通过标记上的特征点来计算相对姿势，因此将标记保持在相机视图中是一个重要的问题。在本文中，我们提出了一种新颖的方法来计算摄像机标记的视野FOV约束。我们的方法可以使相机在移动机器人运动期间保持所有特征点的可见性。根据相机的角孔径，移动机器人可以获得相机无法将所有特征点保留在图像中的FOV约束区域。基于FOV约束区域，可以指导移动机器人从初始位置移动到目的地。最后，基于配备有云台摄像机的移动机器人进行了仿真和实验，这验证了该方法获得FOV约束的有效性。

Non-monotonic Logical Reasoning Guiding Deep Learning for Explainable Visual Question Answering
Authors Heather Riley, Mohan Sridharan
用于许多模式识别问题的最新算法依赖于深度网络模型。训练这些模型需要标记大量的数据集和大量的计算资源。而且，很难理解这些学习模型的工作原理，从而限制了它们在某些关键应用中的使用。为了解决这些局限性，我们的体系结构从认知系统研究中汲取了灵感，并融合了常识逻辑推理，归纳学习和深度学习的原理。在回答有关场景的解释性问题和潜在的分类问题时，该体系结构使用深度网络从图像中提取特征并生成查询答案。在这些深层网络之间，它嵌入了具有不完整常识领域知识的非单调逻辑推理组件和决策树归纳组件。它还可以增量地学习和解释以前未知的约束域状态的约束。我们在模拟和真实世界图像的数据集的上下文中评估了该体系结构，并在模拟机器人的计算，执行和计划说明中进行了描述。实验结果表明，与深度网络的端到端体系结构相比，当训练数据集较小时，我们的体系结构在分类问题上具有更高的准确性，与较大的数据集具有可比的准确性，并且对于解释性问题的答案更准确。此外，以增量方式获取以前未知的约束条件可以提高回答解释性问题的能力，并且扩展非单调逻辑推理以支持计划和诊断可以提高在模拟机器人上计算和执行计划的可靠性和效率。

Automatic Mouse Embryo Brain Ventricle & Body Segmentation and Mutant Classification From Ultrasound Data Using Deep Learning
Authors Ziming Qiu, Nitin Nair, Jack Langerman, Orlando Aristizabal, Jonathan Mamou, Daniel H. Turnbull, Jeffrey A. Ketterling, Yao Wang
高频超声HFU非常适合于体内胚胎小鼠的成像，因为它是无创且实时的。从3D HFU图像手动分割脑室BV和整个身体非常耗时，并且需要专门的培训。本文提出了一种基于深度学习的分割流水线，该流水线可自动执行目前正在研究小鼠胚胎发育中的基因突变的耗时且重复的任务。即，尽管由于胚胎的位置和形状变化以及成像伪像而带来了很大的挑战，但该管道仍可以准确地对小鼠胚胎的3D HFU图像中的BV和身体区域进行分割。基于BV分割，进一步训练了3D卷积神经网络CNN以检测具有Engrailed 1 En1突变的胚胎。该算法分别实现了BV和人体分割的0.896和0.925骰子相似性系数DSC，以及突变体分类的95.8准确性。通过基于梯度的询问和经过训练的分类器的可视化，可以证明该模型集中于已知受En1突变影响的形态结构。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

在这里插入图片描述
pic from pexels.com