【今日CV 计算机视觉论文速览第144期】Wed, 17 Jul 2019

最新推荐文章于 2023-11-20 09:59:56 发布

hitrjj

最新推荐文章于 2023-11-20 09:59:56 发布

阅读量6.4k

点赞数

分类专栏：视觉深度学习机器学习计算机视觉三维重建图像提升点云文章标签：单目深度估计细粒度食物数据集人体工作数据集 paper computerVision

本文链接：https://blog.csdn.net/u014636245/article/details/96595498

版权

计算机视觉同时被 3 个专栏收录

378 篇文章 75 订阅

订阅专栏

视觉

285 篇文章 55 订阅

订阅专栏

深度学习

261 篇文章 14 订阅

订阅专栏

今日CS.CV 计算机视觉论文速览
Wed, 17 Jul 2019
Totally 45 papers
?上期速览✈更多精彩请移步主页

在这里插入图片描述

Interesting:

?基于残差金字塔的单目深度估计方法, 场景的结构和目标的细节决定了深度图重建的效果，对于室内深度估计来说，全局结果针对布局而局域结构则反映了物体表面的细节。这篇文章从多尺度地角度来分析深度估计的问题，采用了残差金字塔解码器，在顶层表达全局布局在底层表达表面细节。每一层及的残差模块都预测对应的尺度，并从前一级粗糙的尺度上预测后一级更为精细的尺度。为了充分探索多尺度图像特征，自适应稠密特征融合被用于对多尺度的特征进行融合，并在NYU-Depth-v2上取得了良好的效果。(from 中科大)
研究人员提出的架构，主要包括了估计各尺度深度图的残差金字塔解码器、用于特征融合的自适应稠密特征融合模块。残差金字塔有效预测了结构的细节，在较为粗糙的层级上天剑了细节信息实现了更为精细的表示。
在这里插入图片描述
解码器中残差精炼模块的细节：

结果与比较：

code:https://github.com/Xt-Chen/SARPN

?S&CNet基于通道和空间注意力的实时单目深度提升算法, 研究人员提出了一种基于空间和通道的单目深度估计提升方法，其中空间方面的注意力来自于研究人员观察到比较小的编码器输出步长将保留更多的细节但同时限制了感受野，所以研究人员逐空间的注意力机制来捕捉长程信息；对于通道方面，研究人员发现不同的通道特征对于不同距离的响应不同，于是利用通道注意力机制使得特定的距离对特定的通道赋予更多的权重，为了更进一步的提高模型表现，研究人员还是用了精炼模块来提升深度估计的精度。(from 北航)
模型的架构：
在这里插入图片描述
空间和通道提升模块3.2details，上面红色虚线框为通道注意力模块，下面绿色虚线框为空间注意力模块（选择每个位置的特征进行融合，value，key和query map）：

下图可以看到不同通道对于不同距离的响应：
在这里插入图片描述

?基于感知方法的图像修复评价指标, 研究人员对9种图像修复法进行主观比较，随后提出了一种客观的评价指标。(from 罗蒙索夫技术大学)
在这里插入图片描述
ref主观评价平台：http://www.subjectify.us/

?700类人体动作数据集Kinetics-700, (from 谷歌)

在这里插入图片描述
competition:http://activity-net.org/challenges/2019/evaluation.html
dataset:https://deepmind.com/research/open-source/open-source-datasets/kinetics/
slilde:https://drive.google.com/file/d/164kU_MFTKzmefbgOLntuiiTmADutl_x0/view

?FoodX-251细粒度食物分类数据集, 包含了251个细粒度的食物分类供158k张图像，118kTrain40kValidate，提供了baseline(from SRI：斯坦福国际研究所谷歌 CornellTech康奈尔科技校区)
在这里插入图片描述
一些相关的数据集：

competition：https://www.kaggle.com/c/ifood-2019-fgvc6
code:https://github.com/karansikka1/iFood_2019
ref2018:https://github.com/karansikka1/Foodx
CVDF：https://github.com/karansikka1/Foodx

?Quick, Draw! 数据集分析, 谷歌的草图画画数据集，包括了50m图像345类的数据。(from Universidad Carlos III de Madrid)
model:https://github.com/tensorflow/models/blob/080347bc9056fdb8f0a2236ccdb5bfef1cdf0cca/tutorials/rnn/quickdraw/train_model.py
https://github.com/googlecreativelab/quickdraw-dataset
https://quickdraw.withgoogle.com/

?***SynthText3D,为三维的虚拟场景合成包含文字图像 (from 华中科技北大 )
目前的三维渲染包括，在静止背景上渲染不同物体的数据、随机摆放物体和利用商业游戏引擎，包括GTA V UrealCV[24–30,3,7,32,34]
在这里插入图片描述
主要关注场景图像的渲染与合成2.2, part.3 数据合成借鉴
code：https://github.com/MhLiao/SynthText3D

膝关节损失预测

Daily Computer Vision Papers

On the ''steerability" of generative adversarial networks
Authors Ali Jahanian, Lucy Chai, Phillip Isola
当代机器学习的一个公开秘密是，许多模型在标准基准测试中运行良好，但未能在实验室外进行推广。这归因于对有偏见数据的培训，这些数据对现实世界事件的覆盖率较低。生成模型也不例外，但生成对抗网络GAN的最新进展表明，否则这些模型现在可以合成出惊人的逼真和多样化的图像。照片的生成建模是一个解决的问题我们表明，尽管当前的GAN可以很好地适应标准数据集，但它们仍然不能成为视觉流形的综合模型。特别是，我们研究了它们适应简单变换的能力，例如相机移动和颜色变化。我们发现模型反映了它们被训练的数据集的偏差，例如，居中的物体，但它们也表现出一些通过在潜在空间中转向来推广的能力，我们可以在仍然创建逼真图像的同时改变分布。我们假设分布变化的程度与训练数据分布的广度有关，并进行证明这一点的实验。代码在我们的项目页面上发布

Predicting Next-Season Designs on High Fashion Runway
Authors Yusan Lin, Hao Yang
时尚是一个庞大而快速变化的行业。预见即将到来的流行趋势对时装设计师，消费者和零售商都有好处。然而，由于设计师主观性所涉及的大量因素，时尚趋势通常被认为是不可预测的。在本文中，我们提出了一个时尚趋势预测框架和设计神经网络模型，以利用结构化的时装秀跑道展示数据，学习时装系列嵌入，并进一步训练RNN LSTM模型，以捕捉设计师风格的演变。我们提出的框架包括1个跑道嵌入学习模型，该模型使用时装跑道图像来学习每个季节的集合嵌入，2个下一季时装设计预测模型利用设计师风格和趋势的概念来预测下一季设计给予设计师。通过对32年时装秀的收集数据集进行实验，我们的框架在预测下一季的设计时，平均可以达到78.42 AUC的最佳性能，而单个设计师可以达到95。

EnforceNet: Monocular Camera Localization in Large Scale Indoor Sparse LiDAR Point Cloud
Authors Yu Chen, Guan Wang
姿态估计是机器人应用的基本构建块，例如自动驾驶车辆，无人机和大规模增强现实。对于那些应用进行大规模生产而言，这也是一个禁止因素，因为现有技术的厘米级姿态估计通常需要长的映射程序和昂贵的定位传感器，例如， LiDAR和高精度GPS IMU等。为了克服成本障碍，我们提出了一种基于神经网络的解决方案，用于在具有可比厘米级精度的先前稀疏LiDAR图中定位消费者级RGB相机。我们通过引入一种新颖的网络模块（我们称之为电阻模块）来实现它，以便更好地推广网络，更准确地预测并更快地收敛。这些结果以我们在大型室内停车场场景中收集的几个数据集为基准。我们计划打开社区的数据和代码，以加入推进这一领域的努力。

学习高效的降采样方法Efficient Segmentation: Learning Downsampling Near Semantic Boundaries
Authors Dmitrii Marin, Zijian He, Peter Vajda, Priyam Chatterjee, Sam Tsai, Fei Yang, Yuri Boykov
诸如自动驾驶之类的许多自动化过程依赖于良好的语义分段作为关键组件。为了加快性能，通常对输入帧进行下采样。然而，这是以丢失小对象和降低语义边界精度为代价的。为了解决这个问题，我们提出了一种新的内容自适应下采样技术，该技术学习了有利于在目标类的语义边界附近的采样位置。成本绩效分析表明，我们的方法始终优于统一抽样，提高了准确性和计算效率之间的平衡。我们的自适应采样为分割提供了更好的边界质量，并为更小尺寸的物体提供了更可靠

++目标检测数据的需求How much real data do we actually need: Analyzing object detection performance using synthetic and real data
Authors Farzan Erlik Nowruzi, Prince Kapoor, Dhanvin Kolhatkar, Fahed Al Hassanat, Robert Laganiere, Julien Rebut
近年来，深度学习模型已经在包括计算机视觉在内的各个领域取得了巨大的进步。从本质上讲，深度模型的监督培训需要大量数据。这种理想情况通常不易处理，因为数据注释是一项非常耗费精力且成本高昂的任务。另一种方法是使用合成数据。在本文中，我们将全面研究用合成数据替换实际数据的效果。我们进一步分析了拥有有限数量的实际数据的影响。我们使用多个合成和真实数据集以及模拟工具来创建大量廉价注释的合成数据。我们分析每个数据集的域相似性。我们提供了有关设计使用这些数据集训练深度网络的方法程序的见解。

Pedestrian Tracking by Probabilistic Data Association and Correspondence Embeddings
Authors Borna Bi ani , Marin Or i , Ivan Markovi , Sini a egvi , Ivan Petrovi
本文研究了在多目标行人跟踪中建立对应关系的运动学位置与速度和外观线索之间的相互作用。我们通过基于深度学习检测器，联合集成概率数据关联JIPDA和基于外观的深度对应嵌入跟踪的检测方法来研究跟踪。我们首先通过微调卷积检测器来进行固定摄像机设置，以便进行精确的行人检测，并将其与仅运动JIPDA相结合。由此产生的提交在3DMOT2015基准测试中排名第一。然而，在具有移动摄像机和未知自我运动的序列中，我们通过用深度对应嵌入的全局最近邻跟踪替换运动线索来实现最佳结果。我们通过使用由边际项延长的角度损失从ResNet 18的第二个块中微调特征来训练嵌入。我们注意到，直接在JIPDA中集成深度通信嵌入并没有带来显着的改进。看来，用于软数据关联的深度对应嵌入的几何形状需要进一步研究，以便从两个世界中获得最佳效果。

Uncertainty-aware Self-ensembling Model for Semi-supervised 3D Left Atrium Segmentation
Authors Lequan Yu, Shujun Wang, Xiaomeng Li, Chi Wing Fu, Pheng Ann Heng
训练深度卷积神经网络通常需要大量标记数据。然而，为医学图像分割任务注释数据是昂贵且耗时的。在本文中，我们提出了一种新的不确定性感知半监督框架，用于从三维MR图像左心房分割。我们的框架可以通过鼓励在不同扰动下对相同输入的一致预测来有效地利用未标记的数据。具体地，该框架由学生模型和教师模型组成，并且学生模型通过最小化关于教师模型的目标的分段丢失和一致性损失来从教师模型学习。我们设计了一种新颖的不确定性感知方案，使学生模型能够通过利用不确定性信息逐步从有意义和可靠的目标中学习。实验表明，我们的方法通过合并未标记的数据实现了高性能增益。我们的方法优于现有技术的半监督方法，展示了我们的框架对具有挑战性的半监督问题的潜力。

Data Selection for training Semantic Segmentation CNNs with cross-dataset weak supervision
Authors Panagiotis Meletis, Rob Romijnders, Gijs Dubbelman
训练卷积网络用于具有强像素和弱边界框监督的语义分割需要大量弱标记数据。我们提出了两种在弱监督下选择最相关数据的方法。第一种方法设计用于在不需要标签的情况下查找视觉上相似的图像，并且基于使用高斯混合模型GMM建模图像表示。作为GMM建模的副产品，我们提供了有关表征数据生成分布的有用见解。第二种方法旨在寻找具有高对象多样性的图像，并且仅需要边界框标签。这两种方法都是在自动驾驶的背景下开发的，并且在Cityscapes和Open Images数据集上进行实验。我们通过将开放图像使用的弱标签图像数量减少100倍，使城市景观最多减少20倍来证明性能提升。

Improving Semantic Segmentation via Dilated Affinity
Authors Boxi Wu, Shuai Zhao, Wenqing Chu, Zheng Yang, Deng Cai
引入结构预测的显式约束是提高语义分割模型性能的有效方法。现有方法主要基于仅仅部分捕获图像结构的手工制作规则不足，并且一些方法也可能遭受效率问题。结果，大多数现有技术的完全卷积网络都没有采用这些技术。在这项工作中，我们提出了一种简单，快速而有效的方法，通过直接监督和较小的额外费用来利用结构信息。具体而言，我们的方法明确要求网络预测语义分割以及扩展的亲和力，这是成对像素亲和力的稀疏版本。描述像素之间关系的能力直接建立在模型中，并分两个阶段提高分割质量。 1具有扩张亲和力的联合训练可以提供强大的特征表示，从而产生更精细的分割结果。 2可以进一步利用亲和度信息的额外输出来利用快速传播过程来细化原始分割。在将我们的框架应用于现有技术模型时，在各种基准数据集上观察到一致的改进。代码将很快发布。

Perception of visual numerosity in humans and machines
Authors Alberto Testolin, Serena Dolfi, Mathijs Rochus, Marco Zorzi
数字学习是数学学习的基础，但其计算基础受到激烈争论。一些研究者认为，人类被赋予了支持数值表示的专门系统，其他人则认为视觉数值是使用连续的大小来估算的，例如密度或面积，这通常随着数量而变化。在这里，我们通过测试与人类相同的数字量比较任务的深度网络来协调这些对比的观点，使用允许测量非数字特征的贡献的刺激空间。我们的模型准确地模拟了数字感知的心理物理学，并且相关的发育变化歧视是由数字信息驱动的，但非数字特征具有显着影响，尤其是在开发早期。代表性相似性分析进一步强调，即使不需要执行任务，数字性和连续数量也是自发编码的，这表明数量是我们视觉环境的主要特征。

Speed estimation evaluation on the KITTI benchmark based on motion and monocular depth information
Authors R bert Adrian Rill
在本技术报告中，我们使用基于现有技术的基于深度神经网络的光流和单视深度预测方法来研究KITTI基准上的自我车辆的速度估计。使用简单直观的方法并逼近单个比例因子，我们评估深度网络的几种应用方案，并制定有意义的结论，例如将深度信息与光流相结合，提高速度估算精度，而不是单独使用光流，深度神经质量网络方法影响速度估计性能使用深度和光流量较小的宽幅图像结果会降低性能。考虑到这些观察结果，我们使用单眼图像作为KITTI基准记录的输入，实现车速估计小于1 m s的RMSE。还讨论了限制和可能的未来方向。

A Short Note on the Kinetics-700 Human Action Dataset
Authors Joao Carreira, Eric Noland, Chloe Hillier, Andrew Zisserman
我们将DeepMind Kinetics人类行为数据集的扩展从600个类扩展到700个类，其中每个类至少有600个来自不同YouTube视频的视频剪辑。本文详细介绍了此新版本数据集引入的更改，并包含一组全面的统计信息以及使用I3D神经网络体系结构的基线结果。

A Unified Deep Framework for Joint 3D Pose Estimation and Action Recognition from a Single RGB Camera
Authors Huy Hieu Pham, Houssam Salmane, Louahdi Khoudour, Alain Crouzil, Pablo Zegers, Sergio A Velastin
我们提出了一种基于深度学习的多任务框架，用于从RGB视频序列进行联合3D人体姿态估计和动作识别。我们的方法分两个阶段进行。在第一个中，我们运行实时2D姿势检测器来确定身体重要关键点的精确像素位置。然后设计并训练双流神经网络以将检测到的2D关键点映射成3D姿势。在第二步中，我们部署了高效神经架构搜索ENAS算法，以找到最佳网络架构，该架构用于通过基于图像的中间表示和执行动作识别来对估计的3D姿势的时空演变进行建模。人类3.6M，MSR Action3D和SBU Kinect交互数据集的实验验证了所提方法对目标任务的有效性。此外，我们表明我们的方法需要较低的计算预算用于训练和推理。

+光学断层扫描Fused Detection of Retinal Biomarkers in OCT Volumes
Authors Thomas Kurmann, Pablo M rquez Neila, Siqing Yu, Marion Munk, Sebastian Wolf, Raphael Sznitman
光学相干断层扫描OCT是用于检测与视网膜疾病相关的病理生物标志物的主要成像模式，例如年龄相关性黄斑变性。在实践中，临床诊断和治疗策略与OCT体积中可见的生物标志物密切相关，并且识别这些的生物标志物在眼科药物产品的开发中起重要作用。在这种情况下，我们提出了一种方法，通过整合来自整个体积的信息，自动预测OCT横截面中生物标志物的存在。我们通过添加双向LSTM来融合卷积神经网络的输出来预测各个生物标记物。因此，我们避免使用像素明确注释来训练我们的方法，而是提供细粒度的生物标记信息。在416卷的数据集上，我们表明我们的方法强调了体积切片中生物标记预测之间的一致性，并且我们的预测优于几种现有方法。

Semi-supervised Breast Lesion Detection in Ultrasound Video Based on Temporal Coherence
Authors Sihong Chen, Weiping Yu, Kai Ma, Xinlong Sun, Xiaona Lin, Desheng Sun, Yefeng Zheng
超声视频中的乳房病变检测对于计算机辅助诊断至关重要。然而，由于病变边界模糊，与软组织的高度相似性以及缺乏视频注释，检测视频中的病变是非常具有挑战性的。在本文中，我们提出了一种基于时间相干性的半监督乳腺病变检测方法，可以更准确地检测病变。我们利用自适应关键帧调度策略来聚合从历史关键帧中提取的特征。我们提出的方法通过利用来自不同标记图像集的监督信息来完成未标记的视频检测任务。此外，新的WarpNet旨在取代传统的空间扭曲和特征聚合操作，从而大大提高速度。对1,060个2D超声序列的实验表明，与基于RetinaNet的86.6和32ms的检测方法相比，我们提出的方法在GPU上实现了最先进的视频检测结果，平均精度为91.3，每帧19ms。

Human Pose Estimation for Real-World Crowded Scenarios
Authors Thomas Golda, Tobias Kalb, Arne Schumann, J rgen Beyerer
最近，人体姿态估计在采用深度卷积神经网络方面取得了重大进展。它的许多应用近年来引起了极大的兴趣。然而，许多实际应用需要对人群进行姿态估计，这仍然是一个很少解决的问题。在这项工作中，我们探索了优化人群姿态估计的方法，重点关注密集人群引入的挑战，例如遮挡，彼此接近的人以及人的部分可见度。为了应对这些挑战，我们评估姿势检测方法的三个方面，即数据增强方法，以引入遮挡的鲁棒性，ii显着检测遮挡的身体部位，以及iii使用合成的生成数据集。提高拥挤情景准确性的第一种方法是使用来自对象识别数据集COCO上下文中的公共对象的人和对象剪切在训练时生成遮挡。此外，合成生成的数据集JTA Joint Track Auto被评估用于现实世界的人群应用。为了克服源于低姿态变化和较低密度群体的JTA的传输差距，创建扩展数据集以便于用于现实世界的应用。另外，利用JTA提供的遮挡标记来训练模型，该模型明确地区分两个不同分支中的被遮挡和可见的身体部分。所提出的基线方法的添加的组合有助于将总体准确度提高4.7AP，从而提供与相应数据集上的当前现有技术方法相当的结果。

++检测芒果树Mango Tree Net -- A fully convolutional network for semantic segmentation and individual crown detection of mango trees
Authors Vikas Agaradahalli Gurumurthy, Ramesh Kestur, Omkar Narasipura
本文提出了一种高分辨率航空影像中芒果树语义分割的方法，以及一种利用分割输出对芒果树进行个体冠检测的新方法。 Mango Tree Net是一个完全卷积神经网络FCN，使用监督学习训练，以使用无人驾驶飞行器UAV获取的图像中的芒果树进行语义分割。所提出的网络被重新训练以在分割输出中分离触摸重叠树冠。基于轮廓的连通对象检测在重新训练的网络的分段输出上执行。使用连接对象的坐标在原始图像上绘制边界框以实现单独的冠部检测。训练数据集由8,824个大小为240 x 240的图像块组成。使用分别包含36和4个图像的测试数据集测试该方法的分割和单个冠检测任务的性能。使用标准度量精度，召回率，f1分数和准确度来分析性能。获得的结果证明了所提出的方法的稳健性，尽管诸如尺度，遮挡，光照条件和周围植被等因素的变化。

A General Framework for Uncertainty Estimation in Deep Learning
Authors Mattia Seg , Antonio Loquercio, Davide Scaramuzza
端到端学习最近成为解决自动驾驶问题的有前途的技术。现有的工作表明，从原始传感器数据学习导航策略可以减少系统对外部传感系统的依赖，例如，基于状态估计和规划的GPS，或优于传统方法。然而，现有的端到端方法通常为了安全而牺牲性能，阻碍了它们向现实生活应用的扩散。例如，当面对与训练数据完全不同的输入时，端到端自动驾驶系统可能会失效，从而损害车辆的安全性。为了检测这种失败案例，这项工作提出了一个不确定性估计的一般框架，它使得政策训练的端到端能够不仅预测行动命令，而且预测其自身预测的信心。与以前的工作相比，我们的框架可以应用于任何现有的神经网络和任务，无需更改网络架构或丢失，或培训网络。为此，我们通过使用贝叶斯推断的输入和模型不确定性的前向传播来生成置信水平。我们在自动驾驶汽车的转向角回归任务上测试我们的框架，并将我们对现有方法的方法与真实数据集上的定性和定量结果进行比较。最后，我们展示了我们的框架对抗对抗性攻击的有趣产品。

Learning Depth from Monocular Videos Using Synthetic Data: A Temporally-Consistent Domain Adaptation Approach
Authors Yipeng Mou, Mingming Gong, Huan Fu, Kayhan Batmanghelich, Kun Zhang, Dacheng Tao
大多数现有技术的单眼深度估计方法都是监督学习方法。这种方法的成功在很大程度上取决于获得昂贵的高质量深度标签。最近的方法试图通过探索单眼视频的无监督线索来学习深度网络，这些线索更容易获得但不太可靠。在本文中，我们建议通过从易于获得的地面实况深度标签转移合成视频的知识来解决这一难题。由于合成图像和真实图像之间的时尚差异，我们提出了一种时间上一致的域自适应TCDA方法，该方法同时探索合成域中的标签和视频中的时间约束，以改进样式转移和深度预测。此外，我们利用合成数据中的地面实况光流和姿势信息来学习移动掩模和姿态预测网络。学习的移动掩模可以滤除产生错误时间约束的移动区域，并且估计的姿势提供用于估计时间约束的更好的初始化。实验结果证明了我们的方法的有效性和与现有技术相当的性能。

Cascade RetinaNet: Maintaining Consistency for Single-Stage Object Detection
Authors Hongkai Zhang, Hong Chang, Bingpeng Ma, Shiguang Shan, Xilin Chen
最近的研究试图采用级联单级探测器的思想来提高探测性能。在本文中，我们分析并发现不一致性是限制性能的主要因素。精确的锚与从先前位置提取的特征相关联，并且分类器由于未对准的分类和定位而混淆。此外，我们指出了级联方式的两个主要设计规则，提高了分类置信度和本地化性能之间的一致性，并保持了不同阶段之间的特征一致性。然后提出了一种名为Cas RetinaNet的多级物体探测器，用于减少未对准。它包括用增加的IoU阈值训练的连续阶段以改善相关性，以及用于减轻特征不一致性的新颖特征一致性模块。实验表明，我们提出的Cas RetinaNet可以在不同的模型和输入范围内实现稳定的性能提升。具体来说，我们的方法在具有挑战性的MS COCO数据集上将RetinaNet从39.1 AP改进到41.1 AP，没有任何铃声或口哨声。

Separable Convolutional LSTMs for Faster Video Segmentation
Authors Andreas Pfeuffer, Klaus Dietmayer
语义分割是自动驾驶汽车等自动机器人的重要模块。与单个图像分割相比，视频分割方法的优点在于考虑了时间图像信息，并且由于这个原因，它们的性能增加。因此，单个图像分割方法由诸如卷积LSTM convLSTM单元的循环单元扩展，其被放置在基本网络架构中的适当位置。然而，基于递归神经网络的视频分割方法的主要批评是它们的大参数计数和它们的计算复杂性，因此，它们的一个视频帧的推理时间比它们的基本版本长达66％。受空间和深度可分离卷积神经网络成功的启发，我们在这项工作中为convLSTM推广了这些技术，从而显着减少了参数的数量和所需的FLOP。在不同数据集上的实验表明，使用所提出的修改的convLSTM细胞的分割方法实现了相似或稍差的准确度，但在GPU上比使用标准convLSTM细胞的分割方法快15％。此外，引入了新的评估度量，其测量分割的视频序列中的闪烁像素的量。

Deep inspection: an electrical distribution pole parts study via deep neural networks
Authors Liangchen Liu, Teng Zhang, Kun Zhao, Arnold Wiliem, Kieren Astin Walmsley, Brian Lovell
配电杆是电力供应的重要资产。这些电线杆需要保持良好状态，以确保它们保护社区安全，保持供电可靠性并履行立法义务。但是，维护如此大量的资产是一项昂贵且具有挑战性的任务。为了解决这个问题，最近的方法利用从直升机和/或无人机检查中捕获的图像数据。在降低手动检查成本的同时，仍然需要对每个图像进行手动分析。因此，已经提出了几种基于图像的自动检查系统。在本文中，我们针对微小物体检测和极不平衡数据集这两个主要挑战，目前阻碍了自动检测的广泛部署。我们提出了一种新颖的两阶段放大检测方法，以逐渐关注感兴趣的对象。为了解决不平衡数据集问题，我们提出重新采样以及重新加权方案，以迭代地使模型适应大类的大类内变化，并平衡每个类的损失的贡献。最后，我们将这些组件集成在一起，并设计出一种新颖的自动检测框架。大量实验表明，与基线方法相比，我们提出的方法是有效的并且可以提高性能。

Stereo-based terrain traversability analysis using normal-based segmentation and superpixel surface analysis
Authors Aras R. Dargazany
在本文中，基于立体的可穿越性分析方法适用于越野移动机器人中的所有地形，例如，提出了无人地面车辆UGV。这种方法将地形可穿越性分析的问题重新分解为两个主要问题：1 3D地形重建和2个地形全部表面检测和分析。所提出的方法是使用立体相机进行地形的感知和3D重建。为了将3D重建地形中的所有现有表面检测为超像素表面即片段，使用基于几何的特征基于像素的表面法线来应用图像分割技术。检测到所有表面后，超像素表面可穿越性分析方法SSTA应用于所有检测到的表面超像素段，以便根据它们的可穿越性指数对它们进行分类。提出的SSTA方法基于1个超像素表面法线和平面估计，2使用超像素表面平面的可穿越性分析。在根据它们的可穿越性分析了所有超像素表面之后，这些表面最终被分为五个主要类别，如以下可穿越，半可穿越，不可穿越，未知和未定。

Instant Motion Tracking and Its Applications to Augmented Reality
Authors Jianing Wei, Genzhi Ye, Tyler Mullen, Matthias Grundmann, Adel Ahmadyan, Tingbo Hou
增强现实AR为用户带来身临其境的体验。随着计算机视觉和移动计算领域的最新进展，AR已经跨平台扩展，并且已经在主要产品中得到了更多的采用。启用AR功能的关键挑战之一是将虚拟内容正确锚定到现实世界，这一过程称为跟踪。在本文中，我们提出了一种运动跟踪系统，它能够稳健地跟踪平面目标并执行相对比例6DoF跟踪而无需校准。我们的系统在手机上实时运行，并已部署在数亿台设备上的多个主要产品中。

2nd Place Solution to the GQA Challenge 2019
Authors Shijie Geng, Ji Zhang, Hang Zhang, Ahmed Elgammal, Dimitris N. Metaxas
我们提出了一种简单的方法，可以实现复杂推理所涉及的视觉问题回答的意外优越性能。我们的解决方案从所有关于图像的问题的高频词汇中收集统计特征，并将其用作准确的知识，以回答同一图像的进一步问题。我们充分意识到这种设置并不是普遍适用的，并且在一个更常见的环境中，人们应该假设问题是单独提出的，并且无法收集这些问题以获得知识库。尽管如此，我们使用这种方法作为证据来证明我们观察到特征提取部分的瓶颈效应比知识推理部分更严重。当使用具有1个基本事实特征的相同推理模型时，我们显示出显着的差距2统计特征3从完全学习的检测器中检测到的特征，并分析这些间隙对于视觉推理主题的研究意味着什么。我们的统计特征模型在GQA Challenge 2019中获得第二名。

Rethinking RGB-D Salient Object Detection: Models, Datasets, and Large-Scale Benchmarks
Authors Deng Ping Fan, Zheng Lin, Jia Xing Zhao, Yun Liu, Zhao Zhang, Qibin Hou, Menglong Zhu, Ming Ming Cheng
近年来已经探索了使用RGB D信息进行显着物体检测。然而，在使用RGB D对现实世界人类活动场景进行显着物体检测建模方面花费的努力相对较少。在这项工作中，我们通过对RGB D显着物体检测做出以下贡献来填补空白。首先，我们仔细收集一个新的显着人物SIP数据集，其中包含1K高分辨率图像，涵盖各种视点，姿势，遮挡，光照和背景的各种真实世界场景。其次，我们进行了大规模，迄今为止最全面的基准比较现代方法，该方法长期以来在该领域缺失，可作为未来研究的基准。我们系统地总结了31个流行的模型，在7个数据集上评估了17种最先进的方法，总共约91K图像。第三，我们提出了一种简单的基线架构，称为Deep Depth Depurator Network D3Net。它由深度净化器单元和特征学习模块组成，分别执行初始低质量深度图过滤和交叉模态特征学习。这些组件形成嵌套结构，并且经过精心设计以便共同学习。 D3Net超过了所考虑的五个指标中任何先前竞争者的表现，因此成为推进研究前沿的强大基线。我们还演示了D3Net可用于从真实场景中有效地提取显着人物面具，从而在单个GPU上实现20 fps的有效背景改变书籍封面应用。所有显着性图，我们的新SIP数据集，基线模型和评估工具都可在以下网站公布

Improving 3D Object Detection for Pedestrians with Virtual Multi-View Synthesis Orientation Estimation
Authors Jason Ku, Alex D. Pon, Sean Walsh, Steven L. Waslander
准确估计行人的方向是自动驾驶的一项重要且具有挑战性的任务，因为这些信息对于跟踪和预测行人行为至关重要。本文提出了一种灵活的虚拟多视图合成模块，可以用于三维物体检测方法，以改善方向估计。该模块使用多步骤过程来获取精确定向估计所需的细粒度语义信息。首先，使用保持深度完成算法的结构来对场景s点云进行致密化，并且使用其对应的RGB像素对每个点进行着色。接下来，虚拟相机被放置在致密点云中的每个对象周围以生成新颖的视点，这保持了对象的外观。我们表明，该模块极大地改善了KITTI基准测试中具有挑战性的行人等级的方向估计。当与开源3D探测器AVOD FPN一起使用时，我们在行人方向，3D和鸟瞰视图基准测试中优于所有其他已发布的方法。

Efficient Pipeline for Camera Trap Image Review
Authors Sara Beery, Dan Morris, Siyu Yang
世界各地的生物学家使用相机陷阱来监测生物多样性和野生动物种群密度。计算机视觉社区已经朝着自动化相机陷阱中的物种分类挑战迈进了一步，但事实证明难以将在一个区域中训练的模型应用于在不同地理区域中收集的图像。在某些情况下，由于背景的变化和以前看不见的物种的存在，新区域的准确性会出现灾难性的后果。我们提出了一种管道，该管道利用预先训练的一般动物检测器和一组较小的标记图像来训练分类模型，该分类模型可以在新区域中有效地获得准确结果。

AugLabel: Exploiting Word Representations to Augment Labels for Face Attribute Classification
Authors Binod Bhattarai, Rumeysa Bodur, Tae Kyun Kim
增加图像空间中的数据，例如。翻转，裁剪等和激活空间，例如。辍学被广泛用于规范深度神经网络，并已成功应用于若干计算机视觉任务。与以前的工作不同，我们建议在标签空间中进行扩充，这些工作主要集中在上述领域进行扩充。在本文中，我们提出了一种新方法，通过利用现有分类标签的word2vec表示，生成具有连续图像值的固定尺寸标签。然后，我们将这些表示附加到现有的分类标签并训练模型。我们在两个具有挑战性的人脸属性分类数据集上验证了我们的想法。 CelebA和LFWA。我们的广泛实验表明，增强标签可以提高竞争性深度学习基线的性能，并减少对带注释的实际数据的需求，最多可达到50，同时获得与现有技术方法类似的性能。

Real-time Hair Segmentation and Recoloring on Mobile GPUs
Authors Andrei Tkachenka, Gregory Karpiak, Andrey Vakunov, Yury Kartynnik, Artsiom Ablavatski, Valentin Bazarevsky, Siargey Pisarchyk
我们提出了一种基于神经网络的头发分割的新方法，该方法来自专为实时移动应用而设计的单个相机输入。我们相对较小的神经网络产生高质量的毛发分割掩模，非常适合AR效果，例如，虚拟头发重新着色。所提出的模型在移动GPU 30 100 FPS上实现实时推断速度，这取决于具有高精度的设备。我们还提出了一种非常逼真的头发重新着色方案。我们的方法已经部署在主要的AR应用程序中，并被数百万用户使用。

Real-time Facial Surface Geometry from Monocular Video on Mobile GPUs
Authors Yury Kartynnik, Artsiom Ablavatski, Ivan Grishchenko, Matthias Grundmann
我们提出了一种基于端到端神经网络的模型，用于从AR应用的单个摄像机输入推断人脸的近似3D网格表示。 468个顶点的相对密集的网格模型非常适合基于面部的AR效果。所提出的模型展示了移动GPU 100 1000 FPS上的超实时推断速度，这取决于设备和模型变体以及与同一图像的手动注释中的方差相当的高预测质量。

MaskPlus: Improving Mask Generation for Instance Segmentation
Authors Shichao Xu, Shuyue Lan, Qi Zhu
实例分割是计算机视觉中有前途但具有挑战性的主题。诸如Mask R CNN的最近方法通常将该问题分为检测组件和掩模生成分支两部分，并且主要集中于检测部分的改进。在本文中，我们提出了一种扩展Mask R CNN的方法，该方法采用五种新颖的优化技术来改进掩模生成分支并减少训练中掩模分支与检测组件之间的冲突。这五种技术彼此独立，并且可以灵活地用于构建各种实例分割体系结构以提高整体准确性。我们通过对COCO数据集的测试证明了我们的方法的有效性。

Slow Feature Analysis for Human Action Recognition
Authors Zhang Zhang, Dacheng Tao
慢特征分析SFA从快速变化的输入信号中提取缓慢变化的特征。它已成功应用于建模皮层神经元的视觉感受野。神经科学的充分实验结果表明，时间慢度原理是视觉感知中的一般学习原则。在本文中，我们通过将判别信息与SFA学习相结合并考虑身体部位的空间关系，将SFA框架引入到人类行为识别问题中。特别地，我们考虑四种SFA学习策略，包括原始的无监督SFA U SFA，监督的SFA S SFA，判别SFA D SFA和空间判别SFA SD SFA，以从大量的SFA SD SFA中提取慢特征函数。通过在运动边界中随机采样获得的训练长方体。然后，为了表示动作序列，将平方的一阶时间导数在所有变换的长方体上累积成一个特征向量，其被称为累积平方导数ASD特征。 ASD功能对动作序列中慢速特征的统计分布进行编码。最后，训练线性支持向量机SVM以对由ASD特征表示的动作进行分类。我们进行了广泛的实验，包括两组对照实验，两组关于KTH和Weizmann数据库的大规模实验，以及两组关于CASIA和UT相互作用数据库的实验，以证明SFA对人类行为识别的有效性。

Natural Adversarial Examples
Authors Dan Hendrycks, Kevin Zhao, Steven Basart, Jacob Steinhardt, Dawn Song
我们介绍了真实世界，未修改和自然发生的自然对抗性示例，这些示例会导致分类器精度显着降低。我们策划了7,500个自然对抗示例，并将它们发布到我们称之为ImageNet A的ImageNet分类器测试集中。此数据集用作测量分类器稳健性的新方法。与l p对抗性示例一样，ImageNet A示例成功转移到看不见或黑盒分类器。例如，在ImageNet A上，DenseNet 121获得大约2精度，大约90的精度下降。恢复这种准确性并不简单，因为ImageNet A示例利用了当前分类器中的深层缺陷，包括过度依赖颜色，纹理和背景线索。我们观察到用于提高鲁棒性的流行训练技术几乎没有效果，但我们表明一些架构变化可以增强对自然对抗性示例的鲁棒性。未来的研究需要对这个严格的ImageNet测试集进行强大的推广。

Explaining Classifiers with Causal Concept Effect (CaCE)
Authors Yash Goyal, Uri Shalit, Been Kim
我们如何理解深度神经网络所做出的分类决策我们建议使用因果推理的思想来回答这个问题。我们将因果概念效应CaCE定义为概念的存在与否对给定深度神经网络的预测的因果效应。然后，我们使用此度量作为平均值，以了解推动网络预测的因素和不预测的因素。然而，许多现有的可解释性方法仅依赖于相关性，从而导致可能具有误导性的解释。我们展示了CaCE如何避免这种错误。在医学等高风险领域，了解预测的根本原因至关重要。如果我们知道网络的预测是由任意概念引起的，例如X射线室中的照明条件而不是医学上有意义的概念，这将阻止我们对此类模型进行灾难性部署。

Boosting Resolution and Recovering Texture of micro-CT Images with Deep Learning
Authors Ying Da Wang, Ryan T. Armstrong, Peyman Mostaghimi
数字摇滚成像受到探测器硬件的限制，并且必须在视场FOV和图像分辨率之间进行权衡。这可以通过采用宽视场，低分辨率LR图像和超分辨率高分辨率HR，高FOV图像的超分辨率SR技术来补偿。增强型深度超分辨率生成对抗网络EDSRGAN在深度学习数字岩石超分辨率数据集上进行了培训，该数据集是12000个原始和处理过的uCT图像的多样化编译。该网络显示出与双三次插值相比，相对误差降低50至70的可比性能。与SRCNN和其他方法相比，恢复纹理中的GAN性能显示出优异的视觉相似性。差异图指示SRGAN网络的SRCNN部分恢复大规模边缘晶粒边界特征，而GAN网络再生感知上难以区分的高频纹理。网络性能通过增强来推广，显示出对噪声和模糊的高适应性。 HR图像被馈送到网络中，生成HR SR图像以将网络性能外推到HR图像本身中存在的子分辨率特征。结果表明，尽管网络在经过训练的规范之外运行，但在溶解矿物质和薄裂缝等分辨率特征下仍然可以再生。与扫描电子显微镜图像的比较显示细节与样品的基本几何形状一致。纹理的恢复有利于数字岩石的表征，其具有高比例的分辨率微孔特征，例如碳酸盐和煤样品。通常受岩煤矿物学约束，快速瞬态成像水驱或源微孔隙能量约束的图像可以精确地超分辨，以便进一步分析下游。

Anatomically-Informed Multiple Linear Assignment Problems for White Matter Bundle Segmentation
Authors Giulia Bert , Paolo Avesani, Franco Pestilli, Daniel Bullock, Bradley Caron, Emanuele Olivetti
从人体束图中分割白质束是几个应用感兴趣的任务。用于束分割的当前方法仅考虑关于束的相对解剖位置的先验知识，或仅考虑其几何特性。我们的目标是通过提出一种方法来改进分割结果，该方法同时考虑有关底层解剖结构和束的几何形状的信息。为了实现该目标，我们通过在优化过程中包括先前的解剖信息来扩展基于线性分配问题LAP的现有技术基于示例的方法。所提出的方法相对于原始方法显示出显着的改进，特别是在小束上。

CLCI-Net: Cross-Level fusion and Context Inference Networks for Lesion Segmentation of Chronic Stroke
Authors Hao Yang, Weijian Huang, Kehan Qi, Cheng Li, Xinfeng Liu, Meiyun Wang, Hairong Zheng, Shanshan Wang
从T1加权MR图像分割中风病变对于大规模中风康复神经影像学分析具有重要价值。然而，这项任务面临着巨大的挑战，例如大范围的中风病变量表和组织强度相似性。着名的编码器解码器卷积神经网络虽然在医学图像分割领域取得了很大的成就，但由于多尺度特征和上下文信息的使用不足，可能无法解决这些挑战。为了解决这些挑战，本文提出了一种跨层融合和上下文推断网络CLCI网络，用于T1加权MR图像的慢性卒中病变分割。具体来说，开发了跨层功能Fusion CLF策略，以充分利用不同层次的不同规模特征扩展Atrous空间金字塔池ASPP与CLF，我们丰富了多尺度特征来处理不同的病变大小此外，卷积长期短期存储器ConvLSTM用于推断上下文信息，从而捕获精细结构以解决强度相似性问题。所提出的方法在开源数据集上进行了评估，即卒中后病变的解剖学描述ATLAS，结果显示我们的网络优于五种最先进的方法。我们提供代码和模型

X-Net: Brain Stroke Lesion Segmentation Based on Depthwise Separable Convolution and Long-range Dependencies
Authors Kehan Qi, Hao Yang, Cheng Li, Zaiyi Liu, Meiyun Wang, Qiegen Liu, Shanshan Wang
在过去几年中，脑卒中的发病率迅速增加。为了帮助专家进行病变测量和治疗计划，临床实践对于自动分割方法至关重要。最近，基于深度学习的方法和用于上下文信息提取的方法已经在许多图像分割任务中起作用。然而，由于对大量参数的训练不足，它们的性能受到限制，这些参数有时无法捕获长距离依赖性。为了解决这些问题，我们提出了一种基于深度可分离卷积的X Net，它设计了非局部运算，即特征相似模块FSM，以捕获长程依赖性。采用的深度卷积允许减小网络大小，而开发的FSM提供更有效，密集的上下文信息提取，从而促进更好的分割。 X Net的有效性是在开放数据集上评估的。在中风ATLAS后的病变的解剖学描记中，与其他六种现有技术方法相比，其具有优越的性能。我们提供代码和模型

Single-bit-per-weight deep convolutional neural networks without batch-normalization layers for embedded systems
Authors Mark D. McDonnell, Hesham Mostafa, Runchun Wang, Andre van Schaik
批量归一化BN层被认为是当今用于计算机视觉任务（例如分类和检测）的现有技术的深度卷积神经网络中的整体重要的层类型。然而，BN层引入了复杂性和计算开销，这对于诸如UAV，机器人和物联网IoT设备的实时嵌入式视觉系统的低功率定制硬件实现的训练和/或推断是非常不希望的。当在培训期间批量大小需要非常小时，它们也是有问题的，并且诸如比BN层最近引入的残余连接的创新可能潜在地减少了它们的影响。在本文中，我们的目标是量化BN层在图像分类网络中提供的好处，与替代选择相比较。特别是，我们研究使用移位的ReLU层而不是BN层的网络。我们发现，在应用于ImageNet，CIFAR 10和CIFAR 100图像分类数据集的广泛残余网络的实验之后，BN层不能始终如一地提供显着优势。我们发现BN层提供的精度裕度取决于数据集，网络大小和权重的位深度。我们得出结论，在由于速度，存储器或复杂性成本而不希望BN层的情况下，应该考虑使用移位的ReLU层，我们发现它们可以在所有这些区域中提供优势，并且通常不会产生显着的准确性成本。

AirwayNet: A Voxel-Connectivity Aware Approach for Accurate Airway Segmentation Using Convolutional Neural Networks
Authors Yulei Qin, Mingjian Chen, Hao Zheng, Yun Gu, Mali Shen, Jie Yang, Xiaolin Huang, Yue Min Zhu, Guang Zhong Yang
CT扫描的气道分割对于肺部疾病诊断和支气管内导航至关重要。由于气道的复杂结构和各种外观，手动抽取气道需要付出艰苦的努力。对于自动气道提取，基于卷积神经网络CNN的方法最近已成为最先进的方法。然而，CNN仍然存在挑战，即感知树状图案并理解气道的连通性。为了解决这个问题，我们提出了一种名为AirwayNet的体素连接感知方法，用于精确的气道分割。通过连通性建模，将传统的二进制分割任务转换为26个连通性预测任务。因此，我们的AirwayNet学习气道结构和相邻体素之间的关系。为了利用背景知识，将肺部距离图和体素坐标作为附加语义信息馈入AirwayNet。与现有方法相比，AirwayNet实现了卓越的性能，展示了网络对体素连接的意识的有效性。

Improved Reinforcement Learning through Imitation Learning Pretraining Towards Image-based Autonomous Driving
Authors Tianqi Wang, Dong Eui Chang
我们提供了一个自动驾驶任务的训练管道，给出当前的摄像机图像和车辆速度作为输入，以产生油门，制动和转向控制输出。模拟器Airsim的便利天气和照明API在训练期间提供了足够的多样性，这对于提高训练有素的策略的稳健性非常有帮助。为了不限制可能的策略性能，我们使用连续且确定的控制策略设置。我们利用ResNet 34作为我们的演员和评论家网络，在完全连接的层中略有变化。考虑到人类对这项任务的掌握以及这项任务的高度复杂性，我们首先使用模仿学习来模拟给定的人类政策，并将训练有素的政策及其权重用于我们使用DDPG的强化学习阶段。与用于自动驾驶任务的纯模仿学习和纯DDPG相比，这种组合显示出相当大的性能提升。

An Inter-Layer Weight Prediction and Quantization for Deep Neural Networks based on a Smoothly Varying Weight Hypothesis
Authors Kang Ho Lee, JoonHyun Jeong, Sung Ho Bae
深度神经网络的网络压缩已经成为深度学习研究的重要部分，因为在实际资源受限环境中对深度学习模型的需求增加。在本文中，我们观察到相邻卷积层中的权重在形状和值上具有很强的相似性，即，权重倾向于沿着层平滑地变化。我们将这种现象称为文本平滑变化权重假设SVWH。基于SVWH和传统视频编码方案中的帧间预测方法，我们提出了一种新的文本层间权重预测ILWP和量化方法，其量化预测的权重残差。由于预测的权重残差倾向于遵循具有非常低方差的拉普拉斯分布，因此可以更有效地应用权重量化，从而产生更多的零权重和增强的权重压缩比。此外，我们提出了消除非纹理位的新损失，这使我们能够更有效地存储纹理位。也就是说，所提出的损失使权重正则化，使得相邻两个层之间的并置权重具有相同的值。我们的综合实验表明，与以前的深度神经网络量化压缩方法相比，该方法在相同的精度水平下实现了更高的权重压缩率。

Adversarial Sensor Attack on LiDAR-based Perception in Autonomous Driving
Authors Yulong Cao, Chaowei Xiao, Benjamin Cyr, Yimeng Zhou, Won Park, Sara Rampazzi, Qi Alfred Chen, Kevin Fu, Z. Morley Mao
在自动驾驶汽车AV中，一个基本支柱是感知，它利用相机和激光雷达光探测和测距等传感器来了解驾驶环境。由于其对道路安全的直接影响，已经多次努力研究其感知系统的安全性。与之前专注于基于相机的感知的工作相反，在这项工作中，我们对AV设置中基于LiDAR的感知进行了第一次安全性研究，这是非常重要但尚未探索的。我们将LiDAR欺骗攻击视为威胁模型，并将攻击目标设置为靠近受害者AV前方的欺骗性障碍。我们发现，由于基于机器学习的对象检测过程，盲目地应用LiDAR欺骗不足以实现该目标。因此，我们接着探索了策略性地控制欺骗性攻击以欺骗机器学习模型的可能性。我们将此任务表述为优化问题，并为输入扰动函数和目标函数设计建模方法。我们还确定了使用优化直接解决问题的固有局限性，并设计了一种结合优化和全局采样的算法，将攻击成功率提高到75左右。作为了解AV驱动决策级别的攻击影响的案例研究，我们构建并评估了可能损害道路安全性和移动性的两种攻击场景。我们还讨论了AV系统，传感器和机器学习模型级别的防御方向。

Deep learning-based color holographic microscopy
Authors Tairan Liu, Zhensong Wei, Yair Rivenson, Kevin de Haan, Yibo Zhang, Yichen Wu, Aydogan Ozcan
我们报告了一个基于生成对抗网络GAN的框架，该框架使用由三个不同波长的光同时照射的样本的单个全息图来执行高保真彩色图像重建。训练的网络学习消除丢失的相位相关伪像，并为重建的图像生成准确的颜色变换。我们的框架使用标记有不同组织学染色的肺和前列腺组织切片进行实验证明。设想该框架适用于护理点组织病理学，并且在相干显微镜系统的吞吐量方面呈现显着改进，因为仅需要单个全息图样本来进行精确的彩色成像。

Chinese Abs From Machine Translation

增补Tue 16

Multi-scale Graph-based Grading for Alzheimer's Disease Prediction
Authors Kilian Hett, Vinh Thong Ta, Jos V. Manj n, Pierrick Coup
具有轻度认知功能障碍的受试者的预测MCI将进展为阿尔茨海默氏病AD具有临床相关性，并且可能首先对加速新疗法的开发具有显着影响。在本文中，我们提出了一种新的基于MRI的生物标记物，使我们能够准确地预测MCI受试者向AD的转换。为了更好地捕获AD签名，我们引入了两个主要贡献。首先，我们提出了一种新的基于图的分级框架，以组合主体间相似性特征和内部主体变异性特征。该框架涉及基于补片的解剖结构分级和基于图形的结构改变关系建模。其次，我们提出了一种创新的多尺度脑分析，以捕捉不同解剖水平的AD引起的变化。基于级联分类器，这种多尺度方法可以同时分析整个脑结构和海马子区域的变化。在使用ADNI 1数据集的实验期间，所提出的基于多尺度图的分级方法获得了曲线AUC为81的区域，以预测MCI受试者在三年内转化为AD。此外，当与认知评分相结合时，所提出的方法获得85个AUC。与在相同数据集上评估的现有技术方法相比，这些结果是有竞争力的。

Efficient Video Generation on Complex Datasets
Authors Aidan Clark, Jeff Donahue, Karen Simonyan
通过强烈的规模利用，自然图像的生成模型已朝着高保真度样本发展。我们试图通过展示在复杂的Kinetics 600数据集上训练的大型生成对抗网络能够产生比以前的工作复杂得多的视频样本，将这一成功带到视频建模领域。我们提出的网络，双视频鉴别器GAN DVD GAN，通过利用其鉴别器的计算效率分解，扩展到更长和更高分辨率的视频。我们评估了视频合成和视频预测的相关任务，并在Kinetics 600的预测上实现了新的Frechet Inception Distance，以及UCF 101数据集上的合成初始分数，同时建立了一个数字Kinetics 600的强大基线

Recovery Guarantees for Compressible Signals with Adversarial Noise
Authors Jasjeet Dhaliwal, Kyle Hambrook
我们为已经被噪声破坏的可压缩信号提供恢复保证，并扩展1中引入的框架，以防御神经网络对抗0 0范数和2范数攻击。具体地说，对于在某些变换域中近似稀疏并且已经被噪声扰动的信号，我们提供了在变换域中准确恢复信号的保证。然后，我们可以使用恢复的信号在其原始域中重建信号，同时在很大程度上消除噪声。我们的结果是通用的，因为它们可以直接应用于实践中使用的大多数单一变换，并且保持椭圆0范数有界噪声和椭圆2范数有界噪声。在ell 0范数有界噪声的情况下，我们证明了迭代硬阈值IHT和基础追踪BP的恢复保证。对于ell 2范数有界噪声的情况，我们为BP提供恢复保证。理论上，这些保证支持1中引入的防御框架，用于防御神经网络对抗敌对输入。最后，我们使用IHT和BP对抗One Pixel Attack 21，Carlini Wagner ell 0和ell 2攻击3，Jacobian Saliency Based攻击18，以及DeepFool攻击17对CIFAR 10 12，MNIST 13，以及时尚MNIST 27数据集。这超出了1的实验演示。

Detecting and Simulating Artifacts in GAN Fake Images
Authors Xu Zhang, Svebor Karaman, Shih Fu Chang
为了检测GAN生成的图像，传统的监督机器学习算法需要从目标GAN模型中收集许多真实和伪造图像。但是，攻击者使用的特定模型通常不可用。为了解决这个问题，我们提出了一个GAN模拟器AutoGAN，它可以模拟由几个流行的GAN模型共享的公共管道产生的工件。另外，我们识别由公共GAN流水线中包括的上采样组件引起的唯一伪像。我们在理论上表明，这些伪像表现为频域中光谱的复制，因此提出了基于光谱输入而不是像素输入的分类器模型。通过使用模拟图像来训练基于频谱的分类器，即使没有在训练期间看到由目标GAN模型产生的假图像，我们的方法在检测由诸如CycleGAN的流行GAN模型生成的假图像方面实现了最先进的性能。

An Efficient Framework for Visible-Infrared Cross Modality Person Re-Identification
Authors Emrah Basaran, Muhittin Gokmen, Mustafa E. Kamasak
可见的红外交叉模态人员识别VI ReId是在光线不足或黑暗环境中进行视频监控的重要任务。尽管最近有许多关于可见域ReId中人员识别的研究，但很少有关于VI ReId的研究。除了ReId和VI ReId常见的挑战，例如姿势照明变化，背景杂乱和遮挡，VI ReId还有其他挑战，因为红外图像中没有颜色信息。因此，VI ReId系统的性能通常低于ReId系统。在这项工作中，我们提出了一个4流框架来提高VI ReId性能。我们使用输入图像的不同表示在每个流中训练单独的深度卷积神经网络。我们期望可以从每个流中学习不同的和互补的特征。在我们的框架中，灰度和红外输入图像用于在第一个流中训练ResNet。在第二流中，使用通过重复红外通道创建的RGB和3通道红外图像。在剩下的两个流中，我们使用局部模式映射作为输入图像。利用局部Zernike矩变换生成这些地图。从第3流中的灰度和红外图像以及最后一个流中的RGB和3通道红外图像获得局部图案映射。我们通过采用重新排序算法进行后期处理来提高所提出框架的性能。我们的结果表明，在所有搜索和室内搜索模式下，通过将Rank 1 mAP分别提高34.2 37.9和37.4 34.8，所提出的框架优于SYSU MM01数据集的当前最新技术水平。

Color Cerberus
Authors A.Savchik, E.Ershov, S.Karpenko
简单的卷积神经网络能够赢得ISISPA色彩恒定性竞争。 Bianco，2017神经结构的部分重新实现将在这种设置中显示出更好的结果。

Quick, Stat!: A Statistical Analysis of the Quick, Draw! Dataset
Authors Raul Fernandez Fernandez, Juan G. Victores, David Estevez, Carlos Balaguer
Quick，Draw Dataset是一个Google数据集，包含5000万个绘图，分为345个类别，从Quick，Draw游戏的用户处收集。与大多数现有图像数据集相比，在快速绘制数据集中，绘图存储为铅笔位置的时间序列，而不是由像素组成的位图矩阵。此方面使此数据集成为当时可用的最大涂鸦数据集。 Quick，Draw Dataset是研究人员开发和研究机器学习技术的绝佳机会。由于该数据集的大小及其来源的性质，很少有关于所含图纸质量的信息。在本文中，对Quick，Draw Dataset中包含的三个类进行了统计分析，描述了山，书和鲸。目标是向读者提供对该数据集中收集的数据的第一印象。为了分析图纸的质量，训练分类神经网络以获得分类分数。使用该分类分数和数据集提供的参数，提供了该数据集中包含的图纸的质量和性质的统计分析。

Improving the Harmony of the Composite Image by Spatial-Separated Attention Module
Authors Cun Xiaodong, Pun Chi Man
图像合成是图像处理中最重要的应用之一。然而，拼接区域和背景之间的不协调外观降低了图像的质量。因此，我们解决图像协调的问题给定拼接图像和拼接区域的掩模，我们尝试协调粘贴区域的样式与背景非拼接区域。以前的方法一直专注于神经网络的直接学习。在这项工作中，我们从经验观察开始，差异只能在拼接图像和协调结果之间的拼接区域中找到，而它们在非拼接区域中共享相同的语义信息和外观。因此，为了单独学习掩蔽区域和其他区域中的特征图，我们提出了一种名为空间分离注意模块S2AM的新颖注意模块。此外，我们通过以两种不同的方式将S2AM插入Unet结构的较粗糙的低级特征中来设计新颖的图像协调框架。除了图像协调之外，我们在没有特定掩模的情况下协调合成图像迈出了一大步。实验表明，在我们的任务中，所提出的S2AM比其他最先进的注意模块表现更好。此外，我们通过多个观点的标准证明了我们的模型相对于其他最先进的图像协调方法的优势。代码可在

Sequence Level Semantics Aggregation for Video Object Detection
Authors Haiping Wu, Yuntao Chen, Naiyan Wang, Zhaoxiang Zhang
视频异议检测VID近年来一直是一个不断上升的研究方向。 VID的核心问题是由快速运动引起的视频帧的外观劣化。这个问题基本上不适用于单帧。因此，聚合来自其他帧的有用特征成为自然选择。现有方法严重依赖光流或递归神经网络进行特征聚合。然而，这些方法更多地强调附近的时间帧。在这项工作中，我们认为聚合整个序列级别的特征将导致视频对象检测更具辨别力和鲁棒性。为了实现这一目标，我们设计了一种新颖的Sequence Level Semantics Aggregation SELSA模块。我们进一步证明了该方法与经典谱聚类方法有着密切的关系，从而为理解VID问题提供了新的视角。最后，我们在大规模ImageNet VID数据集和EPIC KITCHENS数据集上测试我们提出的方法，并与先前的工作相比，归档新的最先进的结果。此外，为了实现如此优越的性能，我们不需要像以前的工作那样其他复杂的后处理方法，如Seq NMS或Tubelet重新计算，这使我们的管道简单和清洁。

Mitigating the Hubness Problem for Zero-Shot Learning of 3D Objects
Authors Ali Cheraghian, Shafin Rahman, Dylan Campbell, Lars Petersson
先进3D传感器的开发使得许多物体能够在野外大规模捕获，因此3D物体识别系统可能遇到系统未接受过训练的许多物体。零射击学习ZSL方法可以帮助这些系统识别以前看不见的对象。将ZSL应用于3D点云对象是3D视觉领域中的一个新兴话题，然而，ZSL经常遇到的一个重要问题是所谓的集线度问题，即当模型偏向于仅预测几个特定标签时大多数测试实例。我们观察到这种轮询问题对于3D识别而言比对2D识别更严重。其中一个原因是，在2D中，可以使用经过训练的大型数据集（如ImageNet）训练的网络，这样可以生成高质量的特征。然而，在3D情况下，没有可用于预训练的这种大规模标记数据集，这意味着提取的3D特征具有较差的质量，这反过来加剧了枢纽问题。因此，在本文中，我们提出了专门解决中心问题的损失。我们提出的方法对零射击和广义零射击学习都有效，我们对具有挑战性的数据集ModelNet40，ModelNet10，McGill和SHREC2015进行了广泛的评估。建立了3D情况下的零射击任务的新的现有技术结果。

Multimodal deep networks for text and image-based document classification
Authors Nicolas Audebert, Catherine Herold, Kuider Slimani, C dric Vidal
文档图像的分类是旧手稿，在线订阅和管理程序存档的关键步骤。计算机视觉和深度学习被认为是基于视觉外观对文档进行分类的第一种解决方案。然而，仅通过视觉分析无法实现实际环境中所需的细粒度分类。通常，相关信息在文档的实际文本内容中。我们设计了一个多模态神经网络，它能够从字嵌入中学习，通过OCR提取的文本和图像进行计算。我们表明，这种方法使Tobacco3482和RVL CDIP的纯图像精度提高了3倍，我们的新QS OCR文本数据集增强了

CA-RefineNet:A Dual Input WSI Image Segmentation Algorithm Based on Attention
Authors Ziqiang Li, Rentuo Tao, Qianrun Wu, Bin Li
由于病理图像的高分辨率，医学病理图像中的自动语义分割显示出比自然图像中更大的挑战。滑动窗口方法已经显示出其对解决由整个幻灯片图像WSI的高分辨率引起的问题的影响。然而，由于其本地化，滑动窗口方法也缺乏全球信息。本文提出了一种基于注意力的双输入语义分割网络，其中一个输入提供小规模的精细信息，另一个输入提供大规模的粗略信息。与单输入法相比，我们的方法CA RefineNet在ICIAR2018乳腺癌分割任务中表现出显着的性能改善。

FastV2C-HandNet: Fast Voxel to Coordinate Hand Pose Estimation with 3D Convolutional Neural Networks
Authors Rohan Lekhwani
单眼深度图像的手姿势估计一直是计算机视觉社区中的一个重要且具有挑战性的问题。在本文中，我们提出了一种从2D深度图像估计3D手部关节位置的新方法。与以前的大多数方法不同，我们的模型从深度图像中捕获3D空间信息，从而使其更好地理解输入。我们对输入深度图进行体素化以捕获输入的3D特征并执行3D数据增强，以使我们的网络对现实世界图像具有鲁棒性。我们的网络采用端到端方式进行培训，与其他方法相比，可显着降低时间和空间复杂性。通过大量实验，我们证明我们的模型在训练和预测3D手部关节位置所需的时间方面优于最先进的方法。这使得我们的方法更适合于现实世界的手姿势估计场景。

Enabling Multi-Shell b-Value Generalizability of Data-Driven Diffusion Models with Deep SHORE
Authors Vishwesh Nath, Ilwoo Lyu, Kurt G. Schilling, Prasanna Parvathaneni, Colin B. Hansen, Yucheng Tang, Yuankai Huo, Vaibhav A. Janve, Yurui Gao, Iwona Stepniewska, Adam W. Anderson, Bennett A. Landman
抽象。扩散信号的体内模型模型对于解释微米级组织环境的组织以及毫米分辨率的数据是必不可少的。数据驱动方法的最新进展使得能够直接比较和优化体内数据的方法，其具有外部验证的组织切片，具有2D和3D组织学。然而，所有现有方法都限制了b值之间基于1个模型的联系或与单个壳数据的2个有限关联的假设。我们推广了先前使用单壳球谐函数变换的深度学习模型，以集成最近开发的简谐振子重建SHORE基础。为了能够在SHORE流形上进行学习，我们使用SHORE基础提供了纤维取向分布FOD对象的替代公式，同时在SHORE基础上代表观察到的扩散加权数据。为了确保SHORE超参数优化的一致性，我们提出了Deep SHORE方法来学习数据优化流形。 Deep SHORE通过8倍交叉验证评估临床前MRI组织学数据，具有4个b值。在两个单独的3T MRI扫描仪上评估体内人体数据的可推广性。角度相关性ACC的特异性与临床前数据相比，单壳0.78相对于0.73和0.73，多壳0.80相对于0.74 p 0.001有所改善。在体内人体数据中，Deep SHORE在扫描仪中更加一致，相对于其他多壳方法，在ACC方面为0.39，0.52和0.57。总之，Deep SHORE是一种很有前途的方法，可以在具有不同b值，扩散壳数量和每个壳的梯度方向的条件下，使用DW MRI进行数据驱动学习。

Perceptually Motivated Method for Image Inpainting Comparison
Authors Ivan Molodetskikh, Mikhail Erofeev, Dmitry Vatolin
自动图像修复领域近年来发展迅速，但还没有人提出评估算法的标准方法。这种缺失是由于问题的挑战性质图像修复算法在所得图像中争取现实主义，但现实主义是人类感知固有的主观概念。现有的客观图像质量指标提供了人类认为或多或少现实的差的近似值。

State Estimation in Visual Inertial Autonomous Helicopter Landing Using Optimisation on Manifold
Authors Thinh Hoang Dinh, Hieu Le Thi Hong, Tri Ngo Dinh
自主直升机降落是一项具有挑战性的任务，需要有关直升机位置，姿态以及直升机停机坪位置的飞机状态的准确信息。为此，我们提出了一种融合来自惯性测量单元IMU和单目相机的数据的解决方案，该单目相机能够检测图像平面中的直升机停机坪位置。该算法利用基于流形的非线性优化而不是在时间上均匀分布的关键帧中的预积分IMU测量和重投影误差，在精度方面表现出良好的性能并且在计算上是可行的。我们对本文的贡献是雅各比表达的地标的正式地址和平等约束高斯牛顿方法对这个特定问题的适应。 MATLAB Simulink的数值模拟证实了给定索赔的有效性。

Unsupervised Automatic Building Extraction Using Active Contour Model on Unregistered Optical Imagery and Airborne LiDAR Data
Authors Thanh Huy Nguyen, Sylvie Daniel, Didier Gueriot, Christophe Sintes, Jean Marc Le Caillec
城市场景中建筑物的自动提取已经成为摄影测量和遥感领域越来越受关注的主题，尤其是自20世纪90年代中期以来LiDAR系统的出现。然而，实际上，由于建筑物尺寸和形状的复杂性以及周围环境，这项任务仍然非常具有挑战性。活动轮廓模型，俗称蛇模型，已广泛应用于计算机视觉和图像处理的许多应用中，也用于从航空卫星图像中提取建筑物。受现有蛇模型对建筑物提取的限制的启发，本文提出了一种无人监督和全自动蛇模型，使用光学图像和未注册的机载LiDAR数据集提取建筑物，无需手动初始点或训练数据。所提出的方法被证明能够从复杂的环境中提取具有不同颜色的建筑物，并且产生高的整体精度。

+++FoodX-251: A Dataset for Fine-grained Food Classification
Authors Parneet Kaur, Karan Sikka, Weijun Wang, Serge Belongie, Ajay Divakaran
食物分类是一个具有挑战性的问题，因为大量的类别，不同食物之间的高视觉相似性，以及缺乏用于训练最先进深度模型的数据集。解决这个问题需要在计算机视觉模型以及用于评估这些模型的数据集方面取得进展。在本文中，我们将重点放在第二个方面，并介绍FoodX 251，这是一个251种细粒食品类别的数据集，其中158k图像来自网络。我们使用118k图像作为训练集，并为40k图像提供人工验证标签，可用于验证和测试。在这项工作中，我们概述了创建此数据集的过程，并提供了深度学习模型的相关基线。 FoodX 251数据集已用于在CVPR 2019的细粒度视觉分类研讨会FGVC6中组织iFood 2019挑战，可供下载。

+++利用emoji嵌入进行图像视觉情感分析Smile, be Happy :) Emoji Embedding for Visual Sentiment Analysis
Authors Ziad Al Halah, Andrew Aitken, Wenzhe Shi, Jose Caballero
由于缺乏大规模数据集，视觉情感分析中的主流方法是利用在ImageNet等大型数据集中训练用于对象分类的模型。然而，对象是情绪中立的，这阻碍了对这些任务的转移学习的预期收益。在这项工作中，我们建议通过学习一种新的情感对齐图像嵌入来克服这个问题，该图像嵌入更适合于随后的视觉情感分析。我们的嵌入利用了大规模的表情符号和图像之间错综复杂的关系以及来自社交媒体的现成数据。表情符号与语言无关，一致，并带有清晰的情绪信号，这使得它们成为学习情感对齐嵌入的绝佳代理。因此，我们构建了一个新的数据集，其中包含从Twitter收集的400万张图像及其相关的表情符号。我们使用表情符号预测任务作为代理训练用于图像嵌入的深度神经模型。我们的评估表明，所提出的嵌入在多个情感分析基准中始终优于基于对象的流行对象。此外，没有铃铛和口哨，我们紧凑，有效和简单的嵌入优于这些公共基准上更精细和定制的最先进的深模型。此外，我们基于他们的视觉情绪反应引入了一种新颖的表情符号表示，这有助于更深入地理解表情符号模态及其在社交媒体上的使用。

ThirdEye: Triplet Based Iris Recognition without Normalization
Authors Sohaib Ahmad, Benjamin Fuller
大多数虹膜识别管道涉及三个阶段分割成虹膜非虹膜像素，将虹膜区域归一化到固定区域，并提取相关特征用于比较。鉴于深度学习的最新进展，谨慎地询问准确虹膜识别需要哪些阶段。 Lojez等。 IWBF 2019最近得出结论，分割阶段对于良好的准确性仍然至关重要。我们要求归一化是否有益为了回答这个问题，我们开发了一种新的虹膜识别系统，称为ThirdEye，基于三重卷积神经网络Schroff等，ICCV 2015。 ThirdEye直接使用分段图像而不进行标准化。我们分别在ND 0405，UbirisV2和IITD数据集上观察到1.32,9.20和0.59的相等错误率。对于最受约束的数据集IITD，这可以改善最佳的先前工作。但是，对于ND 0405和UbirisV2，我们的等错误率比现有系统略差。我们的结论假设是规范化对于较少受约束的环境更为重要。

FMRI data augmentation via synthesis
Authors Peiye Zhuang, Alexander G. Schwing, Sanmi Koyejo
我们通过综合提出了fMRI数据增强的经验评估。对于合成，我们使用在真实神经成像数据上训练的生成模型来产生新的任务依赖的功能性脑图像。分析生成模型包括经典方法，如高斯混合模型GMM，以及现代隐式生成模型，如生成对抗网络GAN和变分自动编码器VAE。特别地，所提出的GAN和VAE模型利用3维卷积，这使得能够利用结构化空间相关性对高维脑图像张量进行建模。然后，合成的数据集用于增加用于预测认知和行为结果的分类器。我们的研究结果表明，所提出的模型能够生成高质量的合成脑图像，这些图像具有多样性和任务依赖性。也许最重要的是，通过综合的数据增强的性能改进被证明是对预测模型的选择的补充。因此，我们的结果表明，通过综合进行数据增加是一种有前景的方法，可以解决fMRI数据的有限可用性，并提高预测性fMRI模型的质量。

Understanding Deep Learning Techniques for Image Segmentation
Authors Swarnendu Ghosh, Nibaran Das, Ishita Das, Ujjwal Maulik
机器学习社区已经被大量基于深度学习的方法所淹没。许多具有挑战性的计算机视觉任务，例如在无约束环境中的对象的检测，定位，识别和分割，正被各种类型的深度神经网络（例如卷积神经网络，循环网络，对抗网络，自动编码器等）有效地解决。虽然已经有大量关于物体检测或识别领域的分析研究，但许多新的深度学习技术已经出现在图像分割技术方面。本文从分析的角度探讨了这些各种深度学习的图像分割技术。这项工作的主要目标是直观地了解对图像分割领域做出重大贡献的主要技术。从一些传统的图像分割方法出发，本文进一步描述了深度学习对图像分割领域的影响。此后，大多数主要的分割算法都在逻辑上用专用于其独特贡献的段落进行分类。通过大量直观的解释，读者可以更好地可视化这些过程的内部动态。

Multi-Task Recurrent Convolutional Network with Correlation Loss for Surgical Video Analysis
Authors Yueming Jin, Huaxia Li, Qi Dou, Hao Chen, Jing Qin, Chi Wing Fu, Pheng Ann Heng
手术工具存在检测和手术相位识别是外科视频分析中的两个基本但具有挑战性的任务，也是现代手术室中各种应用中非常重要的组件。虽然这两个分析任务在临床实践中高度相关，因为手术过程已明确定义，但大多数先前的方法单独处理它们，而没有充分利用它们的相关性。在本文中，我们提出了一种新方法，通过开发具有相关性损失MTRCNet CL的多任务循环卷积网络来利用它们的相关性来同时提高两个任务的性能。具体来说，我们提出的MTRCNet CL模型具有两个分支的端到端架构，这两个分支共享早期的特征编码器以提取一般视觉特征，同时保持针对特定任务的相应更高层。鉴于时间信息对于相位识别是至关重要的，因此探索长短期存储器LSTM以模拟相位识别分支中的顺序依赖性。更重要的是，通过最小化来自两个分支的预测的偏差，设计新颖且有效的相关损耗来模拟每个视频帧的工具存在和相位识别之间的相关性。我们的MTRCNet CL方法相互利用低级别特征共享和高级别预测相关性，可以在很大程度上促进两个任务之间的相互作用，从而可以为彼此带来好处。对大型手术视频数据集Cholec80进行的大量实验证明了我们提出的方法的出色表现，一直超过现有技术方法，例如89.1 v.s. 81.0用于工具存在检测中的mAP和87.4 v.s.相位识别中的F1得分为84.5。代码可以在我们的项目网站上找到。

Motion Segmentation Using Locally Affine Atom Voting
Authors Erez Posner, Rami Hagege
我们提出了一种新的运动分割方法，称为LAAV局部仿射原子投票。我们模型的主要新颖之处在于使用多组特征来分割场景中所有特征的运动。 LAAV充当图像中特征的预处理流水线阶段，随后是现有技术的随机投票RV方法的精细调整版本。与标准方法不同，LAAV使用特征集亲和度来分段运动而不是所有特征之间的成对亲和度因此，它显着地简化了复杂场景并且在不损失准确性的情况下降低了计算成本。我们描述了如何使用我们的模型解决使用以前建议的方法遇到的挑战。然后，我们将算法与几种最先进的方法进行比较。实验表明，我们的方法实现了最准确的运动分割结果，并且在存在测量噪声的情况下，实现了与其他算法相当的结果。

Adaptive Context Encoding Module for Semantic Segmentation
Authors Congcong Wang, Faouzi Alaya Cheikh, Azeddine Beghdadi, Ole Jakob Elle
图像中的对象大小是多种多样的，因此，捕获多个尺度的上下文信息对于语义分割是必不可少的。现有的上下文聚合方法，例如金字塔池模块PPM和不稳定的空间金字塔池ASPP设计不同的池大小或不稳定的速率，从而捕获多个比例信息。然而，手动和经验选择汇集大小和萎缩率。为了自适应地捕获对象上下文信息，在本文中，我们提出了一种基于可变形卷积运算的自适应上下文编码ACE模块来参数化多尺度信息。我们的ACE模块可以轻松嵌入到其他卷积神经网络CNN中进行上下文聚合。在Pascal Context和ADE20K数据集上演示了所提出模块的有效性。尽管我们提出的ACE仅由三个可变形卷积块组成，但它在两个数据集上的联盟mIoU的平均交点方面优于PPM和ASPP。所有实验研究证实，与现有技术方法相比，我们提出的模块是有效的。

ALFA: Agglomerative Late Fusion Algorithm for Object Detection
Authors Evgenii Razinkov, Iuliia Saveleva, Ji i Matas
我们提出ALFA是一种用于物体检测的新型后期融合算法。 ALFA基于对象检测器预测的凝聚聚类，同时考虑了边界框位置和类别得分。每个聚类表示单个对象假设，其位置是聚类边界框的加权组合。

Using dynamic routing to extract intermediate features for developing scalable capsule networks
Authors Bodhisatwa Mandal, Swarnendu Ghosh, Ritesh Sarkhel, Nibaran Das, Mita Nasipuri
胶囊网络在短时间内获得了大量的普及，因为其独特的模型等效类特定属性的方法作为来自图像的胶囊。然而，动态路由算法具有陡峭的计算复杂性。在所提出的方法中，我们的目标是创建胶囊网络的可扩展版本，其速度更快，并且在具有更多类别的问题中提供更好的准确性。通过使用动态路由来提取中间特征而不是生成输出类特定的胶囊，已经观察到计算速度的大幅增加。此外，通过提取等变特征胶囊而不是类特定胶囊，网络的泛化能力也增加，结果提高了准确度。

M3D-RPN: Monocular 3D Region Proposal Network for Object Detection
Authors Garrick Brazil, Xiaoming Liu
了解3D世界是城市自动驾驶的重要组成部分。通常，昂贵的LiDAR传感器和立体RGB成像的组合对于成功的3D物体检测算法是至关重要的，而仅单目图像方法经历了显着降低的性能。我们建议通过将单眼3D检测问题重新设计为独立的3D区域提议网络来缩小差距。我们利用2D和3D透视的几何关系，允许3D盒子利用图像空间中生成的众所周知且强大的卷积特征。为了帮助解决剧烈的3D参数估计，我们进一步设计了深度感知卷积层，这使得能够进行位置特定的特征开发，从而改善3D场景理解。与单眼3D检测的先前工作相比，我们的方法仅包括提出的3D区域提议网络，而不是依赖于外部网络，数据或多个阶段。 M3D RPN能够显着提高KITTI城市自动驾驶数据集中单目3D物体检测和鸟瞰视图任务的性能，同时有效地使用共享多类模型。

Structure-Aware Residual Pyramid Network for Monocular Depth Estimation
Authors Xiaotian Chen, Xuejin Chen, Zheng Jun Zha
单目深度估计是场景理解的基本任务。复杂场景中对象和东西的底层结构对于恢复准确且视觉上令人愉悦的深度图是至关重要的。全局结构传达场景布局，而局部结构反映形状细节。最近开发的基于卷积神经网络CNN的方法显着改善了深度估计的性能。但是，很少有人考虑复杂场景中的多尺度结构。在本文中，我们提出了一种结构感知残差金字塔网络SARPN，以利用多尺度结构进行精确的深度预测。我们提出了一个残差金字塔解码器RPD，它表示上层的全局场景结构来表示布局，而下层的局部结构则表示形状细节。在每个级别，我们建议残差细化模块RRM预测残差图，以逐步在上层预测的较粗糙结构上添加更精细的结构。为了充分利用多尺度图像特征，引入了自适应密集特征融合ADFF模块，该模块自适应地融合了各尺度的有效特征，用于推断每个尺度的结构。具有挑战性的NYU Depth v2数据集的实验结果表明，我们提出的方法在定性和定量评估中都达到了最先进的性能。代码可在

+++道路裂纹的像素级检测，裂纹检测A Conditional Wasserstein Generative Adversarial Network for Pixel-level Crack Detection using Video Extracted Images
Authors Qipei Mei, Mustafa G l
路面自动裂缝检测是智能交通基础设施系统发展的重要研究领域。本文提出了一种基于条件Wasserstein生成对抗网络cWGAN的新型道路裂缝检测方法。使用具有用于多级特征融合的去卷积层的121层密集连接的神经网络作为发生器，并且使用5层完全卷积网络作为鉴别器。为了克服与散射输出问题相关的反卷积层，引入连通图以表示所提出的cWGAN内的裂缝信息。所提出的方法在从配备有商业级高速摄像机的移动车辆收集的数据集上进行测试。该数据集具有挑战性，因为包含裂缝的图像还包括其他物体的干扰。结果表明，与其他现有方法相比，该方法在精度，召回率和F1得分方面均达到了最佳性能。
文章中有数据集

+++为虚拟显示的场景中添加文字SynthText3D: Synthesizing Scene Text Images from 3D Virtual Worlds
Authors Minghui Liao, Boyu Song, Minghang He, Shangbang Long, Cong Yao, Xiang Bai
随着深度神经网络的发展，对大量注释训练数据的需求成为许多研究和应用领域的性能瓶颈。图像合成可以自动，自由地生成带注释的图像，最近受到越来越多的关注。在本文中，我们提出从3D虚拟世界合成场景文本图像，其中提供了场景的精确描述，可编辑的照明可见性和逼真的物理。与以前将渲染文本粘贴在静态2D图像上的方法不同，我们的方法可以将3D虚拟场景和文本实例渲染为整体。通过这种方式，可以在我们的合成场景文本图像中实现复杂的透视变换，各种照明和遮挡。此外，通过随机移动和旋转虚拟相机可以产生具有各种视点的相同文本实例，虚拟相机充当人眼。使用生成的合成数据对标准场景文本检测基准的实验证明了所提出方法的有效性和优越性。
code:https://github.com/MhLiao/SynthText3D
合成数据2.2 参考https://www.unrealengine.com/marketplace/zh-CN/store

Gesture-to-Gesture Translation in the Wild via Category-Independent Conditional Maps
Authors Yahui Liu, Marco De Nadai, Gloria Zen, Nicu Sebe, Bruno Lepri
最近的工作表明，生成对抗网络GAN在图像到图像的翻译中特别有效。然而，在诸如身体姿势和手势翻译之类的任务中，现有方法通常需要精确的注释，例如，关键点或骷髅，绘制时间很长。在这项工作中，我们提出了一种新颖的GAN架构，它将所需的注释分解为指定手势类型的类别标签和表示手势的位置，旋转和大小的简单绘制类别独立条件图。我们的架构在保留背景上下文的同时合成目标手势，从而有效地处理野外的手势转换。为此，我们使用注意模块和滚动引导方法，将生成的图像循环回网络，并与竞争作品相比产生更高质量的图像。因此，我们的GAN学习从简单的注释生成新图像，而不需要关键点或骨架标签。两个公共数据集的结果表明，我们的方法在数量和质量上都优于最先进的方法。据我们所知，到目前为止，还没有任何工作通过要求用户友好的注释来解决在野外手势翻译的手势。

Batch-Shaped Channel Gated Networks
Authors Babak Ehteshami Bejnordi, Tijmen Blankevoort, Max Welling
我们提出了一种在细粒度级别上选择深度学习架构的方法。在网络中的特征上有条件地打开各个卷积映射。这种方法允许我们训练具有大容量但比整个网络更低的推理时间的神经网络。为实现这一目标，我们引入了一种新的残余块体系结构，以精细的方式对卷积通道进行门控。我们还介绍了一种通用的工具批量整形，它将神经网络中特征的边缘聚合后验与预先指定的先前分布相匹配。我们使用这种新技术来强制门更加条件化数据。我们在CIFAR 10和ImageNet数据集上呈现用于图像分类的结果和用于语义分割的Cityscapes。我们的结果表明，我们的方法可以有条件地减少大型体系结构，使得数据的平均计算成本与较小的体系结构相当，但具有更高的准确性。特别是，与基线ResNet18模型的69.76精度相比，我们的ResNet34门控网络实现了72.55前1精度的性能，具有相似的复杂性。我们还展示了生成的网络自动学习使用更多功能来处理难点示例，并使用更少的功能来处理简单示例。

Sparsely Activated Networks
Authors Paschalis Bizopoulos, Dimitrios Koutsouris
以前关于无监督学习的文献着重于设计结构先验和优化功能，目的是学习有意义的特征，但不考虑表示的描述长度。在这里，我们提出了稀疏激活网络SAN，它将输入分解为不同幅度的稀疏重复模式的总和，并结合新提出的度量varphi，他们学习具有最小描述长度的表示。 SAN由具有共享权重的内核组成，在编码期间，这些内核与输入卷积，然后通过ReLU和稀疏激活函数传递。在解码期间，将相同的权重与稀疏激活图卷积，并且将来自每个权重的各个重建相加以重建输入。我们还提出了一个用于模型选择的度量变量，它有利于结合高压缩比和低重构误差的模型，并且我们通过探索SAN的超参数空间来证明其定义。我们比较了各种数据集上的四个稀疏激活函数Identity，Max Activations，Max Pool indices，Peaks，并显示SAN学习了与varphi结合的可解释内核，它们最小化了表示的描述长度。

Deep Sequential Mosaicking of Fetoscopic Videos
Authors Sophia Bano, Francisco Vasconcelos, Marcel Tella Amo, George Dwyer, Caspar Gruijthuijsen, Jan Deprest, Sebastien Ourselin, Emmanuel Vander Poorten, Tom Vercauteren, Danail Stoyanov
双胎输血综合征治疗需要胎盘血管吻合的胎儿激光光凝术来调节两胎的血流量。有限的视野在胎儿镜检查期间FoV和低视觉质量使得识别所有血管连接具有挑战性。镶嵌可以对准多个重叠图像以生成具有增加的FoV的图像，然而，由于低视觉质量，纹理缺乏，并且因此由于随时间累积的漂移而导致较长序列中的失败，现有技术对于胎儿镜检查应用较差。深度学习技术可以帮助克服这些挑战。因此，我们提出了一种新的广义深度序贯镶嵌DSM框架，用于从不同设置（如模拟，幻像和真实环境）捕获的胎儿视频。 DSM通过提出受控数据增强和异常值拒绝方法，将现有的基于深度图像的单应性模型扩展到顺序数据。与现有方法不同，DSM可以处理由于镜面高光和相邻帧上的反射引起的视觉变化，从而减少累积漂移。我们使用5种不同的胎儿视频进行实验验证和比较，以证明我们框架的稳健性。

Exploring Deep Anomaly Detection Methods Based on Capsule Net
Authors Xiaoyan Li, Iluju Kiringa, Tet Yeap, Xiaodan Zhu, Yifeng Li
在本文中，我们开发和探索基于胶囊网络CapsNet的图像数据的深度异常检测技术。由于能够编码部分和整体之间的内在空间关系，CapsNet已被用作分类器和深度自动编码器。这激励我们设计基于预测概率和基于重建误差的正态分数函数，用于评估看不见的图像的离群值。我们对三个数据集的结果表明，基于预测概率的方法表现一致，而基于重建误差的方法对标记和未标记图像之间的相似性相对敏感。此外，在许多情况下，两种基于CapsNet的方法都优于原则基准方法。

Measuring the Transferability of Adversarial Examples
Authors Deyan Petrov, Timothy M. Hospedales
对抗性示例由于其对当代机器学习系统的可靠性的影响而受到广泛关注。有效的对抗性示例主要通过白盒攻击找到。但是，在某些情况下，它们可以跨模型传输，从而使它们能够攻击黑盒模型。在这项工作中，我们使用VGG16，VGG19以及VGG16和VGG19的集合，以及两个VGG类的模型，评估三种对抗攻击的快速梯度符号方法，基本迭代方法和Carlini Wagner方法的可转移性。初始类Inception V3，Xception，Inception Resnet V2以及三者的集合。我们还概述了当前研究中可转移性评估的问题，并尝试通过挑选特定的强攻击参数来修改它们，并使用L Infinity裁剪技术和SSIM指标来最终评估攻击可转移性。

++听觉对视觉的替代方法Autoencoding sensory substitution
Authors Viktor T th, Lauri Parkkonen
数以千万计的人失明，他们的人数不断增加。视觉到听觉感官替代SS包括一系列廉价的通用解决方案，通过声音传达视觉信息来帮助视障人士。所需的SS培训需要很长时间的努力才能达到实际的适应水平。对于细长的替代音频信号进行繁琐的训练过程有两个原因，并且忽略了人类听觉系统的压缩特性。为了克服这些障碍，我们开发了一类新的SS方法，通过训练深度循环自动编码器进行图像到声音的转换。我们成功地在不同数据集上训练深度学习模型，以执行视觉到听觉刺激转换。通过约束视觉空间，我们展示了缩短的替代音频信号的可行性，同时提出了诸如计算听力模型的整合之类的机制，以最佳地将替代刺激中的视觉特征传达为感知上可辨别的听觉成分。我们在两个不同的案例中测试了我们的方在第一个实验中，作者被蒙住眼睛5天，同时进行SS姿势辨别训练。第二个实验评估了达到桌子上物体移动的准确性。在两个测试案例中，经过几个小时的培训后达到了机会水平的准确度。我们新颖的SS架构拓宽了为视障人士设计的康复方法的视野。对所提出的模型的进一步改进将导致盲人的加速康复以及因此更广泛地适应SS装置。
Sensory substitution：https://en.wikipedia.org/wiki/Sensory_substitution https://www.sciencedirect.com/topics/medicine-and-dentistry/sensory-substitution

A Divide-and-Conquer Approach towards Understanding Deep Networks
Authors Weilin Fu, Katharina Breininger, Roman Schaffert, Nishant Ravikumar, Andreas Maier
深度神经网络在包括医学图像分割在内的各个领域取得了巨大的成功。然而，由于没有深层神经网络设计的一般理论，它们长期以来一直被批评为黑盒子，因为解释，理解和校正架构很困难。以前，精确学习被提议融合深层架构和传统方法。以这种方式构建的深度网络受益于原始的已知运算符，具有较少的参数和改进的可解释性。但是，它们并不能在所有应用中产生最先进的性能。在本文中，我们建议使用已知的运营商分析深度网络，采用分而治之的策略来替换网络组件，同时保持其性能。为此目的研究了视网膜血管分割的任务。我们从高性能U Net开始，逐步转换显示我们能够将网络划分为已知运营商的模块。结果表明，可训练导向滤波器和可训练版Frangi滤波器的组合产生了U Net AUC 0.974与0.972相比的性能，参数111,536与9,575的大幅减少。此外，可以将训练过的层映射回其原始算法解释，并使用标准信号处理工具进行分析。

Neural Embedding for Physical Manipulations
Authors Lingzhi Zhang, Andong Cao, Rui Li, Jianbo Shi
在通常的现实世界机器人操作中，动作和状态空间可能是巨大的，有时是未知的，并且观察通常相对稀疏。当只给出少量稀疏观察时，我们如何学习动作和状态空间的完整拓扑结构受哺乳动物大脑中网格单元属性的启发，我们构建了一个生成模型，强制潜在空间和输出空间之间的归一化成对距离约束。实现输出空间的数据有效发现。该方法实现了比现有生成模型（例如生成性对抗网络GAN和变分自动编码器VAE）更好的结果。先前的模型具有模式崩溃的常见问题，因此无法探索输出空间的完整拓扑。我们在质量和数量上证明了我们的模型在各种数据集上的有效性。

S&CNet: A Enhanced Coarse-to-fine Framework For Monocular Depth Completion
Authors Lei Zhang, Weihai Chen, Chao Hu
实时深度完成是机器人和自动驾驶任务的关键问题。在本文中，我们提出了一个轻量级粗到细网络，从单视图RGB图像及其相关的稀疏深度图完成密集深度图。粗估计网络和细化网络都是编码器解码器形式。为了提高粗估计网络的性能，我们提出了一种新颖的空间和信道S C增强器，以提高编码器网络的表示能力。空间明智关注的动机来自于我们发现编码器网络的较低输出步幅保留了更多细节但限制了感受野。因此，我们雇佣空间明智的注意力来捕捉长距离的背景信息。此外，我们发现编码器网络生成的特征中的每个通道响应不同的距离。这一发现促使我们采用频道明智的注意机制来重新分配不同频道的权重，因为解码器网络应该更加注意频道对距离包含丰富对象的响应，直观。为了进一步提高网络性能，我们采用了粗略估计和稀疏深度图作为输入的细化网络。我们评估了我们在KITTI基准测试中的方法，结果表明我们的方法在RMSE指标上实现了与已发布工程相比的最新技术水平，但在所有其他指标中表现优于iRMSE，MAE和iMAE，运行速度提高了近5倍速度。至关重要的是，我们提出的S C增强器可以插入其他现有网络，并以最小的额外计算成本显着提高其性能。

Image Evolution Trajectory Prediction and Classification from Baseline using Learning-based Patch Atlas Selection for Early Diagnosis
Authors Can Gafuroglu, Islem Rekik
最初被诊断患有早期轻度认知功能障碍的患者eMCI被认为是具有非常微妙的脑萎缩模式的临床异质组。为了检查正常对照NC和eMCI之间的边界，磁共振成像MRI被广泛用作非侵入性成像模式，以确定MCI患者脑图像的细微变化。然而，eMCI研究仍受限于可用MRI采集时间点的数量。理想情况下，人们将学习如何在早期阶段从单一时间点获取的MRI数据诊断MCI患者，同时利用不存在的随访观察。为此目的，我们提出了新颖的监督和无监督框架，学习如何联合预测和标记强度补片的进化轨迹，每个强度补片都是从基线强度补丁中接种到特定的大脑界标。具体而言，两种策略都旨在确定基线时间点的最佳训练图谱补丁，以预测和分类给定测试基线补丁的进化轨迹。监督技术通过训练双向映射来学习如何选择最佳的图谱补丁，当使用一个补丁预测另一个补丁时，从成对补丁的相似性空间训练双向映射与其相应的预测误差相似。另一方面，无监督技术学习了多个基线图集并使用多个内核测试补丁以很好地捕获多个尺度的补丁分布。一旦选择了最佳基线图谱补丁，我们将检索它们的进化轨迹并对它们求平均值，以预测测试基线斑块的进化轨迹。接下来，我们将预测轨迹输入到线性分类器的集合中，每个线性分类器在特定地标处训练。与基于单个时间点的分类方法相比，我们的分类准确度提高了10个点。

Learning better generative models for dexterous, single-view grasping of novel objects
Authors Marek Kopicki, Dominik Belter, Jeremy L. Wyatt
本文研究如何学会灵巧掌握的问题，以便能够掌握仅从单一观点看到的新物体。最近，在生成性掌握模型的数据有效学习方面取得了进展，该模型很好地转移到新物体上。这些生成性掌握模型是从示范LfD中学习的。一个缺点是，正如本文所示，在具有挑战性的单一视图条件下掌握转移是不可靠的。其次，生成模型元素的数量在训练样本的数量上呈线性增长。反过来，这限制了这些生成模型的推广和持续改进的潜力。在本文中，它展示了如何解决这些问题。在基于视图的抓握模型中进行了若干技术贡献，以及用于组合和压缩多个抓握模型的方法，用于评估用于生成和获得抓取的联系人的新方式。这些共同提高了抓握性能并减少了掌握转移所学习的模型数量。反过来，这些进步也允许引入自主训练，其中机器人从自我产生的掌握中学习。对具有挑战性的测试装置的评估表明，随着部署的创新，掌握转移成功率从55.1上升到81.6。通过增加自主训练，这一比例上升至87.8。这些差异具有统计学意义。总而言之，在所有实验中，对真实物体执行了539次测试掌握。

Learning Complex Basis Functions for Invariant Representations of Audio
Authors Stefan Lattner, Monika D rfler, Andreas Arzt
数据学习功能已经证明比在许多机器学习任务中使用手工制作功能更成功。在音乐信息检索MIR中，从窗口光谱图中学习的特征对于诸如转置或时移的变换是高度变化的。当这些差异与相应的MIR任务无关时，这种差异是不希望的。我们提出了一种称为复杂自动编码器CAE的架构，它可以学习与正交变换不变的特征。将信号映射到由CAE学习的复杂基函数导致变换不变量值空间和变换变量相空间。相空间可用于推断数据对之间的转换。当利用幅度空间的不变性时，我们在音频中获得最先进的结果以得分对齐和音频的重复部分发现。可以在线获得CAE的PyTorch实现，包括重复的部分发现方法。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

在这里插入图片描述
pic from pexels.com