【AI视野·今日CV 计算机视觉论文速览第167期】Mon, 11 Nov 2019

本文链接：https://blog.csdn.net/u014636245/article/details/103008373

AI视野·今日CS.CV 计算机视觉论文速览
Mon, 11 Nov 2019
Totally 36 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Interesting:

📚****一种基于字典和分级图像表示方法的多层级稀疏重建方法, (from 澳大利亚国立)
在这里插入图片描述

📚PointDAN, 提出了一种可以实现域自适应的三维点云表示网络，通过在多个层级上将全局和局部特征进行来实现。在局部的对齐上，使用了自适应模块和感受野来为独特的局域特征建模。为了表达分层尺度特征模块还为不同目标和域引入了相关的权重；对于全局特征来说，使用对抗训练策略来学习和匹配不同域间的全局特征。最后研究人员还构建了PointDA-10数据集来对点云表示的域适应性进行了测评。(from 美国东北大学，哥伦比亚大学、南加州大学, ofNIPS2019)
在这里插入图片描述

code：https://github.com/canqin001/PointDAN

📚Probabilistic Watershed概率分水岭算法
在这里插入图片描述
code:https://github.com/hci-unihd/Probabilistic_Watershed

📚ROIMIX水下目标检测数据集, (from 北大鹏城实验室腾讯美国)
在这里插入图片描述

📚从漫画人物中进行学习, (from La Rochelle University, France)
在这里插入图片描述

📚Seg2Eye从人眼的分割结果中合成人眼图像, (from ETHz Nividia)
在这里插入图片描述
取得了ICCV2019人眼合成挑战赛冠军
code:https://github.com/mcbuehler/Seg2Eye

Daily Computer Vision Papers

Deep, robust and single shot 3D multi-person human pose estimation in complex images
Authors Abdallah Benzine, Bertrand Luvison, Quoc Cuong Pham, Catherine Achard
在本文中，我们提出了一种用于复杂图像中多人3D人体姿势估计的新单发方法。该模型共同学习在图像中定位人体关节，估计其3D坐标并将这些预测分组为完整的人体骨骼。所提出的方法处理可变数量的人，并且不需要边界框来估计3D姿势。它利用并扩展了Stacked Hourglass网络及其多尺度功能学习来管理多人情况。因此，即使在强烈的遮挡或农作物的情况下，我们也采用了可靠的3D人体姿势公式来完全描述几种3D人体姿势。然后，使用关联嵌入方法对任意数量的人进行关节分组和人体姿势估计。在具有挑战性的CMU Panoptic上，我们的方法明显优于最新技术。此外，它在新提出的JTA数据集的复杂和合成图像上也能获得良好的结果。

Automatic Identification of Traditional Colombian Music Genres based on Audio Content Analysis and Machine Learning Technique
Authors Diego A. Cruz, Sergio S. Lopez, Jorge E. Camargo
哥伦比亚的传统音乐流派多种多样，可以根据该地区来表达哥伦比亚文化的丰富性。这种音乐多样性是非洲，本土土著和欧洲影响混合的结果。组织大量的歌曲是一项耗时的工作，需要人类聆听音频片段以识别流派，歌手，年份，乐器和其他相关特征以允许对歌曲数据集建立索引。本文提出了一种通过音频内容自动识别哥伦比亚歌曲流派的方法。该方法提取音频特征，这些音频特征用于训练学习机器学习模型的机器学习模型。在属于哥伦比亚六种民俗音乐流派的Bambuco，Carranga，Cumbia，Joropo，Pasillo和Vallenato的180种音乐作品的数据集中评估了该方法。结果表明，尽管哥伦比亚节奏的复杂度达到69的平均准确度，仍可以自动识别音乐流派。

Content-Consistent Generation of Realistic Eyes with Style
Authors Marcel B hler, Seonwook Park, Shalini De Mello, Xucong Zhang, Otmar Hilliges
精确标记的现实世界训练数据可能很稀少，因此最近的工作进行了修改，修改或生成图像以增强目标数据集。但是，从生成的图像中的输入数据中保留相关细节是具有挑战性的，失败对于最终任务的性能可能至关重要。在这项工作中，我们合成了满足特定语义分割蒙版内容的特定于人的眼睛图像，同时仅从少数参考图像中遵循特定人的风格。我们介绍了两种方法，一种用于赢得ICCV 2019的OpenEDS人工合成眼球挑战赛，一种用于解决涉及同时注入多种规模的样式和内容信息的有原则的方法。我们的实现可在以下位置获得

Dynamic Deep Multi-task Learning for Caricature-Visual Face Recognition
Authors Zuheng Ming, Jean Christophe Burie, Muhammad Muzzamil Luqman
漫画的面部识别与视觉图像的性能相差甚远，而不是视觉图像。挑战是通过夸张面部特征以增强角色而导致的漫画的极端非刚性扭曲。在本文中，我们提出了基于深度CNN的动态多任务学习，用于交叉模式漫画视觉人脸识别。代替具有固定权重的常规多任务学习，所提出的动态多任务学习根据任务的重要性动态地更新任务的权重，这使得网络的训练专注于硬任务而不是被卡住在简单任务的过度训练中。实验结果证明了动态多任务学习对于漫画视觉人脸识别的有效性。在数据集CaVI和WebCaricature上评估的性能显示出优于现有方法的优势。此处提供了实现代码。

Dynamic Multi-Task Learning for Face Recognition with Facial Expression
Authors Zuheng Ming, Junshi Xia, Muhammad Muzzamil Luqman, Jean Christophe Burie, Kaixing Zhao
受益于深层多任务网络中多个任务的联合学习，与单任务学习相比，许多应用程序显示出了令人鼓舞的性能。但是，多任务学习框架的性能高度依赖于任务的相对权重。如何分配每个任务的权重是多任务学习中的关键问题。在本文中，我们提出了一种可以根据训练任务的难度动态调整任务权重的方法，而不是手动进行繁琐且费时的权重调整。具体地，所提出的方法没有引入超参数，并且简单的结构允许其他多任务深度学习网络可以容易地实现或再现该方法。我们展示了基于面部表情的面部识别方法和基于深度多任务学习常规神经网络CNN的单个输入图像中的面部表情识别方法。理论分析和实验结果都证明了所提出的动态多任务学习方法的有效性。与具有单任务学习的最新方法相比，这种具有动态权重的多任务学习还提高了不同任务的性能。

Building Segmentation through a Gated Graph Convolutional Neural Network with Deep Structured Feature Embedding
Authors Yilei Shi, Qingyu Li, Xiao Xiang Zhu
由于建筑物形状的复杂性，从光学图像中自动提取建筑物仍然是一个挑战。语义分割是完成此任务的有效方法。深度卷积神经网络DCNN的最新发展使精确的像素级分类任务成为可能。然而，一个中心问题仍然是边界的精确划分。深度架构通常由于其逐步向下采样而无法产生具有精确边界的细粒度分段。因此，我们引入了一个通用框架来克服该问题，将图卷积网络GCN和将DSFE嵌入到端到端工作流的深度结构化功能进行了集成。此外，代替使用经典的图卷积神经网络，我们提出了门控图卷积网络，该网络使细微和粗略语义预测的细化能够生成清晰的边界和细粒度的像素级分类。以建筑足迹的语义分割为例，我们比较了不同的特征嵌入架构和图神经网络。我们提出的具有新GCN架构的框架优于最新方法。尽管我们在这项工作中的主要任务是构建足迹提取，但是所提出的方法通常可以应用于其他二进制或多标签分割任务。

Quality Aware Generative Adversarial Networks
Authors Parimala Kancharla, Sumohana S. Channappayya
生成对抗网络GAN已成为一种非常流行的用于隐式学习高维概率分布的工具。已对原始GAN公式进行了一些改进，以解决其一些缺点，例如模式崩溃，收敛问题，纠缠，较差的视觉质量等。尽管已经做出了巨大的努力来改善GAN生成的图像的视觉质量，但令人惊讶的是，既没有将客观图像质量指标用作成本函数，也没有将其用作GAN目标函数中的正则化器。在这项工作中，我们展示了作为结构相似性SSIM索引变体的距离度量，流行的完整参考图像质量评估算法以及受自然图像质量评估器NIQE启发的新颖的质量感知判别器梯度罚分函数，流行的无参考图像质量评估算法都可以用作GAN目标函数的出色正则化器。具体来说，我们在CIFAR 10，STL10和CelebA数据集上使用Wasserstein GAN梯度罚分WGAN GP框架演示了最新技术性能。

Extracting temporal features into a spatial domain using autoencoders for sperm video analysis
Authors Vajira Thambawita, P l Halvorsen, Hugo Hammer, Michael Riegler, Trine B. Haugen
在本文中，我们提出了一种两步式深度学习方法，该方法用于基于人类精子的视频记录来预测精子的活动性和形态。首先，我们使用自动编码器从给定的精液视频中提取时间特征，并将其绘制到图像空间中，我们称之为特征图像。其次，这些特征图像用于执行转移学习，以预测人类精子的活力和形态学值。所提出的方法表明它具有将时间信息提取到空间域特征图像中的能力，可以与传统的卷积神经网络一起使用。此外，给定精液样本预测运动的准确性表明，基于深度学习的模型可以捕获人类精液显微记录的时间信息。

Are we asking the right questions in MovieQA?
Authors Bhavan Jasani, Rohit Girdhar, Deva Ramanan
联合视觉和语言任务（例如视觉问题解答）之所以令人着迷，是因为它们探索了高级理解，但是与此同时，它们更容易出现语言偏见。在本文中，我们探索了MovieQA数据集中的偏差，并提出了一个可以利用它们的惊人简单模型。我们发现使用正确的单词嵌入至关重要。通过使用经过适当训练的词嵌入，仅通过查看问题和答案就可以回答大约一半的“问题回答” QA，而完全忽略了视频剪辑，字幕和电影脚本中的叙述上下文。与排行榜上最好的论文相比，我们的简单问题仅回答模型将视频字幕类别的准确性提高了5，字幕类别的准确性提高了5，DVS的准确性提高了15，脚本的准确性提高了6。

Comparison of Machine Learning Based Methods Used in Bengali Question Classification
Authors Afra Anika, Md. Hasibur Rahman, Dr. Salekul Islam, Abu Shafin Mohammad Mahdee Jameel, Chowdhury Rafeed Rahman
本文工作演示了组装问答类型分类模型的各个阶段。这是朝着孟加拉语语言构建问答系统的一步。问题解答质量保证已成为我们发展中生活的重要组成部分。由于问题分类是Question Answering QA系统的初始部分，因此，建立问题答案类型分类系统模型已成为我们关注的问题。问题答案类型分类系统对自然语言问题进行分类。它将用户以自然语言提出的问题分类为正确的答案类别AC。本文通过消除和不消除的方式，介绍了孟加拉语在机器学习方法上使用不同类型算法的问题分类的工作，该算法使用了多层感知器MLP，朴素贝叶斯分类器NBC，支持向量机SVM，梯度提升分类器GBC，随机梯度下降SGD停用词。

A Novel Approach for Partial Fingerprint Identification to Mitigate MasterPrint Generation
Authors Mahesh Joshi, Bodhisatwa Mazumdar, Somnath Dey
部分指纹识别是一种当传感器尺寸在接受完整指纹时具有较小外形尺寸时识别个人的方法。它也用于法医研究，以识别从犯罪现场收集的部分指纹。但是由于传感器捕获的指纹较小，部分指纹中的区别特征相对较低。因此，不能保证局部指纹的唯一性，从而导致单个局部指纹可以识别多个对象的可能性。 MasterPrint是部分指纹，可从已注册的模板数据库中识别至少4个不同的人。具有这种缺陷的指纹识别系统在刑事案件中定罪的过程中可以发挥重要作用。我们提出了一种部分指纹识别方法，旨在减轻MasterPrint的产生。所提出的方法应用于从标准FVC 2002 DB1 A裁剪的部分指纹数据集时，在减少MasterPrints数量方面显示出显着的改进。实验结果证明了在其他参数上的改进结果，例如True Match Rate TMR和Equal Error Rate EER，这些参数通常用于评估指纹生物识别系统的性能。

RoIMix: Proposal-Fusion among Multiple Images for Underwater Object Detection
Authors Wei Hong Lin, Jia Xing Zhong, Shan Liu, Thomas Li, Ge Li
近年来，通用对象检测算法已证明其出色的性能。但是，在水下数据集上进行目标检测的研究仍很少。与常规数据集相比，水下图像通常具有色移，而低对比度的沉积物会导致水下图像模糊。另外，由于水下生物的生活习惯，水下生物经常在图像上彼此靠近。为了解决这些问题，我们的工作研究了增强策略，以模拟重叠，被遮挡和模糊的对象，并构建了能够实现更好泛化的模型。我们提出了一种称为RoIMix的增强方法，该方法可表征图像之间的交互。从不同图像中提取的提案混合在一起。以前的数据增强方法在单个图像上运行，而我们将RoIMix应用到多个图像上以创建增强的样本作为训练数据。实验表明，我们提出的方法提高了Pascal VOC和URPC数据集上基于区域的对象检测器的性能。

Efficacy of Pixel-Level OOD Detection for Semantic Segmentation
Authors Matt Angus, Krzysztof Czarnecki, Rick Salay
对用于图像分类的分布样本的检测已被广泛研究。安全关键型应用程序（例如自动驾驶）将从定位异常对象的能力中受益，这些异常对象会导致图像失去分布。本文将检测图像分布不足的图像以进行图像分类的最新技术与检测像素分布异常的新任务相结合，该任务可以定位异常对象。它还在实验上比较了使用PSPNet和DeeplabV3体系结构从现有语义分割数据集派生的两个新数据集上的适应方法，并为该任务提出了新的指标。评估显示，所比较方法的性能排名不会转移到新任务上，并且每种方法的性能都比其图像级别的同类方法差很多。

This dataset does not exist: training models from generated images
Authors Victor Besnier, Himalaya Jain, Andrei Bursuc, Matthieu Cord, Patrick P rez
当前的生成网络越来越熟练地生成高分辨率的逼真的图像。这些生成网络，尤其是条件生成网络，有可能成为提供新图像数据集的绝佳工具。这自然带来了一个问题，我们可以仅在生成的数据上训练分类器吗？这种几乎无限量的训练数据的潜在可用性挑战了训练机器学习模型的标准实践，这些年来，这些模型都是为有限和固定大小的数据集而设计的。在这项工作中，我们调查了这个问题及其相关的挑战。我们确定了一些方法，可以通过对有规律的启发式随机生成的图像进行幼稚训练来显着提高性能。我们提出了三种独立的技术，它们可以应用于管道的不同阶段，即数据生成，对生成的数据进行训练以及在实际数据上进行部署。我们对ImageNet数据集的子集评估了我们提出的方法，并且与在真实图像上训练的分类器相比，显示出令人鼓舞的结果。

Post-mortem Iris Decomposition and its Dynamics in Morgue Conditions
Authors Mateusz Trokielewicz, Adam Czajka, Piotr Maciejewicz
随着越来越多的人将虹膜生物识别技术用作调查机构进行鉴定的法医工具的需求，需要对人眼尤其是虹膜内发生的验尸分解过程进行彻底的检查和理解。这可以证明对事前验尸与在犯罪现场或大规模人员伤亡中获得的验尸数据进行快速，准确的匹配，以及确保将尸体从事件现场正确地运送到房或fun仪馆是有用的。根据法医界的这些需求，本文从自动虹膜识别的角度分析了眼球衰落的粗略影响。因此，我们分析在可见光以及在860 nm的近红外光中获取的验尸虹膜图像，因为后者的波长用于商业虹膜识别系统。提供的结论和建议可以帮助法医检查人员成功地利用虹膜模式进行死者尸体鉴定。还给出了有关成像过程，照明类型，分辨率的初始准则，以及对虹膜特征分解率的期望。

Improving Human Annotation in Single Object Tracking
Authors Yu Pang, Xinyi Li, Lin Yuan, Haibin Ling
在视频对象跟踪任务中，人工注释始终被视为基本事实。它用于培训和评估目的。因此，确保其高质量是成功跟踪器和它们之间进行评估的重要任务。在本文中，我们对现有的人类注释进行了定性和定量分析。我们表明，人类注释趋向于不平滑并且易于局部可见和变形。我们提出一种具有处理运动场景能力的平滑轨迹策略。我们使用两步自适应图像对齐算法来找到视频序列的规范视图。然后，我们使用不同的技术在一定程度上平滑轨迹。一旦转换回原始图像坐标，就可以与人工注释进行比较。通过实验结果，我们可以获得更一致的轨迹。在某种程度上，它也可以稍微改善训练后的模型。如果超出某个阈值，则平滑误差将开始吞噬收益。总体而言，我们的方法可以帮助推断缺失的注释帧或识别并纠正人为注释离群值，并有助于提高训练数据的质量。

Automatic Tip Detection of Surgical Instruments in Biportal Endoscopic Spine Surgery
Authors Sue Min Cho, Young Gon Kim, Jinhoon Jeong, Ho jin Lee, Namkug Kim
一些内窥镜手术需要外科医生用一只手握住内窥镜，而用另一只手握住外科器械以正确的视力执行实际手术。深度学习以及机器人技术方面的最新技术进步可以将机器人技术引入这些内窥镜手术中。通过释放外科医生的一只手，这可以具有许多优点，这将允许外科医生用两只手并使用更复杂和复杂的技术。最近，使用卷积神经网络进行深度学习达到了计算机视觉的最新成果。因此，本研究的目的是在双门内窥镜脊柱外科手术中自动检测仪器的尖端，定位点并评估检测准确性。在这些类型的内窥镜手术中，该定位点可以用于机器人内窥镜的控制器输入。

Sparse Coding on Cascaded Residuals
Authors Tong Zhang, Fatih Porikli
本文试图以一种有原则的方式将字典学习与分层图像表示相结合。为了使字典原子从扩展的接收域中捕获更多信息并获得改善的描述能力，我们提出了一种用于字典学习和稀疏编码的两遍多分辨率级联框架。级联允许使用相同尺寸的字典原子以不同的分辨率进行协作重建。我们共同学习的词典包括适应最粗糙层（原子的支持达到其最大范围）上可用信息的原子以及残余图像（其中补充细节逐步完善重建目标）的剩余图像。通过先前各层的聚合重建与该层的降采样原始图像之间的差来计算一层的残差。我们的方法使用少得多的系数即可生成更灵活，更准确的表示形式。它的计算效率源于以最小的最细微的分辨率进行编码，以及对相对稀疏的残差进行编码。我们在多个数据集上进行的广泛实验表明，该新方法在图像编码，去噪，修复和伪影去除任务方面性能强大，性能优于最新技术。

PointDAN: A Multi-Scale 3D Domain Adaption Network for Point Cloud Representation
Authors Can Qin, Haoxuan You, Lichen Wang, C. C. Jay Kuo, Yun Fu
域自适应DA方法在广泛的机器学习和计算机视觉任务（即分类，检测和分段）中实现了重大改进。但是，据我们所知，尚无几种方法可以直接在3D点云数据上直接实现域自适应。点云数据的独特挑战在于其丰富的空间几何信息，而整个对象的语义是通过包含区域几何结构来实现的。具体来说，大多数为通用特征对齐而忽略局部几何信息的通用DA方法都不适合3D域对齐。在本文中，我们针对点云数据PointDAN提出了一种新颖的3D域自适应网络。 PointDAN共同在多层次上统一了全局和局部功能。对于局部对齐，我们提出了具有调整后的接收域的自适应SA节点模块，以对用于对齐域的区分性局部结构进行建模。为了表示分层缩放的特征，进一步引入了节点注意模块来加权SA节点跨对象和域的关系。对于全局对齐，采用对抗训练策略来学习和对齐跨域的全局功能。由于没有针对3D点云DA场景的通用评估基准，因此我们建立了一个通用基准，即从三个流行的3D对象场景数据集（即ModelNet，ShapeNet和ScanNet）中提取的PointDA 10，以进行跨域3D对象分类。在PointDA 10上进行的大量实验表明，我们的模型优于最先进的通用DA方法。

Detecting Driveable Area for Autonomous Vehicles
Authors Niral Shah, Ashwin Shankar, Jae hong Park
无人驾驶是一个具有挑战性的问题，当前人们非常关注研发。驾驶员被迫在短时间内做出数千个复杂的决定，迅速处理周围环境和移动因素。这些方面之一是，识别道路上可行驶的区域对于任何自治系统的成功至关重要。可以通过将深度学习作为区域建议问题来解决此问题。利用在Berkeley Deep Drive BDD100k数据集上训练的Mask R CNN，我们旨在查看是否识别可驾驶区域，同时区分汽车的直流车道和替代车道是否可行。

Diversified Co-Attention towards Informative Live Video Commenting
Authors Zhihan Zhang, Zhiyi Yin, Shuhuai Ren, Xinhang Li, Shicheng Li
我们专注于自动实时视频评论ALVC的任务，该任务旨在基于视频帧和其他观看者的评论生成实时视频评论。在此任务中，一个棘手的挑战是对视频和文本输入之间的复杂依存关系进行适当的建模。 ALVC任务中的先前工作将注意力分别放在这两个输入源上，以获取其表示形式。在本文中，我们认为视频和文本信息应该整体建模。我们提出了一种新型模型，该模型配备了多样化的注意力集中层DCA和门控注意模块GAM。 DCA允许通过度量学习从多种角度在视频和文本之间进行交互，而GAM则收集信息丰富的上下文以生成评论。我们进一步介绍了一种参数正交化技术，以减轻DCA中的信息冗余。实验结果表明，我们的模型优于ALVC任务和传统的共同注意模型中的先前方法，达到了最先进的结果。

Analysis of CNN-based remote-PPG to understand limitations and sensitivities
Authors Qi Zhan, Wenjin Wang, Gerard de Haan
基于卷积神经网络CNN的深度学习已在各种基于视觉的应用中显示出令人鼓舞的结果，最近在基于相机的生命体征监视中也显示出了可喜的结果。到目前为止，基于CNN的光体积描记术PPG提取一直专注于性能而不是理解。在本文中，我们尝试通过实验回答4个问题，以期随着人们对这种方法学的普及而加深对它的理解。我们得出的结论是，网络利用血液吸收颜色的变化来提取生理信号，并且参考信号的选择和参数相位，频谱含量等可能比预期的更为关键。此外，我们得出结论，皮肤区域中多个卷积核的可用性对于该方法通过空间操作获得灵活的通道组合是必要的，但并不能提供与基于知识的PPG提取进行多站点测量相同的优势方法。最后，我们表明基于知识的颜色通道组合预处理和CNN的混合是可能的，并且可以提高运动的鲁棒性。

Fast Polynomial Approximation of Heat Diffusion on Manifolds and Its Application to Brain Sulcal and Gyral Graph Pattern Analysis
Authors Shih Gu Huang, Ilwoo Lyu, Anqi Qiu, Moo K. Chung
热扩散已广泛用于大脑成像，以进行表面光顺，网格正则化和嘈杂的皮质数据平滑处理。在图拉普拉斯图的先前频谱分解中，仅使用切比雪夫多项式。在本文中，我们为流形上的Laplace Beltrami算子提供了一种新的通用谱理论，该流形适用于具有递归关系的任意正交多项式。除了先前在扩散小波和卷积神经网络中使用的Chebyshev多项式之外，我们还提供了其他三个多项式来展示该方法的通用性。我们还导出了Laplace Beltrami算子的频谱分解的膨胀系数的封闭形式解，并首次将其用于解决歧管上的热扩散问题。所提出的快速多项式逼近方案避免了求解Laplace Beltrami算子的本征函数，该函数对于大网格尺寸而言在计算上是昂贵的，并且避免了与基于有限元方法的扩散求解器相关的数值不稳定性。所提出的方法可用于定位从MRI获得的皮层皮沟和回旋图模式中的男性和女性差异。

Model Adaption Object Detection System for Robot
Authors Jingwen Fu, Licheng Zong, Yinbing Li, Bingqian Yang, Ke Li, Xibei Liu
如何检测物体并引导机器人靠近物体是自主机器人的重要任务。这里的主要困难是，机器人的视图在移动时会发生很大变化，并且可用于训练的数据有限。为了解决这些挑战，我们提出了一种新颖的机器人视觉系统，即模型自适应物体检测系统。我们不是使用一个对象检测神经网络来解决所有问题，而是通过使用元神经网络分配对象检测神经网络，使用不同的对象检测神经网络根据机器人所处的情况来指导机器人。此外，我们使用转移学习技术和深度可分离卷积，因此我们的模型易于训练并且可以解决小的数据集问题。

Shaping Visual Representations with Language for Few-shot Classification
Authors Jesse Mu, Percy Liang, Noah Goodman
语言旨在传达有关世界的有用信息，从而成为有效的人类学习的基础。我们如何让语言指导机器学习模型中的学习学习我们将在几个镜头视觉分类的背景下探讨这个问题，提出一些模型来学习如何进行视觉分类，同时在训练时共同预测自然语言任务描述。在测试时，没有可用的语言，我们发现，与元学习基线和明确使用语言作为分类瓶颈的方法相比，这些受语言影响的视觉表示更具通用性。

Argoverse: 3D Tracking and Forecasting with Rich Maps
Authors Ming Fang Chang, John Lambert, Patsorn Sangkloy, Jagjeet Singh, Slawomir Bak, Andrew Hartnett, De Wang, Peter Carr, Simon Lucey, Deva Ramanan, James Hays
我们提供Argoverse两个数据集，旨在支持自动车辆机器学习任务，例如3D跟踪和运动预测。 Argoverse是由匹兹堡和迈阿密的一群自动驾驶汽车收集的。 Argoverse 3D跟踪数据集包括来自7个具有重叠视场的摄像机的360度图像，来自远程LiDAR的3D点云，6个自由度姿势和3D轨道注释。值得注意的是，它是唯一提供前向立体影像的现代AV数据集。 Argoverse运动预测数据集包括300,000多个5秒跟踪场景，其中已识别出特定车辆用于轨迹预测。 Argoverse是第一个自动驾驶汽车数据集，其中包括具有290 km映射车道的高清地图以及几何和语义元数据。所有数据均根据知识共享许可发布，网址为：

An "augmentation-free" rotation invariant classification scheme on point-cloud and its application to neuroimaging
Authors Liu Yang, Rudrasis Chakraborty
近年来，随着3D传感器和技术的发展，见证了3D医学成像技术的出现和日益普及。然而，在3D医学图像的处理中实现几何不变性在计算上是昂贵的，但是由于存在由刚性配准技术引起的可能的错误，因此仍然是必不可少的。分析医学成像的另一种方法是通过理解以点云表示的3D形状。尽管在医学成像社区中3D点云处理不是一个选择，但它是保留旋转不变性的一种规范方法。不幸的是，由于存在离散拓扑，因此无法在点云上使用标准卷积运算符。据我们所知，没有显式的数据扩充，现有的卷积方法无法保持旋转不变性。因此，我们通过从超球面引入拓扑来提出旋转不变卷积算子。就没有痴呆症的受试者之间的分类准确性而言，已经对可公开获得的OASIS数据集进行了实验验证，证明了我们提出的方法在模型复杂性，分类准确性以及对旋转的最后但最重要的不变性方面的有效性。

Algorithmic Design and Implementation of Unobtrusive Multistatic Serial LiDAR Image
Authors Chi Ding, Zheng Cao, Matthew S. Emigh, Jose C. Principe, Bing Ouyang, Anni Vuorenkoski, Fraser Dalgleish, Brian Ramos, Yanjun Li
为了充分了解海洋动水MHK设备与海洋动物之间的相互作用，需要一种快速有效的监控系统，以便在出现水下动物时捕获相关信息。一种新的自动化水下成像系统，该系统由LiDAR光检测和测距成像硬件以及一个称为Unobtrusive Multistatic Serial LiDAR Imager UMSLI的场景理解软件模块组成，用于监督涡轮机附近动物的存在。 UMSLI集成了前端LiDAR硬件和一系列软件模块，以实现分层的图像预处理，检测，跟踪，分割和分类。

Accurate Vision-based Manipulation through Contact Reasoning
Authors Alina Kloss, Maria Bauza, Jiajun Wu, Joshua B. Tenenbaum, Alberto Rodriguez, Jeannette Bohg
计划联系人互动是许多机器人任务的核心挑战之一。在考虑动态因素的同时优化联系位置的计算成本很高，并且在仅部分观察的环境中，执行基于联系的任务通常会降低准确性。我们提出一种方法来解决基于视觉的操纵问题的这两个挑战。首先，我们建议从运动优化中分离接触。因此，我们通过将计算集中在有希望的联系位置来提高计划效率。其次，我们使用一种混合方法进行感知和状态估计，将神经网络与物理上有意义的状态表示相结合。在关于平面推动任务的仿真和现实世界实验中，我们表明，与以前的基于视觉的方法相比，我们的方法更有效并且实现了更高的操纵精度。

Stacked dense optical flows and dropout layers to predict sperm motility and morphology
Authors Vajira Thambawita, P l Halvorsen, Hugo Hammer, Michael Riegler, Trine B. Haugen
在本文中，我们分析了两种深度学习方法，可以根据精子视频预测精子的活动性和精子形态。我们使用两个不同的输入堆叠纯视频帧和密集光流视频帧。为了解决预测运动性和形态的回归任务，将堆叠的密集光流和从精子视频中提取的原始帧与经过改进的先进卷积神经网络一起使用。对于所选模型的修改，我们引入了附加的多层感知器来克服过度拟合的问题。当输入同时包含密集的光流和原始视频帧时，该方法具有附加的带有感知层的多层感知器的方法显示出最佳结果。

Transfer Learning in 4D for Breast Cancer Diagnosis using Dynamic Contrast-Enhanced Magnetic Resonance Imaging
Authors Qiyuan Hu, Heather M. Whitney, Maryellen L. Giger
使用动态对比增强磁共振成像DCE MRI进行的深度转移学习在乳腺病变的表征中显示出强大的预测能力。但是，预训练的卷积神经网络CNN需要2D输入，从而限制了利用DCE MRI固有的丰富4D体积和时间图像信息的能力，这对于病变评估具有临床价值。从头开始训练3D CNN，这是在医学图像中利用高维信息的常用方法，计算量大，并且最不适合中等大小的医疗数据集。因此，我们提出了一种使用转移学习的新方法，该方法结合了DCE MRI的4D信息，其中通过沿垂直于横向切片的投影的最大合并在特征级别折叠了体积信息，而时间信息包含在第二次对比后减法中图片。我们的方法在1161例乳腺病变数据集上的接收器工作特征曲线下的面积为0.89 0.01，明显优于以前的方法，该方法通过使用最大强度投影MIP图像将4D信息纳入DCE MRI中。

Improved Visual Localization via Graph Smoothing
Authors Carlos Lassance, Yasir Latif, Ravi Garg, Vincent Gripon, Ian Reid
基于视觉的定位是在给定单个图像的情况下推断相机姿态的问题。解决此问题的一种方法是在学习具有已知姿势的图像数据集后，学习一个深度神经网络来推断查询图像的姿势。另一种更常用的方法依赖于图像检索，其中将查询图像与图像数据库进行比较，并借助检索到的图像来推断其姿势。后一种方法假定从相同位置拍摄的图像包含相同的地标，因此具有相似的特征表示。可以使用完全监督来学习这些表示，以适应捕获条件（例如一天中的时间和天气）的不同变化。在这项工作中，我们引入了一个框架，除了考虑图像中图像对的描述符相似度之外，还考虑了由GPS坐标和由采集过程提供的图像的时间邻域等附加信息，从而增强了这些基于检索的定位方法的性能。传统上用于本地化的参考或查询数据库。我们的方法基于此附加信息构造图，并通过平滑参考图像或查询图像的特征表示将其用于健壮检索。我们表明，提出的方法能够显着提高基线上两个大型数据集的定位精度。

Joint Optimization of Sampling Patterns and Deep Priors for Improved Parallel MRI
Authors Hemant Kumar Aggarwal, Mathews Jacob
多通道成像技术已广泛应用于MRI中，以减少扫描时间。这些方案通常执行欠采样采集，并利用基于压缩感知的正则化重建算法。基于模型的深度学习MoDL框架现在正在成为压缩感知的强大替代方案，并显着提高了图像质量。在这项工作中，我们调查了采样模式对使用MoDL算法恢复的图像质量的影响。我们介绍了一种方案，用于在并行MRI的MoDL中共同优化采样模式和重构网络参数。网络参数与MoDL方案提供的采样模式之间的改进解耦转化为改进的优化，从而提高了性能。初步实验结果表明，提出的联合优化框架可以显着提高图像质量。

Probabilistic Watershed: Sampling all spanning forests for seeded segmentation and semi-supervised learning
Authors Enrique Fita Sanmartin, Sebastian Damrich, Fred A. Hamprecht HCI IWR at Heidelberg University
图上的种子分水岭算法minimax半监督学习计算最小生成林，该最小生成林将每个未标记像素的节点连接到种子标记节点。相反，我们建议考虑所有可能的跨越森林，并为每个节点计算对连接某个种子和该节点的森林进行采样的概率。我们称这种方法为概率分水岭。 Leo Grady 2006已注意到其等效于Random Walker谐波能量最小化。我们在这里给出这种等效性的简单证明，并用基尔霍夫矩阵树定理建立概率分水岭的计算可行性。此外，我们显示了随机沃克概率与有效电阻的三角形不等式之间的新联系。最后，我们对“权力分水岭”进行了新的直观解释。

Investigations of the Influences of a CNN's Receptive Field on Segmentation of Subnuclei of Bilateral Amygdalae
Authors Han Bao
在医学成像中相对较少地探索各种尺寸的对象的分割，并且通常在计算机视觉任务中具有很大的挑战性。我们假设深层模型的接收场与要分割的对象的大小紧密对应，这可能会严重影响不同大小的对象的分割精度。在这项研究中，我们使用AmygNet（双分支完全卷积神经网络FCNN，具有两个不同大小的接受域）来研究接受域对分割双侧杏仁核的四个主要亚核的影响。实验是针对14位受试者进行的，这些受试者都是3D MRI人类大脑图像。由于不同亚核群的规模是不同的，通过在使用各种大小的感受野的同时研究每个亚核群的准确性，我们可以发现哪种感受野分别适合于哪种规模的物体。在给定条件下，具有多个感受野的AmygNet在分割不同大小的对象方面具有巨大的潜力。

What Do We Really Need? Degenerating U-Net on Retinal Vessel Segmentation
Authors Weilin Fu, Katharina Breininger, Zhaoya Pan, Andreas Maier
视网膜血管分割是眼底图像分析的重要步骤。随着深度学习技术的最新发展，许多卷积神经网络已在该领域应用，包括成功的U Net。在这项工作中，我们首先使用功能块修改U Net，以追求更高的性能。缺少预期的性能提升之后，我们就不得不朝着缩小U Net和探索极端条件以保持其分段性能的相反方向进行研究。设计了一系列简化网络结构，减小网络规模并限制训练条件的实验系列。结果显示，对于DRIVE数据库上的视网膜血管分割，U Net直到令人惊讶的急性情况（一级，卷积层中的一个过滤器和一个训练样本）才退化。这个实验性发现既反直观又值得。不仅在经过充分研究的应用程序上探索了U Net的极限，而且对于无论资源成本如何都寻求提高边际性能的研究方法提出了一个有趣的警告。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

在这里插入图片描述
加粗样式
pic from pexels.com