【AI视野·今日CV 计算机视觉论文速览第168期】Fri, 15 Nov 2019_efficient convnet-based object detection for unman-CSDN博客

本文链接：https://blog.csdn.net/u014636245/article/details/103098637

AI视野·今日CS.CV 计算机视觉论文速览
Fri, 15 Nov 2019
Totally 35 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Interesting:

📚SimVODIS里程计、分割、检测三合一, 这种架构可以同时给出视觉里程计、目标检测和实例分割的结果，提供丰富的环境感知信息(from KAIST)
在这里插入图片描述

📚基于RGB与点云融合的三维目标检测框架, (from 浙大cad&GC实验室)
在这里插入图片描述

📚SpiralNet++, 一种高效的网格卷积操作子(from 帝国理工)
在这里插入图片描述

📚CartoonRenderer基于实例的多风格卡通迁移器, (from SJTU)
在这里插入图片描述

more：
LIDAR ICPS-NET 基于RGB生成点云
 公共场合暴力数据集RWF-2000
基于边缘的细小目标检测
 位姿增强的具有位姿不变性的唇语识别系统

Daily Computer Vision Papers

Harnessing spatial MRI normalization: patch individual filter layers for CNNs
Authors Fabian Eitel, Jan Philipp Albrecht, Friedemann Paul, Kerstin Ritter
基于磁共振成像MRI的神经成像研究通常采用严格的预处理形式。使用线性和非线性变换将图像在空间上标准化为标准模板。因此，可以假设位置x，y，高度，宽度上的补丁在整个数据集中包含相同的大脑区域。使用卷积神经网络CNN应用于大脑MRI的大多数分析都忽略了与自然图像的区别。在这里，我们建议一种新的图层类型，称为补丁单独滤波器PIF层，因为我们假设在空间归一化之后，更多的抽象特征在本地是特定的，所以它将在本地训练更高级别的滤波器。我们评估三种不同任务的PIF层，即性别分类以及阿尔茨海默氏病AD或多发性硬化症MS检测。我们证明了使用PIF图层的CNN在几种特别是低样本大小设置下的表现优于同类产品。

Iterative Answer Prediction with Pointer-Augmented Multimodal Transformers for TextVQA
Authors Ronghang Hu, Amanpreet Singh, Trevor Darrell, Marcus Rohrbach
许多视觉场景都包含带有关键信息的文本，因此对于下游的推理任务，必须理解图像中的文本。例如，警告标志上的深水标签警告人们有关现场的危险。最近的工作探索了TextVQA任务，该任务需要阅读和理解图像中的文本才能回答问题。但是，TextVQA的现有方法主要基于两个模态对之间的自定义成对融合机制，并且通过将TextVQA转换为分类任务而仅限于单个预测步骤。在这项工作中，我们为TextVQA任务提出了一个新颖的模型，该模型基于多模式转换器体系结构并伴随着图像中文本的丰富表示。我们的模型通过将不同的模态嵌入到共同的语义空间中，自然地将不同的模态均匀地融合在一起，在此空间中，自我注意被应用于模型间和内部模态上下文。此外，它还允许使用动态指针网络进行迭代答案解码，从而允许模型通过多步预测而不是一步分类来形成答案。我们的模型大大优于TextVQA任务的三个基准数据集上的现有方法。

Dectecting Invasive Ductal Carcinoma with Semi-Supervised Conditional GANs
Authors Jeremiah W. Johnson
浸润性导管癌IDC占所有乳腺癌的近80％。 IDC的检测是确定癌症的侵袭性，确定治疗方案和预测患者预后的必要预处理步骤，通常由专业病理学家手动执行。在这里，我们描述了一种使用半监督条件生成对抗网络cGAN自动检测IDC的新颖算法。该框架简单有效，可以提高基准CNN上一系列指标的得分。

SiamFC++: Towards Robust and Accurate Visual Tracking with Target Estimation Guidelines
Authors Yinda Xu, Zeyu Wang, Zuoxin Li, Yuan Ye, Gang Yu
视觉跟踪问题要求同时针对给定目标有效执行健壮的分类和准确的目标状态估计。以前的方法已经提出了各种目标状态估计的方法，但是很少有方法考虑到视觉跟踪问题本身的特殊性。经过仔细的分析，我们提出了一套针对高性能通用对象跟踪器设计的目标状态估计的实用准则。遵循这些准则，我们通过引入分类和目标状态估计分支G1，无歧义的分类得分G2，没有先验知识的跟踪G3和估计质量得分G4来设计全卷积暹罗跟踪器SiamFC。广泛的分析和消融研究证明了我们提出的指南的有效性。我们的SiamFC追踪器没有五花八门，在五个具有挑战性的基准上达到了最先进的性能：OTB2015，VOT2018，LaSOT，GOT 10k，TrackingNet，这证明了追踪器的追踪和泛化能力。特别是，在大规模TrackingNet数据集上，SiamFC在以超过90 FPS的速度运行时达到了75.4的前所未有的AUC分数，这远远超出了实时要求。

Adversarial Transformations for Semi-Supervised Learning
Authors Teppei Suzuki, Ikuro Sato
我们针对半监督学习提出了一种基于对抗变换RAT的正则化框架。 RAT设计用于针对输入扰动针对给定数据增强类预测的输出分布的鲁棒性。 RAT是Virtual Adversarial Training VAT的扩展，其方式是RAT通过丰富的数据转换函数对沿基础数据分布的数据进行逆向转换，从而使类标签保持不变，而VAT只会产生对抗性加性噪声。另外，我们证明了逐渐增加摄动区域的技术进一步提高了鲁棒性。在实验中，我们显示，与标准半监督图像分类设置下的现有正则化方法相比，RAT可显着提高CIFAR 10和SVHN的分类性能。

CartoonRenderer: An Instance-based Multi-Style Cartoon Image Translator
Authors Yugang Chen, Muchun Chen, Chaoyue Song, Bingbing Ni
基于实例的照片卡通化是具有挑战性的图像样式化任务之一，旨在将现实照片转换为卡通风格图像，同时保留照片的语义内容。先进的深度神经网络DNN方法仍然无法在野外输入照片时产生令人满意的结果，尤其是对于具有高对比度和充满丰富纹理的照片。这是由于卡通风格的图像倾向于具有平滑的颜色区域和强调的边缘，这与需要清晰的语义内容（即纹理，形状等）的真实照片相矛盾。先前的方法很难满足卡通风格的纹理并保留语义内容。同一时间。在这项工作中，我们提出了一个新颖的CartoonRenderer框架，该框架利用一个受过训练的模型来生成多种卡通样式。简而言之，我们的方法将照片映射到要素模型中，然后将要素模型渲染回图像空间。特别是，通过使用我们提出的Soft AdaIN在特征空间中进行一些转换操作，可以实现卡通化。大量的实验结果表明，与现有技术相比，我们的方法可以产生更高质量的卡通风格图像，并且可以准确地保留语义内容。此外，由于将整个生成过程解耦到“建模协调渲染”部件中，因此我们的方法可以轻松处理更高分辨率的照片，这对于现有方法来说是难以解决的。

Towards Pose-invariant Lip-Reading
Authors Shiyang Cheng, Pingchuan Ma, Georgios Tzimiropoulos, Stavros Petridis, Adrian Bulat, Jie Shen, Maja Pantic
得益于强大的深度学习架构，唇读模型最近得到了显着改善。但是，大多数作品都集中在嘴的正面或正面视图上。结果，在非正面的嘴中，嘴唇的阅读性能严重下降。在这项工作中，我们提出了一个在合成数据上训练姿势不变唇读模型的框架，而不是收集和注释非额叶数据，这既昂贵又乏味。所提出的模型在非正面视图上显着优于以前的方法，同时在正面和近正面口视图上保留了优异的性能。具体来说，我们建议使用3D Morphable Model 3DMM（3D变形模型）来通过生成任意姿势的合成面部数据来增强LRW（一种现有的大规模但大部分为额叶数据集）。新导出的数据集用于训练用于唇读的最新神经网络。我们对LRS2数据集进行了跨数据库实验，用于隔离单词识别，并报告了2.55的绝对改善。所提出的方法的好处在极端情况下变得更加明显，在极端情况下可以实现相对于基准线最高20.64的绝对改善。

EdgeNet: Balancing Accuracy and Performance for Edge-based Convolutional Neural Network Object Detectors
Authors George Plastiras, Christos Kyrkou, Theocharis Theocharides
对于低延迟的应用程序和实时决策至关重要的情况，边缘的可视化智能正变得越来越必要。由于卷积神经网络CNN和深度学习的出现，对象检测是视觉数据分析的第一步，在最先进的准确性方面已取得了显着改善。然而，这种复杂的范例增加了计算需求，因此阻止了它们在资源受限的设备上的部署。在这项工作中，我们提出了一个分层框架，该框架能够检测高分辨率视频帧中的对象，并在使用低功耗嵌入式处理器作为目标时，在处理速度方面保持优于基于CNN的对象检测器的精度，同时在性能方面胜过现有工作智能数据缩减机制。此外，提出了用于无人机的行人检测的用例，表明了该方法在不同平台上实施时对灵敏度，平均处理时间和功耗的影响。使用建议的选择过程，我们的框架设法将处理的数据减少100倍，从而导致不同边缘设备的功耗低于4W。

PI-RCNN: An Efficient Multi-sensor 3D Object Detector with Point-based Attentive Cont-conv Fusion Module
Authors Liang Xie, Chao Xiang, Zhengxu Yu, Guodong Xu, Zheng Yang, Deng Cai, Xiaofei He
LIDAR点云和RGB图像对于3D对象检测都是极其重要的。如此众多的3D检测算法致力于有效地融合这两种类型的数据。但是，它们基于Birds Eye View BEV或体素格式的融合方法不准确。在本文中，我们提出了一种新颖的融合方法，称为基于点的Attentive Cont conv Fusion PACF模块，该方法将多传感器特征直接融合在3D点上。除了连续卷积外，我们还添加了一个点池和一个专心聚合，以使融合特征更具表现力。此外，基于PACF模块，我们简要介绍了一个称为Pointcloud Image RCNN PI RCNN的3D多传感器多任务网络，该网络处理图像分割和3D对象检测任务。 PI RCNN使用分段子网从图像中提取全分辨率语义特征图，然后通过功能强大的PACF模块融合多传感器特征。从PACF模块的有效性和分段模块的表达语义特性中受益，PI RCNN可以在3D对象检测中大大改善。我们在KITTI 3D检测基准上证明了PACF模块和PI RCNN的有效性，并且我们的方法可以在3D AP的度量标准上达到最新水平。

CMSN: Continuous Multi-stage Network and Variable Margin Cosine Loss for Temporal Action Proposal Generation
Authors Yushuai Hu, Yaochu Jin, Runhua Li, Xiangxiang Zhang
在未修剪的视频中准确定位动作的开始和结束时间是一项艰巨的任务。重要的原因之一是动作的边界无法高度区分，并且边界附近的特征也难以区分。为了解决这个问题，我们提出了一个新的临时动作提案生成框架，即连续多阶段网络CMSN，该框架将包含完整动作实例的视频分为六个阶段，即Backgroud，Ready，Start，Confirm，End，Follow。为了更准确地区分“就绪”和“开始”，“结束”和“跟随”，我们提出了一种新颖的损失函数，即可变余量余弦损失VMCL，该函数允许不同类别之间的不同边距。我们在THUMOS14上进行的实验表明，所提出的临时提议生成方法比使用相同网络体系结构和训练数据集的最新方法性能更好。

Efficient ConvNet-based Object Detection for Unmanned Aerial Vehicles by Selective Tile Processing
Authors George Plastiras, Christos Kyrkou, Theocharis Theocharides
许多利用无人机的应用都需要使用计算机视觉算法来分析从其机载摄像机捕获的信息。深度学习的最新进展使得使用单次卷积神经网络CNN检测算法成为可能，该算法对输入图像进行处理以检测各种感兴趣的对象。为了保持较低的计算需求，这些神经网络通常在较小的图像尺寸上运行，但是这使得很难检测到较小的物体。当考虑配备摄像头的无人机时，这一点会得到进一步强调，在这种情况下，由于视野范围的原因，物体往往显得相对较小。因此，本文通过从较大的输入图像中提取较小的拼块图块并使用神经网络对其进行处理，探讨了在维护感兴趣对象的分辨率时所涉及的取舍。具体来说，我们引入一种关注机制，专注于仅在某些切片中检测对象，以及一种内存机制，用于跟踪未处理的切片的信息。通过对不同方法和实验的分析，我们表明，通过谨慎地选择要处理的图块，我们可以显着提高检测精度，同时保持与可调整大小和处理单个图像的CNN相当的性能，从而使该方法适用于无人机应用。

Semantic Granularity Metric Learning for Visual Search
Authors Dipu Manandhar, Muhammet Bastan, Kim Hui Yap
应用于各种应用程序的深度度量学习在识别，检索和识别方面已显示出令人鼓舞的结果。现有方法通常在视觉相似性上没有考虑不同的粒度。然而，在许多领域应用中，图像在多个粒度上表现出与视觉语义概念相似的特征，例如图像。时装表现出相似性，从完全相同实例的服装到外观相似的设计或相同类别。因此，用于度量学习的训练图像三元组对固有地具有不同程度的信息。但是，现有方法通常在训练过程中将它们同等重要。这阻碍了捕获有效视觉搜索所需的特征相似度中的基础粒度。

Self-Supervised Learning For Few-Shot Image Classification
Authors Da Chen, Yuefeng Chen, Yuhong Li, Feng Mao, Yuan He, Hui Xue
很少有镜头图像分类旨在对标签数量有限的看不见的类别进行分类。最近的作品得益于具有间歇性任务的元学习过程，并且可以快速适应从培训到测试的课堂学习。由于每个任务的样本数量有限，因此用于元学习的初始嵌入网络已成为必不可少的组件，并且在很大程度上会影响性能。为此，已经提出了许多预训练的方法，并且大多数方法是以有监督的方式训练的，对于看不见的课程，传递能力有限。在本文中，我们建议使用自监督学习SSL来训练更通用的嵌入网络，该网络可以通过从数据本身学习来为下游任务提供缓慢而可靠的表示。我们通过在两个镜头分类数据集上（即MiniImageNet和CUB）与以前的基线方法进行广泛比较来评估我们的工作。根据评估结果，提出的方法具有明显更好的性能，即在MiniImageNet上将近textbf 3和textbf 4改进了1镜头和5镜头任务，在CUB上将近textbf 9和textbf 3改进了。此外，通过使用更多未标记的数据进行预训练，所提出的方法可以获得MiniImageNet上的textbf 15，textbf 13和CUB上的textbf 15，textbf 8的改进。我们的代码将在hyperref上提供

HUSE: Hierarchical Universal Semantic Embeddings
Authors Pradyumna Narayana, Aniket Pednekar, Abishek Krishnamoorthy, Kazoo Sone, Sugato Basu
最近，与图像和文本相对应的跨模式表示学习的兴趣激增。主要挑战在于将图像和文本映射到共享的潜在空间，在该潜在空间中，与相似语义概念相对应的嵌入比与不同语义概念相对应的嵌入更靠近彼此，而无论其形式如何。排名损失通常用于创建此类共享的潜在空间，但是它们不会对类间关系施加任何约束，从而不会导致相邻群集完全不相关。视觉语义嵌入领域的作品通过首先基于一些外部知识构建语义嵌入空间并将图像嵌入投影到此固定的语义嵌入空间来解决此问题。这些作品仅限于图像域，将嵌入限制在固定的空间会增加学习的负担。本文提出了一种新的方法HUSE，用于学习带有语义信息的交叉模式表示。 HUSE学习了一个共享的潜在空间，其中任意两个通用嵌入之间的距离类似于它们在语义嵌入空间中相应的类嵌入之间的距离。 HUSE还使用带有共享分类层的分类目标，以确保图像和文本嵌入在相同的共享潜在空间中。在UPMC Food 101上进行的实验表明，我们的方法在检索，分层精度和分类结果方面优于现有技术。

A Scalable Approach for Facial Action Unit Classifier Training UsingNoisy Data for Pre-Training
Authors Alberto Fung, Daniel McDuff
机器学习系统已被用来自动化许多类型的繁琐的贴标任务。面部动作编码就是这种标记任务的一个示例，该标记任务需要大量的时间，并且需要超出人类领域专业知识的平均水平。近年来，端到端深度神经网络的使用已导致动作单元识别性能的显着改善，并且已经提出了许多网络体系结构。做更复杂的深度神经网络DNN架构是否足以表现出额外的复杂度是合理的？我们证明，对大量多样的嘈杂数据集进行预训练甚至可以使简单的CNN模型相对于现有DNN架构有所改善。通过我们提出的方法在DISFA数据集上获得的平均F1得分为0.60，而之前的最新水平为0.57。此外，我们展示了用于预训练的主题数量和图像数量如何影响模型性能。我们概述的方法是开源的，高度可伸缩的，并且不依赖于模型体系结构。我们发布代码和数据

Progressive Feature Polishing Network for Salient Object Detection
Authors Bo Wang, Quan Chen, Min Zhou, Zhiqiang Zhang, Xiaogang Jin, Kun Gai
特征对于显着物体检测很重要。现有方法主要集中在设计复杂的结构以合并多级特征并滤除混乱的特征。我们介绍了渐进式特征抛光网络PFPN，这是一个简单而有效的框架，用于逐步抛光多级特征，以使其更加准确和具有代表性。通过以循环方式使用多个功能抛光模块FPM，我们的方法能够检测具有精细细节的显着物体，而无需任何后处理。 FPM通过直接合并所有更高级别的上下文信息来并行更新每个级别的功能。此外，它可以保留特征图的尺寸和层次结构，这使其可以灵活地与任何基于CNN的模型集成。经验实验表明，随着FPM数量的增加，我们的结果在单调提高。在五花八门的情况下，PFPN在各种评估指标下的五个基准数据集上的性能明显优于现有方法。

SimVODIS: Simultaneous Visual Odometry, Object Detection, and Instance Segmentation
Authors Ue Hwan Kim, Se Ho Kim, Jong Hwan Kim
智能代理需要了解周围的环境，以便为人类提供有意义的服务或与之进行智能交互。代理应该感知环境中固有的几何特征以及语义实体。通常，现代方法一次只能提供一种有关环境的信息，这使得执行高级任务变得困难。此外，运行两种方法并关联两个结果信息需要大量计算，并使软件体系结构复杂化。为了克服这些限制，我们提出了一种神经体系结构，该体系结构可以在单线程同时视觉测距法，对象检测和实例分割SimVODIS中同时执行几何和语义任务。培训SimVODIS要求未标记的视频序列，并且输入图像帧之间的光度一致性会生成自我监控信号。 SimVODIS的性能在姿态估计，深度图预测，对象检测和实例分割任务中优于或匹配最新的性能，同时在单个线程中完成所有任务。我们期望SimVODIS将增强智能代理的自主性，并让代理为人类提供有效的服务。

GIFT: Learning Transformation-Invariant Dense Visual Descriptors via Group CNNs
Authors Yuan Liu, Zehong Shen, Zhixuan Lin, Sida Peng, Hujun Bao, Xiaowei Zhou
要找到具有不同视点的图像之间的局部对应关系，需要对几何变换具有鲁棒性的局部描述符。变换不变性的一种方法是通过合并从图像的变换版本中提取的特征来整合变换。但是，特征池可能会牺牲所得描述符的独特性。在本文中，我们介绍了一种新颖的视觉描述符，称为组不变特征变换GIFT，它对几何变换具有判别性和鲁棒性。关键思想是，可以将从图像的转换版本中提取的特征视为在转换组上定义的函数。代替特征池，我们使用组卷积来利用提取的特征在组上的基础结构，从而导致对变换组既有区别又证明是不变的描述符。大量的实验表明，GIFT在几个基准数据集上的表现优于最新方法，并且实际上提高了相对姿态估计的性能。

RWF-2000: An Open Large Scale Video Database for Violence Detection
Authors Ming Cheng, Kunjing Cai, Ming Li
近年来，监视摄像机广泛部署在公共场所，由于这些无处不在的设备，总体犯罪率已大大降低。通常，这些摄像机在犯罪后提供线索和证据，而很少用于及时预防或阻止犯罪活动。手动监视来自监视摄像机的大量视频数据既费时又费力。因此，自动识别视频信号中的暴力行为变得至关重要。在本文中，我们总结了几个用于暴力检测的现有视频数据集，并提出了一个新的视频数据集，其中包含了在现实世界场景中由监视摄像机捕获的2,000多个视频。此外，我们提出了一种同时利用3D CNN和光流优点的新方法，即流控网络。所提出的方法在我们所提出的RWF 2000数据库的测试集上获得了86.75的准确性。

LiDAR ICPS-net: Indoor Camera Positioning based-on Generative Adversarial Network for RGB to Point-Cloud Translation
Authors Ali Ghofrani, Rahil Mahdian Toroghi, Seyed Mojtaba Tabatabaie, Seyed Maziar Tabasi
室内定位旨在在没有GPS数据可用性的区域内进行导航，并且可以用于许多应用中，例如增强现实，特别是在封闭区域和隧道内的自动驾驶。在本文中，提出了一种基于深度神经网络的体系结构来解决该问题。在这方面，已经利用了一系列卷积神经网络以及Pix2Pix GAN网络分别用作场景分类器，场景RGB图像到点云转换器和位置回归器。拟议的体系结构优于以前的工作，包括我们最近的工作，在某种意义上说，它使数据生成任务更容易且对场景的微小变化更鲁棒，而对于笛卡尔的笛卡尔位置和四元数信息，定位的准确性非常好。相机。

Character Keypoint-based Homography Estimation in Scanned Documents for Efficient Information Extraction
Authors Kushagra Mahajan, Monika Sharma, Lovekesh Vig
多个图像之间的精确单应性估计是许多计算机视觉应用程序的先决条件。在当今的数字时代特别重要的一种应用是对齐扫描或相机捕获的文档图像，例如用于信息提取的保险索赔表。由于缺乏合适的梯度，传统的基于学习的方法效果较差。用于实景图像中单应性估计的基于特征的关键点提取技术或者检测到由于文本边缘锐利而导致的大量不一致的关键点，或者由于文档图像之间的照明和视点差异而产生的关键点对应不准确。在本文中，我们提出了一种新颖的算法，该算法使用基于字符的关键点和参考模板来对齐扫描或相机捕获的文档图像。该算法既快速又准确，并且利用标准的光学字符识别OCR引擎（例如Tesseract）来找到基于字符的明确关键点，该关键点用于识别两个图像之间的精确关键点对应。最后，关键点用于计算测试文档和模板之间的单应性映射。我们评估了在两个由健康保险索赔表格组成的真实世界中匿名数据集上提取信息的方法，结果支持了该技术的可行性。

SpiralNet++: A Fast and Highly Efficient Mesh Convolution Operator
Authors Shunwang Gong, Lei Chen, Michael Bronstein, Stefanos Zafeiriou
具有可区分内核功能的本征图卷积运算符在分析3D形状网格中起着至关重要的作用。在本文中，我们提出了一种快速而有效的内在网格卷积算子，该算子不依赖于核函数的复杂设计。我们明确地制定了汇总相邻顶点的顺序，而不是学习节点之间的权重，然后跟随一个完全连接的层将局部几何结构信息与顶点特征融合在一起。我们提供了广泛的证据，表明基于此卷积算符的模型更易于训练，并且可以有效地学习不变的形状特征。具体而言，我们在密集形状对应，3D面部表情分类和3D形状重建这三种不同类型的任务上评估了我们的方法，并表明该方法在不依赖形状描述符的情况下显着优于现有方法，同时显着提高了速度。我们的源代码可在GitHub上获得。

Fetal Head and Abdomen Measurement Using Convolutional Neural Network, Hough Transform, and Difference of Gaussian Revolved along Elliptical Path (Dogell) Algorithm
Authors Kezia Irene, Aditya Yudha P., Harlan Haidi, Nurul Faza, Winston Chandra
与发达国家相比，印度尼西亚的胎儿新生儿死亡人数仍然很高。这是由于怀孕期间未进行母体监测所致。本文提出了超声USG图像对胎儿头围HC和腹围AC的自动测量。这种自动测量有助于检测怀孕期间的早期胎儿异常。我们使用卷积神经网络CNN方法对USG数据进行预处理。之后，我们使用Hough变换算法以及沿椭圆路径Dogell算法的高斯旋转差来估计头和腹围。我们使用了印度尼西亚国家医院的数据集，并进行了准确性测量，我们将结果与专业产科医生测量的带注释的图像进行了比较。结果表明，通过使用CNN，我们减少了由噪点图像引起的错误。我们发现，Dogell算法在时间和准确性上都比Hough变换算法更好。这是使用CNN方法预处理数据的第一个HC和AC近似值。

Self-Supervised Learning of State Estimation for Manipulating Deformable Linear Objects
Authors Mengyuan Yan, Yilin Zhu, Ning Jin, Jeannette Bohg
我们演示了基于模型的可视机器人对线性可变形物体的操纵。我们的方法基于机器人旨在控制的物理系统的状态空间表示。该选择具有多个优点，包括易于将物理先验合并到动力学模型和感知模型中，以及易于计划操纵操作。另外，物理状态自然可以表示不同外观的对象实例。因此，可以在一种设置中学习状态空间中的动力学，并直接在其他视觉上不同的设置中使用。这与在像素空间或潜伏空间中学习到的动力学相反，在动力学中无法保证泛化到视觉差异。采用状态空间方法的挑战是从原始图像估计可变形对象的高维状态，在原始图像中注释在实际数据上非常昂贵，并找到一种既准确，可泛化又高效计算的动力学模型。我们是第一个在真实图像上演示绳索状态估计的自我监督训练，而无需昂贵的注释。这是通过我们新颖的可微分渲染器和图像丢失实现的，这些渲染器和图像丢失可在广泛的视觉外观中推广。利用估计的绳索状态，我们训练了一个快速且可微的神经网络动力学模型，该模型对质量弹簧系统的物理特性进行了编码。与不涉及显式状态估计并且不事先使用任何物理方法的模型相比，我们的方法在预测未来状态时具有更高的准确性。我们还表明，当在模型预测控制器中使用我们的方法时，无论是在仿真中还是在真实的机器人上，都可以实现更有效的操纵。

An Improved Tobit Kalman Filter with Adaptive Censoring Limits
Authors Kostas Loumponias, Nicholas Vretos, George Tsaklidis, Petros Daras
当测量值相关并被检查时，本文涉及Tobit Kalman滤波TKF过程。考虑间隔检查的情况，即，在给定的检查限制下属于某个间隔的测量的情况。为了估计隐藏状态向量，提出了标准TKF过程的两个改进。首先，通过考虑检查限制来计算检查测量的精确协方差矩阵。其次，通过考虑卡尔曼残差，计算出潜在的正态分布测量值属于或未经审查的区域的概率。使用合成和真实数据集对设计的算法进行测试。实际数据集包括Microsoft Kinect II传感器捕获的人体骨骼关节坐标。为了应对在人类骨骼跟踪中引起问题的某些现实情况，例如自我遮挡，紧密互动的人等，在建议的TKF过程中使用了自适应检查限制。实验表明，该方法在最小化合成和真实数据集的整体均方根误差RMSE方面优于其他滤波过程。

Convolutional Neural Network for Convective Storm Nowcasting Using 3D Doppler Weather Radar Data
Authors Lei Han, Juanzhen Sun, Wei Zhang
对流风暴是在暖季期间发现的严重天气灾害之一。多普勒天气雷达是唯一可以频繁采样对流风暴详细结构的操作仪器，其空间规模小且寿命短。对于短期对流风暴预报的挑战性任务，3D雷达图像包含有关对流风暴过程的信息。但是，由于缺乏方法和计算限制，从多源原始数据中有效提取此类信息一直存在问题。深度学习技术和图形处理单元的最新进展现在使之成为可能。本文研究了端到端深度学习临近预报方法的可行性和性能。首先将临近预报问题转化为分类问题，然后提出了一种使用卷积神经网络进行深度学习的方法进行预测。在CNN的第一层上，提出了跨通道3D卷积以融合3D原始数据。 CNN方法消除了手工特征工程，即使用数据领域知识手动设计特征的过程。使用中国北京天津河北地区的运营生产历史数据来训练临近预报系统并评估其性能。在训练数据集中收集了3737332个样本。实验结果表明，与传统的机器学习方法相比，深度学习方法提高了临近预报技能。

VisionISP: Repurposing the Image Signal Processor for Computer Vision Applications
Authors Chyuan Tyng Wu, Leo F. Isikdogan, Sushma Rao, Bhavin Nayak, Timo Gerasimow, Aleksandar Sutic, Liron Ain kedem, Gilad Michael
传统的图像信号处理器ISP最初经过设计和优化，以提高人们感知到的图像质量。但是，对于计算机视觉应用而言，最佳的感知图像质量并不总是转化为最佳性能。我们提出了一套方法，我们将其统称为VisionISP，以将ISP用于机器消耗。 VisionISP通过在保留相关信息的同时降低位深度和分辨率来显着减少数据传输需求。 VisionISP中的模块很简单，具有内容意识并且易于训练。实验结果表明，VisionISP可提高后继计算机视觉系统的性能，该系统经过训练可在自动驾驶环境中检测物体。结果证明了VisionISP在计算机视觉应用中的潜力和实用性。

Adversarial Margin Maximization Networks
Authors Ziang Yan, Yiwen Guo, Changshui Zhang
最近，深度神经网络DNN的巨大成功激发了人们对理解其预测能力的兴趣。与人类视觉系统能够强大地泛化并在很少的监督下进行学习不同，DNN通常需要大量数据才能学习新概念。此外，研究工作还表明，DNN容易受到对抗示例的恶意生成的图像的攻击，这些图像看起来在感觉上与自然图像相似，但实际上是愚弄的学习模型，这意味着该模型存在问题，无法推广到某些类型的失真的看不见的数据。在本文中，我们全面分析了DNN的泛化能力，并尝试从几何角度改进DNN的泛化能力。我们提出了对抗性边际最大化AMM，这是一种基于学习的正则化技术，利用对抗性扰动作为代理。就像支持向量机一样，它鼓励在输入空间中留出较大的余量。利用微分的微妙公式，我们简单地以端对端的方式通过反向传播来训练正则化DNN。在包括MNIST，CIFAR 10 100，SVHN和ImageNet的各种数据集以及不同的DNN架构上的实验结果证明了我们的方法优于现有技术的优势。重现我们结果的代码和模型将公开提供。

Deep Encoder-decoder Adversarial Reconstruction (DEAR) Network for 3D CT from Few-view Data
Authors Huidong Xie, Hongming Shan, Ge Wang
X射线计算机断层扫描CT在临床实践中被广泛使用。但是，涉及的电离X射线辐射可能会增加患癌症的风险。因此，近年来，降低辐射剂量已成为重要课题。很少查看CT图像重建是最小化辐射剂量并可能允许固定CT架构的主要方法之一。在本文中，我们提出了一种深度编码器解码器对抗重建DEAR网络，用于从少量视图数据中重建3D CT图像。由于由很少的视图重建导致的伪像出现在3D而不是2D几何中，因此3D深度网络具有以数据驱动方式改善图像质量的巨大潜力。更具体地说，我们提出的DEAR 3D网络旨在直接从临床3D螺旋锥束图像数据重建3D体积。 DEAR已在Mayo Clinic准备和授权的可公开获得的腹部CT数据集上进行了验证。与其他2D深度学习方法相比，提出的DEAR 3D网络可以利用3D信息来产生有希望的重建结果。

Image-Based Feature Representation for Insider Threat Classification
Authors Gayathri R G, Atul Sajjanhar, Yong Xiang
内部人员是组织中受信任的实体，但是对敏感信息网络和资源的访问对企业构成威胁。内部威胁检测是安全分析中一个经过充分研究的问题。识别数据源中的功能并将其与正确的数据分析算法配合使用，可以进行各种威胁分析。内部威胁分析主要是使用基于频率的属性来进行的，这些属性是从可从数据源获得的原始数据中提取的。在本文中，我们提出了基于图像的组织中用户日常资源使用模式的特征表示。从组织的审核文件中提取的功能以灰度图像表示。因此，这些图像用于表示资源访问模式，从而表示用户的行为。将分类模型应用于代表性图像以检测内部人员的异常行为。图像分为恶意和非恶意。使用CMU CERT数据V4.2和最新的图像分类模型（如Mobilenet，VGG和ResNet）评估了提出的表示的有效性。实验结果表明精度提高了。与现有作品的比较表明，在高召回率和精度值方面，性能有所提高。

Scientific Image Restoration Anywhere
Authors Vibhatha Abeykoon, Zhengchun Liu, Rajkumar Kettimuthu, Geoffrey Fox, Ian Foster
在科学实验设施内使用深度学习模型经常需要低延迟推断，因此，例如，可以在收集数据时执行质量控制操作。边缘计算设备在这种情况下可能是有用的，因为它们的低成本和紧凑的形状因数允许它们与实验设备位于同一位置。这样的设备在资源有限的情况下能否有效且有效地执行神经网络前馈计算吗？我们通过评估边缘计算设备上科学的图像恢复模型（模型输入和输出都是图像）的性能和准确性来探索这个问题。。具体来说，我们在Google Edge TPU和NVIDIA Jetson上评估了TomoGAN的部署，该模型是基于针对低剂量X射线成像开发的生成对抗网络的图像降噪模型。我们将TomoGAN应用于边缘执行，评估模型推理性能，并提出解决由于模型量化而导致的精度下降的方法。我们证明，这些边缘计算设备可以提供与完全成熟的CPU或GPU模型相当的精度，其速度足以满足预期部署的需要，在不到一秒的时间内即可显示1024 x 1024的图像。我们的实验还表明，Edge TPU模型的推理速度比基于CPU的模型快3倍，比基于边缘GPU的模型快1.5倍。高速和低成本的这种组合允许在任何地方恢复图像。

Motion Reasoning for Goal-Based Imitation Learning
Authors De An Huang, Yu Wei Chao, Chris Paxton, Xinke Deng, Li Fei Fei, Juan Carlos Niebles, Animesh Garg, Dieter Fox
我们解决基于目标的模仿学习，目标是从第三人称视频演示输出象征性目标。这使机器人能够计划执行并在完全不同的环境中重现相同的目标。关键的挑战是，视频演示的目标通常在语义动作方面是模棱两可的。人类示威者可能会在示威活动中无意中达到某些目标。我们的主要贡献是提出一种结合了任务和动作计划的动作推理框架，以消除演示者在视频演示中的真实意图。这使我们能够牢固地认识到以前基于行动的方法无法消除的目标。我们通过在样机厨房环境中收集96个视频演示的数据集来评估我们的方法。我们证明，运动推理在识别演示者的实际目标中起着重要作用，并将成功率提高了20倍以上。我们进一步证明，通过使用视频演示中自动推断的目标，我们的机器人能够在真实的厨房环境中重现相同的任务。

Accelerating cardiac cine MRI beyond compressed sensing using DL-ESPIRiT
Authors Christopher M. Sandino, Peng Lai, Shreyas S. Vasanawala, Joseph Y. Cheng
提出了一种新颖的神经网络架构，称为DL ESPIRiT，以重建快速采集的心脏MRI数据，而不会出现以前提出的基于深度学习的重建框架中存在的视场限制。此外，将基于可分离3D卷积的新颖卷积神经网络集成到DL ESPIRiT中，可以更有效地学习时空先验，以进行动态图像重建。该网络在从IRB批准的11名健康志愿者那里收集的全采样2D心脏电影数据集上进行了训练。将DL ESPIRiT与最先进的并行成像和压缩传感方法（称为11 ESPIRiT）进行了比较。相对于标准图像质量指标以及基于自动深度学习的左心室容积分割，在回顾性欠采样数据集R 12上评估这两种方法的重建精度。这种方法的可行性在重建每个样本单个心跳中获得的预期欠采样数据中得到了证明。

Visual-Inertial Localization for Skid-Steering Robots with Kinematic Constraints
Authors Xingxing Zuo, Mingming Zhang, Yiming Chen, Yong Liu, Guoquan Huang, Mingyang Li
尽管视觉定位或SLAM在过去的几十年中取得了长足的进步，但在实践中将其部署在移动机器人上时，很少有作品在设计状态估计器时明确考虑了实际机器人系统的运动学或动态约束。为了促进当前最先进的视觉惯性定位算法的实际部署，在这项工作中，我们提出了一种低成本的运动学约束定位系统，特别是针对滑移转向移动机器人。特别地，我们以原理方式基于瞬时旋转中心ICR模型得出机器人的运动学约束，并将它们以紧密耦合的方式整合到基于滑动窗束调整BA的视觉惯性估计器中。由于ICR模型参数由于例如跟踪到地形的交互作用和地形粗糙度而随时间变化，因此我们在线估计这些运动学参数以及导航状态。为此，我们深入进行可观察性分析并确定状态参数估计可行的运动条件。所提出的运动学约束的视觉惯性定位系统已经在不同的地形场景中得到了广泛的验证。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com