【AI视野·今日CV 计算机视觉论文速览第155期】Fri, 6 Sep 2019_c3dpo: canonical 3d pose networks for non-rigid st-CSDN博客

本文链接：https://blog.csdn.net/u014636245/article/details/100603188

AI视野·今日CS.CV 计算机视觉论文速览
Fri, 6 Sep 2019
Totally 42 papers
?上期速览✈更多精彩请移步主页

在这里插入图片描述

Interesting:

?C3DPO基于2D关键点抽取和构建三维模型, (from Facebook AI Research)
在这里插入图片描述

?POLY-GAN用于时尚合成的多个条件GAN网络, (from 罗彻斯特理工)
在这里插入图片描述

? Soft Fine-tuning有效的领域知识迁移方法, (from 字节跳动)
在这里插入图片描述

?TIGEr自动图像标注评测系统, (from 伊利诺伊 UCSB 微软)
在这里插入图片描述

?基于重力估计视频中人体身高, (from 洛桑理工)
在这里插入图片描述

ref:工业零件抓取及其数据集：https://precise-grasping.jialiangz.me/

Daily Computer Vision Papers

Explanation based Handwriting Verification
Authors Mihir Chauhan, Mohammad Abuzar Shaikh, Sargur N. Srihari
深度学习系统的缺点是它们的输出不伴随着规划。在法医手写验证等领域，必须为陪审员提供解释。手写验证的目标是找到一个信息的度量，无论给定的手写样本是由相同还是不同的编写者写的。我们提出了一种方法来生成解释由卷积神经网络CNN提供的置信度，CNN将输入图像映射到专家提供的15个注释功能。我们的系统包括1个功能学习网络FLN，一个可区分的系统，2个用于提供解释的推理模块。此外，推理模块提供两种类型的解释a基于每个特征的分类概率之间的余弦相似性，b基于使用定向概率图模型的对数似然比LLR。我们使用特征学习网络FLN和每个推理模块的组合进行实验。我们使用XAI AND数据集评估我们的系统，每个样本包含13700个手写样本和15个响应专家检查的特征。该数据集是为公共使用而发布的，并且可以扩展这些方法以提供其他验证任务的解释，如面部验证和生物医学比较。该数据集可作为未来基于解释的手写验证研究的基础和基准。代码可以在github上找到。

Harnessing the Power of Deep Learning Methods in Healthcare: Neonatal Pain Assessment from Crying Sound
Authors Md Sirajus Salekin, Ghada Zamzmi, Rahul Paul, Dmitry Goldgof, Rangachar Kasturi, Thao Ho, Yu Sun
临床环境中的新生儿疼痛评估具有挑战性，因为它是不连续的和有偏见的。由于临床状况，发育迟缓，俯卧位或其他外部因素，面部身体闭塞可在此类环境中发生。在这种情况下，哭声可用于有效评估新生儿疼痛。在本文中，我们研究了新型CNN架构N CNN以及其他CNN架构VGG16和ResNet50用于评估新生儿哭声的疼痛。实验结果表明，使用我们的新型N CNN评估新生儿声音引起的疼痛具有很强的临床潜力，并为目前的评估实践提供了可行的替代方案。

C3DPO: Canonical 3D Pose Networks for Non-Rigid Structure From Motion
Authors David Novotny, Nikhila Ravi, Benjamin Graham, Natalia Neverova, Andrea Vedaldi
我们提出了C3DPO，一种从无约束图像中的2D关键点注释中提取可变形物体的3D模型的方法。我们通过学习深度网络来实现这一目标，该网络一次从单个视图重建3D对象，考虑部分遮挡，并明确地分解视点变化和对象变形的影响。为了实现这种分解，我们引入了一种新颖的正则化技术。我们首先表明，当且仅当重建形状存在某种规范化函数时，因子分解才是成功的。然后，我们与重建函数一起学习规范化函数，这限制了结果的一致性。我们展示了对于许多基准测试不使用地面实况3D监控的方法的最新重建结果，包括Up3D和PASCAL3D。

Neural Style-Preserving Visual Dubbing
Authors Hyeongwoo Kim, Mohamed Elgharib, Michael Zollh fer, Hans Peter Seidel, Thabo Beeler, Christian Richardt, Christian Theobalt
配音是一种将视频内容从一种语言翻译成另一种语言的技术。然而，现有技术的视觉配音技术直接将面部表情从源头复制到目标演员而不考虑身份特定的特性，例如独特的微笑类型。我们提供了一种从单个视频输入保留视觉配音方式的风格，在修改面部表情（包括嘴部动作）以匹配外语时，它保持了目标演员的签名风格。我们的方法的核心是运动风格的概念，特别是面部表情，即人脸特定的表情变化，这是面部编辑应用中超出视觉准确性的另一个重要因素。我们的方法基于复发的生成对抗网络，其捕获面部表情的时空共激活，并且能够在保持其风格的同时生成和修改目标演员的面部表情。我们使用循环一致性和口腔表达损失以无人监督的方式使用非同步源和目标视频训练我们的模型，并使用分层神经面部渲染器合成逼真的视频帧。我们的方法产生时间上连贯的结果，并处理动态背景。我们的结果表明，我们的配音方法比以前的方法更好地保持了目标演员的特殊风格，即使是广泛不同的源和目标演员。

Stack-VS: Stacked Visual-Semantic Attention for Image Caption Generation
Authors Wei Wei, Ling Cheng, Xianling Mao, Guangyou Zhou, Feida Zhu
最近，自动图像标题生成一直是多模态翻译任务工作的重点。现有方法可以粗略地分为两类，即自上而下和自下而上，前者将称为视觉水平特征的图像信息直接传递到字幕中，后者使用被称为semanticlevel属性的提取字来生成描述。然而，先前的方法或者通常基于一级解码器，或者部分地利用视觉级别或语义级别信息的一部分来生成图像标题。在本文中，我们通过组合自下而上和自上而下的注意力模型来有效地处理输入图像的视觉水平和语义级别信息，我们解决了这个问题并提出了一种称为Stack VS的创新多阶段架构，用于丰富的精细图像标题生成。。具体来说，我们还提出了一种新颖精心设计的堆栈解码器模型，它由一系列解码器单元构成，每个解码器单元包含两个LSTM层，交互工作以重新优化视觉水平特征向量和语义级属性嵌入的注意权重，以便生成一个很好的图像标题。对流行的基准数据集MSCOCO的广泛实验显示了对不同评估指标的显着改进，即，与现有技术相比，BLEU 4 CIDEr SPICE得分的改进分别为0.372,1.226和0.216。

Intrinsic Dynamic Shape Prior for Fast, Sequential and Dense Non-Rigid Structure from Motion with Detection of Temporally-Disjoint Rigidity
Authors Vladislav Golyanik, Andr Jonas, Didier Stricker, Christian Theobalt
虽然近年来从可重构性问题的角度对运动NRSfM的致密非刚性结构进行了广泛的研究，但几乎没有尝试将其引入实际领域。传播缓慢的原因是严重的病态，对运动和变形线索的高度敏感性以及在绝大多数实际场景中难以获得可靠的点轨迹。为了填补这一空白，我们提出了一种混合方法，该方法使用NRSfM从输入序列中提取先前的形状知识，并将其用作动态形状，然后在具有重现的情况下进行顺序表面恢复。我们的动态形状先验重建DSPR方法可以与现有的密集NRSfM技术相结合，同时其能量功能通过实时速率的随机梯度下降进行优化，以用于新的入射点轨迹。所提出的具有新核心NRSfM方法的多功能框架在处理不准确和噪声点轨道的能力方面优于其他几种方法，前提是我们可以根据变形变化图像序列访问代表。综合实验突出了不同干扰效应下的收敛特性和DSPR的准确性。我们还进行了跟踪和重建的联合研究，并展示了在闭塞下塑形压缩和心脏重建的应用。我们在不同的场景中实现了最先进的度量精度和压缩比。

FreeAnchor: Learning to Match Anchors for Visual Object Detection
Authors Xiaosong Zhang, Fang Wan, Chang Liu, Rongrong Ji, Qixiang Ye
现代的基于CNN的物体探测器在单元IoU上的物体锚点交叉的限制下为地面实况对象分配锚点。在这项研究中，我们提出了一种学习匹配方法来打破IoU限制，允许对象以灵活的方式匹配锚点。我们的方法，称为FreeAnchor，通过将检测器训练公式化为最大似然估计MLE过程，将手工制作的锚分配更新为自由锚匹配。 FreeAnchor的目标是学习功能，这些功能可以在分类和本地化方面最好地解释一类对象。 FreeAnchor通过优化检测定制的可能性来实现，并且可以以即插即用的方式与基于CNN的检测器融合。 MS COCO的实验表明，FreeAnchor的表现优于同行，并且利润率很高。

Semantic-Aware Scene Recognition
Authors Alejandro L pez Cifuentes, Marcos Escudero Vi olo, Jes s Besc s, lvaro Garc a
场景识别是目前计算机视觉领域中最具挑战性的研究领域之一。这可能是由于类之间的模糊性，几个场景类的图像可能共享相似的对象，这导致它们之间的混淆。当特定场景类的图像明显不同时，问题会更加严重。卷积神经网络CNN显着提高了场景识别的性能，尽管它仍然远远低于其他识别任务，例如对象或图像识别。在本文中，我们描述了一种基于端到端多模态CNN的场景识别的新方法，其通过关注模块组合图像和上下文信息。以语义分割的形式的上下文信息用于通过利用在语义表示中编码的信息来对从RGB图像提取的特征进行门控，该信息是场景对象和东西的集合及其相对位置。该选通过程加强了对指示性场景内容的学习，并通过将CNN的感知场重新聚焦于它们来增强场景消歧。四个公开可用数据集的实验结果表明，所提出的方法优于其他所有现有技术方法，同时显着减少了网络参数的数量。本文中使用的所有代码和数据均可在此处获得

Utilizing Temporal Information in DeepConvolutional Network for Efficient Soccer BallDetection and Tracking
Authors Anna Kukleva, Mohammad Asif Khan, Hafez Farazi, Sven Behnke
足球检测被认为是RoboCup比赛中的关键挑战之一。它需要一个高效的视觉系统，能够以高精度和召回率处理检测任务，并提供强大和低推理时间。在这项工作中，我们提出了一种新的卷积神经网络CNN方法来检测图像序列中的足球。与仅使用当前帧或图像进行检测的现有方法相比，我们利用帧的历史。使用历史记录允许在球消失或在一些帧中部分遮挡的情况下有效地跟踪球。我们的方法利用空间时间相关性并基于其运动的轨迹来检测球。我们用三种卷积方法呈现我们的结果，即时间卷积网络TCN，ConvLSTM和ConvGRU。我们首先使用完全卷积编码器解码器架构来解决图像的检测任务，然后，我们将其用作我们的时间模型的输入，并共同学习图像序列中的检测任务。我们在作为这项工作的一部分准备的新数据集上评估我们的所有实验。此外，我们提出实证结果，以支持在具有挑战性的情景中使用球的历史的有效性。

An Active Learning Approach for Reducing Annotation Cost in Skin Lesion Analysis
Authors Xueying Shi, Qi Dou, Cheng Xue, Jing Qin, Hao Chen, Pheng Ann Heng
自动皮肤病变分析在临床实践中非常重要，因为皮肤癌是最常见的人类恶性肿瘤之一。现有的深度学习方法在这项具有挑战性的任务中取得了显着的成绩，但是，它在很大程度上依赖于大规模标记数据集。在本文中，我们提出了一种新的主动学习框架，用于经济有效的皮肤病变分析。目标是有效地选择和利用更少的标记样本，同时网络仍然可以实现最先进的性能。我们的样本选择标准互补地考虑信息性和代表性，源自测量模型确定性的分离方面和覆盖样本多样性。为了明智地使用所选样本，我们进一步设计了一种简单而有效的策略来聚合像素空间中的类内图像，作为一种新的数据增强形式。我们针对两项任务验证了我们提出的ISIC 2017皮肤损伤分类挑战数据的方法。仅使用多达50个样本，我们的方法可以在两个任务上实现最先进的性能，这些任务与全数据训练相当或超过准确度，并且大大优于其他众所周知的主动学习方法。

Detector With Focus: Normalizing Gradient In Image Pyramid
Authors Yonghyun Kim, Bong Nam Kang, Daijin Kim
图像金字塔可以扩展许多物体检测算法以解决多尺度上的检测。然而，在图像金字塔的重采样过程期间的插值引起梯度变化，该梯度变化是原始图像和缩放图像之间的梯度的差异。我们的主要观点是渐变的方差增加使得分类器难以正确分配类别。我们通过制定原始图像和缩放图像之间的梯度期望比来证明梯度变化的存在，然后提出一种简单而新颖的梯度归一化方法来消除这种变化的影响。所提出的归一化方法减少了图像金字塔中的方差，并允许分类器专注于较小的覆盖范围。我们展示了行人检测，姿态估计和物体检测三种不同视觉识别问题的改进。该方法通常适用于基于具有梯度的图像金字塔的许多视觉算法。

Depth Map Estimation for Free-Viewpoint Television
Authors Dawid Mieloch, Olgierd Stankiewicz, Marek Doma ski
本文提出了一种专用于自由视点电视FTV的新的深度估计方法。对分段执行估计，因此它们的大小可用于控制深度图的质量与其估计的处理时间之间的折衷。所提出的算法可以将多个任意定位的视图作为其输入，其同时用于产生多个视图间一致的输出深度图。所呈现的深度估计方法使用新颖的并行化和时间一致性增强方法，其显着减少深度估计的处理时间。基于对FTV中虚拟视图质量的分析，已经对提议进行了实验评估。结果表明，与现有技术相比，该方法提供了深度图质量的改进，同时降低了深度估计的复杂度。深度图的一致性对于合成视频的质量以及因此在3D场景中导航的体验质量至关重要，也得到极大改善。

Efficient Neural Architecture Transformation Searchin Channel-Level for Object Detection
Authors Junran Peng, Ming Sun, Zhaoxiang Zhang, Tieniu Tan, Junjie Yan
最近，神经结构搜索在大规模图像分类方面取得了巨大成功。相比之下，关注对象检测的体系结构搜索的工作有限，主要是因为检测器总是需要昂贵的ImageNet预训练。作为替代品，从头开始的培训需要更多的时代来收敛并且不会带来任何计算节省。为克服这一障碍，本文介绍了一种实用的神经网络变换搜索NATS算法，用于目标检测。 NATS不是搜索和构建整个网络，而是在现有网络的基础上探索架构空间并重用其权重。我们提出了一种新的神经结构搜索策略，在通道级而不是路径级，并设计一个专门针对对象检测的搜索空间。通过这两种设计的组合，可以发现架构转换方案以使设计用于图像分类的网络适应对象检测的任务。由于我们的方法是基于梯度的，并且只搜索变换方案，因此可以在搜索和再训练阶段中使用在ImageNet中预训练的模型的权重，这使得整个过程非常有效。转换后的网络不需要额外的参数和FLOP，并且对硬件优化很友好，这在实时应用中是实用的。在实验中，我们展示了像ResNet和ResNeXt这样的NATSon网络的有效性。我们的转换网络与各种检测框架相结合，在保持快速的同时实现了COCO数据集的显着改进。

Adaptive Graph Representation Learning for Video Person Re-identification
Authors Yiming Wu, Omar El Farouk Bourahla, Xi Li, Fei Wu, Qi Tian
近年来见证了基于深度学习的视频人物识别Re ID的巨大发展。视频人Re ID的关键因素是如何有效地构建判别性视频特征表示，以便对诸如遮挡之类的许多复杂情况具有鲁棒性。最近基于部分的方法利用空间和时间关注来提取代表性的局部特征。虽然在先前的方法中忽略了各部分之间的相关性，但为了利用不同部分的关系，我们提出了一种用于视频人Re ID的创新的自适应图表表示学习方案，其实现了相关区域特征之间的上下文交互。具体来说，我们利用姿势对齐连接和特征亲和关系来构造自适应结构感知邻接图，其模拟图节点之间的内在关系。我们在邻接图上执行特征传播以迭代地细化原始区域特征，将邻居节点信息考虑用于部件特征表示。为了学习紧凑和有辨别力的表示，我们进一步提出了一种新颖的时间分辨率感知正则化，它强制了相同身份的不同时间分辨率之间的一致性。我们对四个基准进行了广泛的评估，即iLIDS VID，PRID2011，MARS和DukeMTMC VideoReID，实验结果达到了竞争性能，证明了我们提出的方法的有效性。

Effective Domain Knowledge Transfer with Soft Fine-tuning
Authors Zhichen Zhao, Bowen Zhang, Yuning Jiang, Li Xu, Lei Li, Wei Ying Ma
卷积神经网络需要大量数据用于训练。考虑到在某些特定任务中数据收集和标记的困难，现有方法通常使用在大型源域上预训练的模型，例如ImageNet，然后在这些任务上微调它们。但是，来自源域的数据集在微调过程中被简单地丢弃。我们认为可以更好地利用源数据集并使微调受益。本文首先介绍了一般歧视的概念，用以描述网络区分未经训练的模式的能力，然后通过实验证明一般的歧视可能会增强目标领域的总体辨别能力。此外，我们提出了一种新颖且重量轻的方法，即软微调。与通过目标域上的损失函数直接替代优化目标的传统微调不同，软微调通过保持先前的损失并且轻柔地去除它来有效地保持一般区分。通过这样做，软微调可以提高网络对数据偏差的鲁棒性，同时加速收敛。我们在几个视觉识别任务上评估我们的方法。广泛的实验结果支持软微调为所有评估任务提供一致的改进，并且显着优于现有技术。代码将向公众提供。

POD: Practical Object Detection with Scale-Sensitive Network
Authors Junran Peng, Ming Sun, Zhaoxiang Zhang, Tieniu Tan, Junjie Yan
尺度敏感对象检测仍然是一项具有挑战性的任务，其中大多数现有方法无法明确地学习它并且对于尺度方差不具有鲁棒性。此外，大多数现有方法在训练期间效率较低或在推理期间较慢，这对实时应用不友好。在本文中，我们提出了一种具有尺度敏感网络的实用目标检测方法。我们的方法首先为每个网络阶段的每个卷积滤波器预测所有位置共享的全局连续尺度。为了有效地学习比例，我们平均空间特征并从通道中提取比例。为了快速部署，我们提出了一种尺度分解方法，该方法将鲁棒小数尺度转换为每个卷积滤波器的固定积分尺度的组合，其利用扩张卷积。我们在不同配置的一阶段和两阶段算法上演示它。对于实际应用，我们的方法的培训是效率和简单性，摆脱了复杂的数据采样或优化策略。在测试期间，所提出的方法不需要额外的操作，并且非常支持像TensorRT和TVM那样的硬件加速。在COCO测试开发中，我们的模型可以在一级探测器上实现41.5 mAP，在基于ResNet 101的两级探测器上实现42.1 mAP，在没有额外FLOPS的情况下分别优于基线2.4和2.1。

A Better Way to Attend: Attention with Trees for Video Question Answering
Authors Hongyang Xue, Wenqing Chu, Zhou Zhao, Deng Cai
我们提出了一种新的视频问答应用模型。注意力模型的主要思想是定位视觉数据中信息最丰富的部分。目前，关注机制非常受欢迎。但是，大多数现有的视觉注意机制都将问题视为一个整体。他们忽略单词级语义，其中每个单词可以有不同的注意力，有些单词不需要注意。他们也没有考虑句子的语义结构。尽管用于视频问题回答的扩展软注意力E SA模型利用了单词级别的注意力，但它在长问题句子上表现不佳。在本文中，我们提出了异构树结构存储网络HTreeMN用于视频问答。我们提出的方法基于问句的语法分析树。 HTreeMN以不同的方式处理单词，其中使用注意模块处理文本视觉单词，而不使用textit语言单词。它还通过基于解析树的递归结构组合邻居来利用句子的语义结构。对单词和视频的理解被传播并从叶子合并到根。此外，我们构建了一个分层注意机制来提炼出席的功能。我们在两个数据集上评估我们的方法。实验结果表明我们的HTreeMN模型优于其他注意力模型，特别是复杂问题。我们的代码可以在github上找到。我们的代码可在

Synthesizing Coupled 3D Face Modalities by Trunk-Branch Generative Adversarial Networks
Authors Baris Gecer, Alexander Lattas, Stylianos Ploumpis, Jiankang Deng, Athanasios Papaioannou, Stylianos Moschoglou, Stefanos Zafeiriou
生成逼真的3D面对计算机图形和计算机视觉应用非常重要。通常，关于3D面部生成的研究围绕面部表面的线性统计模型。然而，这些模型不能忠实地代表面部纹理或面部法线，这对于照片真实面部合成非常关键。最近，证明了Generative Adversarial Networks GAN可用于生成高质量的面部纹理。然而，生成过程要么省略几何和法线，要么使用独立过程来产生3D形状信息。在本文中，我们提出了第一种联合生成高质量纹理，形状和法线的方法，可用于照片真实合成。为此，我们提出了一种新颖的GAN，它可以利用不同的模态生成数据，同时利用它们的相关性。此外，我们演示了如何在表达式上调整生成并使用各种面部表情创建面部。此预印本中显示的定性结果由于尺寸限制而被压缩，全分辨率结果和附带的视频可在项目页面找到

Training Compact Neural Networks via Auxiliary Overparameterization
Authors Yifan Liu, Bohan Zhuang, Chunhua Shen, Hao Chen, Wei Yin
观察到过度参数化，即设计其参数数量大于统计所需的神经网络以适合训练数据可以改善优化和概括，同时紧凑网络更难以优化。但是，过度参数化会导致测试时间推断速度变慢，功耗也会增加。为了解决这个问题，我们提出了一种新颖的辅助模块来模拟过度参数化的效果。在培训期间，我们使用辅助模块扩展紧凑型网络以形成更宽的网络以协助优化，而在推理期间仅保留原始紧凑型网络。此外，我们建议自动搜索分层辅助结构，以避免启发式添加监督。在实验中，我们探索了几个具有挑战性的资源约束任务，包括轻量分类，语义分割和具有硬参数共享的多任务学习。我们凭经验发现，所提出的辅助模块可以保持紧凑网络的复杂性，同时显着提高性能。

Gravity as a Reference for Estimating a Person's Height from Video
Authors Didier Bieler, Semih G nel, Pascal Fua, Helge Rhodin
在没有额外假设的情况下从单眼图像估计人的度量高度是不合适的。现有解决方案要么需要手动校准地平面和相机几何形状，特殊相机或已知尺寸的参考物体。我们专注于运动线索并利用地球上的重力作为无所不在的参考对象来转换加速度，并随后将图像像素中测量的高度转换为以米为单位的值。我们需要运动视频作为输入，其中重力是唯一的外力。此限制与恢复人员身高的现有解决方案的限制不同，因此，我们的方法开辟了新的应用领域。我们在理论上和经验上表明，简单的运动轨迹分析足以从像素测量值转换到人的度量高度，在跳跃运动时达到高达3.9厘米的MAE，并且这可以在没有摄像机和地平面校准的情况下工作。

Image Captioning with Very Scarce Supervised Data: Adversarial Semi-Supervised Learning Approach
Authors Dong Jin Kim, Jinsoo Choi, Tae Hyun Oh, In So Kweon
构建由大量图像和每个图像的若干字幕组成的有组织数据集是一项艰巨的任务，这需要大量的人力。另一方面，分别收集大量图像和句子可能非常容易。在本文中，我们开发了一种新的数据有效的半监督框架，用于训练图像字幕模型。我们通过学习关联它们来利用大量不成对的图像和字幕数据。为此，我们提出的半监督学习方法通过生成对抗网络为未配对的样本分配伪标签，以学习图像和标题的联合分布。为了评估，我们构建了几乎不成对的COCO数据集，即MS COCO字幕数据集的修改版本。实验结果表明，与几个强基线相比，我们的方法有效，特别是当配对样本的数量很少时。

Future Frame Prediction Using Convolutional VRNN for Anomaly Detection
Authors Yiwei Lu, Mahesh Kumar K, Seyed shahabeddin Nabavi, Yang Wang
视频中的异常检测旨在报告任何不符合正常行为或分布的内容。然而，由于现实生活中的异常视频剪辑的稀疏性，收集用于监督学习的注释数据是异常麻烦的。受半监督学习生成模型实用性的启发，我们提出了一种基于变分自动编码器VAE的新型序贯生成模型，用于卷积LSTM ConvLSTM的未来帧预测。据我们所知，这是从模型角度考虑基于异常检测框架的未来帧预测中的时间信息的第一项工作。我们的实验表明，我们的方法优于三个基准数据集的最新方法。

Poly-GAN: Multi-Conditioned GAN for Fashion Synthesis
Authors Nilesh Pandey, Andreas Savakis
我们提出了Poly GAN，这是一种新颖的条件GAN架构，由Fashion Synthesis推动，这种应用将服装自动放置在任意姿势的人体模型图像上。 Poly GAN允许在多个输入上进行调节，适用于许多任务，包括图像对齐，图像拼接和修复。现有方法具有类似的管道，其中三个不同的网络用于首先将服装与人体姿势对齐，然后执行对齐的服装的缝合并最终细化结果。 Poly GAN是第一个使用通用架构执行所有三个任务的实例。我们的新颖架构强制编码器的所有层的条件，并利用从编码器的粗层到解码器的各个层的跳过连接。 Poly GAN能够以任意姿势基于模型的RGB骨架执行服装的空间变换。此外，Poly GAN可以执行图像拼接，无论衣服的方向如何，并且当衣服面膜包含不规则的孔时，可以对其进行修补。我们的系统使用DeepFashion数据集实现了结构相似性指数度量和初始得分度量的最新定量结果。

Understanding Human Gaze Communication by Spatio-Temporal Graph Reasoning
Authors Lifeng Fan, Wenguan Wang, Siyuan Huang, Xinyu Tang, Song Chun Zhu
本文探讨了从原子水平和事件水平理解社交视频中人类凝视交流的新问题，这对研究人类社会交往具有重要意义。为了解决这个新颖且具有挑战性的问题，我们提供了一个大型视频数据集VACATION，它涵盖了各种日常社交场景和凝视通信行为，包括对象和人脸的完整注释，人类关注，以及原子级别和通信结构和标签。事件级别。与VACATION一起，我们提出了一个时空图神经网络，以明确地表示社交场景中的不同注视交互，并通过消息传递推断原子级注视通信。我们进一步提出具有编码器解码器结构的事件网络以预测事件级别注视通信。我们的实验表明，所提出的模型在预测原子水平和事件水平凝视方面显着改善了各种基线

Program-Guided Image Manipulators
Authors Jiayuan Mao, Xiuming Zhang, Yikai Li, William T. Freeman, Joshua B. Tenenbaum, Jiajun Wu
人类能够为各种层面的图像构建整体表示，从局部对象到成对关系，再到全局结构。结构的解释涉及推理图像中对象的重复和对称性。在本文中，我们提出了程序引导图像操纵器PG IM，诱导神经符号程序像表示来表示和操纵图像。给定图像，PG IM检测重复的模式，诱导符号程序，并使用由程序引导的神经网络来操纵图像。 PG IM从单个图像中学习，利用其内部统计数据。尽管仅在图像修复方面受过训练，但PG IM可直接在统一框架中进行外推和规则编辑。大量实验表明，PG IM在所有任务中都具有卓越的性能。

Weakly Supervised Universal Fracture Detection in Pelvic X-rays
Authors Yirui Wang, Le Lu, Chi Tung Cheng, Dakai Jin, Adam P. Harrison, Jing Xiao, Chien Hung Liao, Shun Miao
髋部和骨盆骨折是严重的伤害，危及生命的并发症。然而，骨盆X射线PXR中骨折的诊断错误非常普遍，这推动了对计算机辅助诊断CAD解决方案的需求。一个主要的挑战在于裂缝是需要局部分析的局部模式。不幸的是，驻留在医院图片存档和通信系统中的PXR通常不指定兴趣区域。在本文中，我们提出了一种两阶段髋骨和骨盆骨折检测方法，使用弱监督ROI挖掘执行局部骨折分类。第一阶段使用大容量完全卷积网络，即深度具有高抽象水平，在多实例学习设置中自动从训练数据中的整个PXR挖掘可能的正肯定和肯定的硬负ROI。第二阶段训练较小容量模型，即较浅且更通用的，具有开采的ROI以执行局部分析以对裂缝进行分类。在推理过程中，我们的方法通过将两个阶段的概率输出链接在一起来一次性检测髋部和骨盆骨折。我们在4 410个PXR上评估我们的方法，报告了ROC曲线值为0.975的区域，这是现有技术中最先进的裂缝检测方法。此外，我们表明，在23位读者的初步读者研究中，我们的两阶段方法可以与人类医生相比，甚至超过急诊医生和外科医生。

Large-scale Tag-based Font Retrieval with Generative Feature Learning
Authors Tianlang Chen, Zhaowen Wang, Ning Xu, Hailin Jin, Jiebo Luo
字体选择是设计工作流程中最重要的步骤之一。传统方法依赖于有序列表，这些列表需要大量的领域知识，并且即使对于经过培在本文中，我们解决了基于大规模标记的字体检索的问题，其目的是为字体选择过程带来语义，并使没有专业知识的人能够有效地使用字体。我们收集了高质量专业字体的大规模字体标记数据集。该数据集包含近20,000种字体，2,000种标签和数十万种字体标签关系。我们提出了一种新颖的生成特征学习算法，该算法利用了字体的独特特征。关键思想是字体图像是合成的，因此可以通过学习算法进行控制。我们设计了一个集成的渲染和学习过程，以便一个图像的视觉特征可用于重建另一个具有不同文本的图像。生成的特征捕获重要的字体设计细节，同时对诸如文本等令人讨厌的因素具有鲁棒性。我们提出了一种新颖的注意机制来重新加权关节视觉文本建模的视觉特征。我们将特征和注意机制结合在一个新颖的识别检索模型中。实验结果表明，对于基于大规模标签的字体检索的重要问题，我们的方法明显优于现有技术。

ApproxNet: Content and Contention Aware Video Analytics System for the Edge
Authors Ran Xu, Jinkyu Koo, Rakesh Kumar, Peter Bai, Subrata Mitra, Ganga Maghanath, Saurabh Bagchi
视频需要大量时间才能通过网络传输，因此在边缘设备上对实时视频进行分析，就像捕获它一样，它已经成为一个重要的系统驱动程序。然而，这些边缘设备（例如，IoT设备，监视相机，AR VR小配件）受资源限制。这使得无法在其上运行最先进的重型深度神经网络DNN，并且在各种情况下提供低且稳定的延迟，例如，设备上的资源可用性的变化，内容特征或来自用户的要求。在本文中，我们介绍了AspectNet，一个用于边缘的视频分析系统。它使新颖的动态近似技术能够在不同的系统条件和资源争用，视频内容的复杂性和用户要求的变化下实现期望的推断等待时间和准确度折衷。它通过在单个DNN模型中启用两个近似旋钮来实现这一点，而不是创建和维护一组模型，例如在MCDNN Mobisys 16中。集合模型在轻量级设备上遇到内存问题，并且响应于运行时更改而在模型之间产生大的切换损失。我们表明，ApproxNet可以在运行时无缝适应视频内容的变化和系统动态的变化，为视频流上的对象检测提供低而稳定的延迟。我们比较了ResNet 2015，MCDNN和MobileNets Google 2017的准确性和延迟。

Do Cross Modal Systems Leverage Semantic Relationships?
Authors Shah Nawaz, Muhammad Kamran Janjua, Ignazio Gallo, Arif Mahmood, Alessandro Calefati, Faisal Shafait
当前的交叉模态检索系统使用R K度量来评估，该度量不利用语义关系而是严格遵循手动标记的图像文本查询对。因此，当前的系统不能很好地概括野外看不见的数据。为了解决这个问题，我们提出了一种新的测量方法SemanticMap来评估交叉模态系统的性能。我们提出的度量评估了潜在嵌入空间中图像和文本表示之间的语义相似性。我们还提出了一种使用单流网络进行双向检索的新型交叉模态检索系统。所提出的系统基于使用扩展中心损失训练的深度神经网络，最小化来自类中心的潜在空间中的图像和文本描述的距离。在我们的系统中，文本描述也被编码为图像，这使我们能够为文本和图像使用单个流网络。据我们所知，我们的工作是采用单流网络进行交叉模态检索系统的第一次。所提出的系统在两个公开可用的数据集上进行评估，包括MSCOCO和Flickr30K，并且已经显示出与现有技术方法相当的结果。

CT Data Curation for Liver Patients: Phase Recognition in Dynamic Contrast-Enhanced CT
Authors Bo Zhou, Adam Harrison, Jiawen Yao, Chi Tung Cheng, Jing Xiao, Chien Hung Liao, Le Lu
随着对更具描述性的机器学习模型的需求在医学成像中的增长，由于数据缺乏而导致的瓶颈将加剧。因此，收集足够大规模的数据将需要自动化工具从杂乱和真实世界的数据集中收集数据标签对，例如医院PACS。这是我们工作的重点，我们提出了一个原则数据管理工具，用于提取多阶段CT肝脏研究，并从现实世界和异质医院PACS数据集中识别每个扫描阶段。模拟典型的部署方案，我们首先从我们的机构合作伙伴处获取一组噪声标签，这些标签是使用DICOM标签中的简单规则进行文本挖掘的。我们使用定制和简化的3D SE架构训练深度学习系统，以识别非对比，动脉，静脉和延迟相位动态CT肝脏扫描，过滤掉任何其他内容，包括其他类型的肝脏对比研究。为了尽可能多地利用训练数据，我们还引入了一个聚合的交叉熵损失，可以从仅识别为对比的扫描中学习。对7680例患者成像研究的43K扫描数据集进行的大量实验表明，我们的3DSE结构，通过我们的聚合损失，可以达到0.977的平均F1，并且可以正确地收获高达92.7的研究，这明显优于文本开采和标准损失方法，也优于其他更复杂的模型架构。

AFP-Net: Realtime Anchor-Free Polyp Detection in Colonoscopy
Authors Dechun Wang, Ning Zhang, Xinzi Sun, Pengfei Zhang, Chenxi Zhang, Yu Cao, Benyuan Liu
结直肠癌CRC是一种常见的致命疾病。在全球范围内，CRC是男性中第三位最常诊断的癌症，女性是第二位。对于结肠直肠癌，最好的筛查试验是结肠镜检查。在结肠镜检查过程中，内窥镜尖端的微型摄像机会生成结肠内部粘膜的视频。视频数据显示在监视器上，供医生检查整个结肠的内层并检查结肠直肠息肉。结肠直肠息肉的检测和去除与结肠直肠癌的死亡率降低有关。然而，即使对于非常有经验的医生来说，结肠镜检查过程中息肉检测的漏诊率通常很高。原因在于息肉在形状，大小，纹理，颜色和光照方面的高度变化。虽然具有挑战性，但随着物体检测技术的巨大进步，自动息肉检测仍然显示出在保持高精度的同时降低假阴性率的巨大潜力。在本文中，我们提出了一种新型无锚息肉探测器，可以在不使用预定义锚盒的情况下定位息肉。为了进一步加强模型，我们利用上下文增强模块和余弦地面实况投影。我们的方法可以实时响应，同时实现99.36精度和96.44召回的最先进性能。

Are Adversarial Robustness and Common Perturbation Robustness Independant Attributes ?
Authors Alfred Laugros, Alice Caplier, Matthieu Ospici
神经网络已被证明对常见的扰动很敏感，如模糊，高斯噪声，旋转等。它们也容易受到一些被称为对抗性例子的人为恶意破坏的攻击。对抗性示例研究最近变得非常流行，有时甚至会降低对抗鲁棒性一词的对抗性。然而，我们不知道对抗性稳健性在多大程度上与全球稳健性相关。同样，我们不知道对各种常见扰动（例如翻译或对比度损失）的稳健性是否有助于对抗性破坏。我们打算研究神经网络的稳健性与两种扰动之间的联系。通过我们的实验，我们提供了第一个基准，旨在评估神经网络对常见扰动的鲁棒性。我们表明，增加对精心选择的常见扰动的鲁棒性，可以使神经网络对看不见的常见扰动更加鲁棒。我们还证明了对常见扰动的对抗鲁棒性和鲁棒性是独立的。我们的结果使我们相信神经网络的鲁棒性应该在更广泛的意义上得到解决。

Tensor Oriented No-Reference Light Field Image Quality Assessment
Authors Wei Zhou, Likun Shi, Zhibo Chen
光场图像LFI质量评估变得越来越重要，这有助于更好地指导沉浸式媒体的采集，处理和应用。然而，由于LFI固有的高维特性，LFI质量评估变成多维问题，需要考虑空间和角度尺寸的质量下降。因此，我们提出了一种基于张量理论的新型Tensor定向无参考光场图像质量评估器Tensor NLFQ。具体地，由于LFI被认为是低秩4D张量，因此通过Tucker分解获得四个定向子孔径视图堆栈的主要分量。然后，主成分空间特征PCSC被设计为考虑其全局自然性和局部频率特性来测量LFI的空间维度质量。最后，提出张量角度变化指数TAVI，通过分析视图堆栈中第一主成分和每个视图之间的结构相似性分布来测量角度一致性质量。四个公开可用的LFI质量数据库的广泛实验结果表明，所提出的Tensor NLFQ模型优于最先进的2D，3D，多视图和LFI质量评估算法。

The application of Convolutional Neural Networks to Detect Slow, Sustained Deformation in InSAR Timeseries
Authors N. Anantrasirichai, J. Biggs, F. Albino, D. Bull
用于检测卫星InSAR图像变形的自动化系统可用于开发用于火山和城市环境的全球监测系统。在这里，我们探索了CNN的极限，用于检测包裹干涉图中缓慢，持续的变形。使用合成数据，我们估计仅变形信号的检测阈值为3.9cm，当考虑大气伪影时为6.3cm。由于在不改变SNR的情况下产生更多条纹，过度包裹将其分别减小到1.8cm和5.0cm。我们测试了Campi Flegrei和Dallol累积变形的时间序列方法，其中过度包装可将分类性能提高多达15个。我们提出了一种均值滤波方法，用于将不同包裹参数的结果组合成标志变形。在Campi Flegrei，60天后检测到8.5cm的变形，在Dallol，310天后检测到3.5cm的变形。这相当于3厘米和4厘米的累积位移，与基于合成数据的估计一致。

Robust Navigation with Language Pretraining and Stochastic Sampling
Authors Xiujun Li, Chunyuan Li, Qiaolin Xia, Yonatan Bisk, Asli Celikyilmaz, Jianfeng Gao, Noah Smith, Yejin Choi
视觉和语言导航的核心VLN挑战是构建健壮的指令表示和动作解码方案，这些方案可以很好地概括到以前看不见的指令和环境。在本文中，我们报告了两种简单但非常有效的方法来应对这些挑战并导致新的最新技术性能。首先，我们调整大规模预训练语言模型，以学习更好地概括以前看不见的指令的文本表示。其次，我们提出了一种随机抽样方案，以减少训练中的专家操作和测试中的采样操作之间的相当大的差距，以便代理可以学习在长时间顺序动作解码期间纠正自己的错误。结合这两种技术，我们在房间到房间的基准测试中实现了新的最新技术水平，其中6个绝对增益优于先前的最佳结果47 53，成功率由路径长度度量加权。

Super-resolved Chromatic Mapping of Snapshot Mosaic Image Sensors via a Texture Sensitive Residual Network
Authors Mehrdad Shoeiby, Lars Petersson, Mohammad Ali Armin, Sadegh Aliakbarian, Antonio Robles Kelly
本文介绍了一种同时对快照镶嵌传感器采集的图像进行超分辨和彩色预测的新方法。这些传感器允许使用低功率，小尺寸，固态CMOS传感器采集光谱图像，这些传感器可以视频帧速率工作，无需复杂的光学设置。尽管它们具有期望的特性，但它们的主要缺点源于这些传感器获取的图像的空间分辨率低的事实。此外，快照镶嵌传感器中的彩色映射并不简单，因为传感器传送的频带往往很窄并且在它们工作的范围内不均匀地分布。我们通过使用配备有纹理敏感块的残余信道关注网络来解决应用于彩色映射的这一缺点。我们的方法明显优于传统的插值图像方法，然后应用颜色匹配功能。这项工作确立了该领域的最新技术水平，同时还向研究界提供了包含296个注册的立体多光谱RGB图像对的数据集。

REO-Relevance, Extraness, Omission: A Fine-grained Evaluation for Image Captioning
Authors Ming Jiang, Junjie Hu, Qiuyuan Huang, Lei Zhang, Jana Diesner, Jianfeng Gao
用于评估图像字幕系统的常用指标，例如BLEU和CIDEr，提供单一分数来衡量系统的整体有效性。该分数通常不足以指示给定系统发生的具体错误。在这项研究中，我们提出了一种细粒度的评估方法REO，用于自动测量图像字幕系统的性能。 REO从三个方面评估字幕的质量1与基础事实的相关性，2与基本事实无关的内容的额外性，以及图像和人类参考中元素的省略。对三个基准数据集的实验表明，我们的方法与人类判断具有更高的一致性，并提供比其他指标更直观的评估结果。

Towards Precise Robotic Grasping by Probabilistic Post-grasp Displacement Estimation
Authors Jialiang Zhao, Jacky Liang, Oliver Kroemer
精确的机器人抓取对于许多工业应用是重要的，例如装配和码垛，其中物体的位置需要被控制和已知。然而，由于传感和控制中的噪声以及未知的物体特性，实现精确的抓取是具有挑战性的。我们提出了一种通过训练两个卷积神经网络来计算机器人抓握的方法，该方法既健壮又精确，一个用于预测抓握的鲁棒性，另一个用于预测抓握后物体位移的分布。我们的网络在超过1000个工业零件的数据集上进行模拟深度图像训练，并成功部署在真实的机器人上，无需进一步微调。在现实世界的实验中，所提出的位移估计器在新物体上实现了0.68cm和3.42deg的平均预测误差。

Decoupled Box Proposal and Featurization with Ultrafine-Grained Semantic Labels Improve Image Captioning and Visual Question Answering
Authors Soravit Changpinyo, Bo Pang, Piyush Sharma, Radu Soricut
对象检测在当前的视觉和语言任务解决方案中发挥着重要作用，如图像字幕和视觉问答。然而，像Faster R CNN这样的流行模型依赖于为边界框及其相应的语义标签注释基础事实的昂贵过程，使其不太适合作为转移学习的原始任务。在本文中，我们研究了解耦框提议和特征化对下游任务的影响。关键的见解是，这使我们能够利用以前无法用于标准对象检测基准的大量标记注释。根据经验，我们证明这可以导致有效的转移学习和改进的图像字幕和视觉问答模型，这是根据公开可用的基准测量的。

DCGANs for Realistic Breast Mass Augmentation in X-ray Mammography
Authors Basel Alyafi, Oliver Diaz, Robert Marti
乳腺癌的早期检测对可固化性有很大贡献，并且使用乳房X线照相图像，这可以非侵入性地实现。监督深度学习，目前占主导地位的CADe工具，在计算机视觉中的对象检测中发挥了重要作用，但它受限于需要大量标记数据的特性。当涉及需要高成本和耗时注释的医疗数据集时，这变得更加严格。此外，医疗数据集通常是不平衡的，这种情况往往会妨碍分类器的性能。本文的目的是学习少数群体的分布，以合成新的样本，以改善乳房X光检查中的病变检测。深度卷积生成性对抗网络DCGAN可以有效地生成乳房肿块。他们接受培训，增加一个乳腺摄影数据集的大小子集，并用于生成多样和逼真的乳房肿块。在通过完全卷积网络对110质量和正常组织块的不平衡数据集进行分类的环境中测试包括所生成的图像和/或应用水平和垂直翻转的效果。通过使用DCGAN以及使用原始图像的翻转增强来报告最大0.09的F1得分改善。我们证明DCGAN可以用于合成具有相当多样性的照片逼真的乳房肿块。结果表明，在这种环境中附加合成图像以及翻转，优于单独翻转的传统增强方法，作为训练集大小的函数提供更快的改进。

TIGEr: Text-to-Image Grounding for Image Caption Evaluation
Authors Ming Jiang, Qiuyuan Huang, Lei Zhang, Xin Wang, Pengchuan Zhang, Zhe Gan, Jana Diesner, Jianfeng Gao
本文提出了一种名为TIGEr的新指标，用于图像字幕系统的自动评估。流行指标，例如BLEU和CIDEr，仅基于参考字幕和机器生成的字幕之间的文本匹配，可能导致有偏见的评估，因为参考可能不完全覆盖图像内容，并且自然语言本质上是模糊的。基于机器学习的文本图像接地模型，TIGEr不仅可以根据字幕表示图像内容的程度来评估字幕质量，还可以评估机器生成的字幕与人工生成字幕的匹配程度。我们的实证检验表明，与其他现有指标相比，TIGEr与人类判断具有更高的一致性。我们还通过测量人类判断与度量分数之间的相关性，全面评估字幕评估中度量的有效性。

Online Regularization by Denoising with Applications to Phase Retrieval
Authors Zihui Wu, Yu Sun, Jiaming Liu, Ulugbek S. Kamilov
通过去噪RED进行正则化是解决成像逆问题的有力框架。大多数RED算法都是迭代批处理程序，这限制了它们对非常大的数据集的适用性。在本文中，我们通过引入一种新的在线RED On RED算法来解决这一局限，该算法一次处理一小部分数据。我们通过阐明其在相位检索中的适用性，在凸面设置中建立On RED的理论收敛性，并通过实证讨论其在非凸面中的有效性。我们的结果表明，在处理大型数据集时，On RED是传统RED算法的有效替代方法。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com