【AI视野·今日CV 计算机视觉论文速览第159期】Tue, 24 Sep 2019_robot navigation in crowds by graph convolutional -CSDN博客

本文链接：https://blog.csdn.net/u014636245/article/details/101295509

本文概述了近期计算机视觉领域的最新研究，包括点云分割、图像语义理解、目标检测与追踪、医学图像分析等多个方向的深度学习算法。亮点包括层次点边交互网络、ShufflePointNet、ShadowTransfer、FlatteNet、Hydrocephalus验证、Pelvis表面估算、GoWider网络、ShadowTransfer、RAUNet等模型，以及在图像修复、图像分割、姿态估计、语义本地化等任务上的创新。文章还探讨了模型压缩、数据增强、跨模态学习、视觉问答、图像生成等技术。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

AI视野·今日CS.CV 计算机视觉论文速览
Tue, 24 Sep 2019
Totally 67 papers
?上期速览✈更多精彩请移步主页

在这里插入图片描述

Interesting:

?基于层次点和边缘交互的网络模型用于点云分割, 通过点和边的上下文关系探索了点云分割问题。其中包含了编码器解码器架构以及一个边的分支用于在不同层级上集成点的特征来生成边的特征。这个分层的图网络从粗糙的层开始，并随着点的解码过程不断细化。在最终层的边上对相连的点进行语义标记。同时在不同的层级上，边的特征也被反馈到点特征上提升局域预测效果。点和边分支的交互协作使得预测的效果提升。(from 香港中文腾讯优图)
下图中显示了点分支和边分支在多层级网络中相互传递特征共同提升：
在这里插入图片描述
网络的具体分支如下图所示：

上图中的边模块和点模块：

分层图构建过程，随着点特征的解码，初始的图不断被细化：

一些实现的语义分割结果：

dataset:S3DIS ScanNet

?ShufflePointNet基于组卷机和更宽的编码层实现有效的点云分析, 为了克服大量MLP堆叠处理点云的庞大计算量，研究人员提出了一种更宽的网络模型，可以利用并行的组卷积和通道混合操作来高效对细粒度局域特征进行处理。与最先的MLP方式相比，这种网络通过将特征分组，网络更宽，每组特征处理的深度很浅，减少了复杂度同时提高了可以编码的信息。同时通过通道混合建立了组与组之间的通信。这种多分支的结构对于较宽的网络可以有效的实现特征抽取。(from Cranfield University)
在这里插入图片描述
架构的细节部分：

一些点云分割的结果：

ref:
Fast Hierarchical Neural Network for Feature Learning on Point Cloud
GAPNet,code
Dynamic Graph CNN for Learning on Point Clouds
FoldingNet

?Shadow Transfer, 提出了一种解决一天中光照不同对于场景视觉任务影响的方法，将场景重新打光获得鲁棒的图像。(from 密西根州立)
在这里插入图片描述

?****FlatteNet,提出了一种无须解码的方法，将高维输出直接馈入对应的输出分辨率。在移除了解码器后参数更少速度更快。 (from 四川大学)
图中对特征的操作包含了蓝色的深度可分离组卷机和粉色像素混合操作，最终通过后处理得到分割结果。
在这里插入图片描述
深度可分离组卷积和pixels shuffle过程：

?****HUSC人体和场景合成, 三维的人体与场景合成新方法，包括人体合成、基于几何的人体插入以及无缝衔接过程，还考虑了遮挡和光线变化等因素。(from Lund University)
在这里插入图片描述

人体合成结果：

场景合成结果：

?LoGANv2基于条件风格利用生成对抗合成logo
?基于非局域高斯混合模型的图像补全与目标去除
?定长指纹表达的学习，数据集DeepPrint 和COST A
?风格迁移方法提升心血管图像分割效果
?***SkyNet硬件高效的目标检测和追踪嵌入式系统,(from IBM illinoin)

Daily Computer Vision Papers

Hydrocephalus verification on brain magnetic resonance images with deep convolutional neural networks and "transfer learning" technique
Authors Alexey Demyanchuk, Ekaterina Pushkina, Nikolay Russkikh, Dmitry Shtokalo, Sergey Mishinov
脑积水既可以是独立疾病，也可以是多种病理的伴随症状，因此，代表了当今临床实践中的紧迫问题。深度学习是一项不断发展的技术，是更广泛的机器学习领域的一部分。目前在放射学领域积极研究深度学习。这项研究的目的是利用MRI图像评估深度学习在脑积水诊断中的适用性。我们回顾性地收集，注释和预处理了200例有无脑积水的放射学迹象的患者的脑部MRI数据。我们将最先进的深度卷积神经网络与转移学习方法结合使用来训练脑积水分类器模型。使用深度卷积神经网络，我们获得了高质量的机器学习模型。脑积水体征识别的准确性，敏感性和特异性分别为97、98和96。在这项研究中，我们证明了使用大脑MRI图像的深层神经网络识别脑积水综合征的能力。应用转移学习技术，尽管在相当有限的数据上进行了训练，但仍实现了高质量的分类。

Hierarchical Point-Edge Interaction Network for Point Cloud Semantic Segmentation
Authors Li Jiang, Hengshuang Zhao, Shu Liu, Xiaoyong Shen, Chi Wing Fu, Jiaya Jia
我们通过探索边缘之间每个点及其上下文邻居之间的语义关系来实现3D语义场景标记。除了用于预测点标签的编码器解码器分支之外，我们还构建了一个边缘分支以分层集成点特征并生成边缘特征。为了在边缘分支中合并点特征，我们建立了一个分层的图框架，其中图是从粗糙层初始化的，并沿着点解码过程逐渐丰富。对于最终图中的每个边，我们预测一个标签以指示两个连接点的语义一致性，以增强点预测。在不同的层，边缘特征也被馈送到相应的点模块中，以集成上下文信息，以增强本地区域中的消息传递。这两个分支相互交互，并在细分中合作。在几个3D语义标签数据集上的体面实验结果证明了我们工作的有效性。

Pelvis Surface Estimation From Partial CT for Computer-Aided Pelvic Osteotomies
Authors Robert Grupp, Yoshito Otake, Ryan Murphy, Javad Parvizi, Mehran Armand, Russell Taylor
当进行盆腔截骨术以进行术中导航时，计算机辅助手术系统通常使用术前CT扫描。这些系统具有改善盆腔截骨术的安全性和准确性的潜力，但是，将患者暴露于放射线是一个重大缺陷。为了减少辐射暴露，我们提出了一种新的平滑外推方法，该方法利用局部骨盆CT和完整骨盆的统计形状模型SSM来估算患者的完整骨盆。创建了正常，完整，女性骨盆解剖结构的SSM，并从42位受试者中进行了评估。进行了留一法测试以表征SSM的固有泛化能力。进行了额外的留一法测试，以测量平滑外推法和现有的剪切和粘贴外推法的性能。通过保持患者髋臼的轴向切片完整并在总骨盆范围的0到15之间改变保留的上retained的数量来模拟未知的解剖结构。与RMS剪切和粘贴方法相比，平滑技术在RMS和最大表面误差方面平均提高了1.31 mm和3.61 mm。在保留5个the的情况下，平滑估算的表面的RMS表面误差为2.21 mm，当不保留任何rest时，改善了1.25 mm。这种解剖估计方法使患者和外科医生受益于CAS系统的使用，并同时减少了患者的辐射暴露。

Patch-Based Image Similarity for Intraoperative 2D/3D Pelvis Registration During Periacetabular Osteotomy
Authors Robert Grupp, Mehran Armand, Russell Taylor
髋臼周围截骨术是治疗发展性髋关节发育不良的具有挑战性的外科手术，通过重新定位患者的髋臼提供更大的股骨头覆盖范围。由于在手术流程中经常使用荧光透视成像，因此切骨术和重新定位的髋臼碎片的计算机辅助X射线导航应该是可行的。我们使用基于强度的2D 3D配准估计相对于透视图像的骨盆姿势，恢复多个视图的相对姿势，并对可用于导航的地标进行三角剖分。现有的相似性指标无法始终如一地说明术前完整骨盆与骨折骨盆术中实际情况之间的内在失配。为了减轻这种不匹配的影响，我们不断估计每个像素与解决配准的相关性，并将这些值用作基于补丁的相似性度量中的权重。与现有的基于补丁的方法相比，将计算限制为随机选择的补丁子集可导致更快的运行时间。对随机碎片形状，重定位和荧光透视图进行了仿真研究，与未修补和图像强度方差加权的平均误差分别为3 mm和2.8 mm相比，所提出的方法在所有界标上均实现了1.7 mm的平均三角剖分误差。分别修补相似性指标。

Go Wider: An Efficient Neural Network for Point Cloud Analysis via Group Convolutions
Authors Can Chen, Luca Zanotti Fragonara, Antonios Tsourdos
为了获得更好的点云分析性能，许多研究人员在不规则点云上使用了堆叠的多层Perceptron MLP卷积应用更深的神经网络。但是，在大量点上应用密集的MLP卷积，例如自动驾驶应用导致内存和计算效率低下。为了实现高性能但降低复杂性，我们提出了一种称为ShufflePointNet的深层神经网络，以利用细粒度的局部特征并使用组卷积和通道随机操作来减少并行冗余。与直接将MLP直接应用于点云的高维特征的常规操作不同，我们的模型通过预先将特征分成几组而变得更宽，并且具有较小深度的每个组仅负责各自的MLP操作，这可以降低复杂度并允许编码更有用的信息。同时，我们通过改组特征通道中的组来连接组之间的通信，以捕获细粒度的特征。我们认为，用于更广泛的神经网络的多分支方法也有利于点云的特征提取。我们针对ModelNet40数据集上的形状分类任务和大规模数据集ShapeNet部分，S3DIS和KITTI上的语义分割任务进行了广泛的实验。我们将进一步进行消融研究，并将我们的模型与其他先进算法的复杂性和准确性进行比较。

Model-Based and Data-Driven Strategies in Medical Image Computing
Authors Daniel Rueckert, Julia A. Schnabel
在过去的几十年中，基于模型的图像重建，分析和解释方法取得了重大进展。这些方法很多都基于数学，物理或生物学模型。这些方法的挑战是对基础过程的建模，例如具有适当水平的细节和真实感的图像采集物理学或疾病的病理生理。随着大量成像数据和机器学习（尤其是深度学习技术）的可用性，数据驱动方法已越来越广泛地用于重建，分析和解释的不同任务。这些方法直接从加标签或未加标签的图像数据中学习统计模型，并已显示出从医学成像中提取临床有用信息的强大功能。尽管这些数据驱动的方法通常优于传统的基于模型的方法，但它们的临床部署通常在鲁棒性，泛化能力和可解释性方面提出挑战。在本文中，我们讨论了哪些发展推动了从基于模型的方法向数据驱动的策略的转变，以及哪些潜在的问题与向纯数据驱动的方法（尤其是深度学习）的迁移相关。我们还将讨论数据驱动方法的一些开放挑战，例如泛化为新的看不见的数据，例如转移学习，对抗攻击的鲁棒性和可解释性。最后，我们以讨论这些方法如何导致以端到端的方式优化的更紧密耦合的成像管道的开发作为结束。

Shadow Transfer: Single Image Relighting For Urban Road Scenes
Authors Alexandra Carlson, Ram Vasudevan, Matthew Johnson Roberson
图像中的照明效果（特别是阴影和阴影）已显示出会降低深层神经网络在城市驾驶场景中大量基于视觉的检测，识别和分割任务上的性能。造成此性能差距的一个关键因素是，实际的，带有标签的数据集中缺乏时间多样性。在将以前看不见的视觉效果转移到数据集中，特别是在昼夜转换中，图像到图像转换领域取得了令人瞩目的进步。但是，要限制在训练过程中哪些视觉效果（更不用说照明效果）从一个数据集转移到另一个数据集并不容易。为了解决这个问题，我们提出了一种称为“阴影转移”的深度学习框架，该框架可以通过将逼真的阴影，阴影和其他照明效果转移到单个图像上来重新照亮复杂的室外场景。所提出的框架的新颖之处在于，它既可以自我监督，又可以在自动车辆数据集中容易获得的传感器和标签信息上运行。我们在合成数据集和真实数据集上均显示了该方法的有效性，并提供了实验，证明了该方法所产生的图像的视觉质量要高于现有技术到图像转换方法的水平。

RAUNet: Residual Attention U-Net for Semantic Segmentation of Cataract Surgical Instruments
Authors Zhen Liang Ni, Gui Bin Bian, Xiao Hu Zhou, Zeng Guang Hou, Xiao Liang Xie, Chen Wang, Yan Jie Zhou, Rui Qi Li, Zhen Li
手术器械的语义分割在机器人辅助手术中起着至关重要的作用。然而，由于镜面反射和类别不平衡问题，白内障手术器械的准确分割仍然是一个挑战。在本文中，提出了一种新颖的网络来分割白内障手术器械。它引入了注意力机制来改善特征表示。设计了一个新的注意力模块来学习区分功能。它捕获全局上下文并编码语义相关性以强调关键的语义特征，从而增强了特征表示。该注意模块的参数很少，有助于节省内存。因此，它可以灵活地插入其他网络。此外，引入了混合损失来训练我们的网络来解决类不平衡问题，该问题融合了交叉熵和Dice损失的对数。构建了一个名为Cata7的新数据集来评估我们的网络。据我们所知，这是第一个用于语义分割的白内障手术器械数据集。基于此数据集，RAUNet的平均性能为97.71 Dice，平均IOU为95.62。

Object Segmentation using Pixel-wise Adversarial Loss
Authors Ricard Durall, Franz Josef Pfreundt, Ullrich K the, Janis Keuper
最近基于深度学习的方法在对象分割任务上显示出了惊人的成功。但是，仍然存在进一步改进的空间。受生成对抗网络的启发，我们提出了一种通用的端到端对抗方法，该方法可以与广泛的现有语义分割网络结合以提高其分割性能。我们方法的关键要素是将高分辨率的像素明智损失替换为常用的二进制对抗损失。此外，我们采用随机加权平均方式训练我们的发电机，这进一步增强了预测的输出标签图，从而带来了最新的技术成果。我们显示，与基准模型相比，像素明智的对抗训练和权重平均的这种组合导致了细分性能的显着且一致的提升。

How to improve CNN-based 6-DoF camera pose estimation
Authors Soroush Seifi, Tinne Tuytelaars
卷积神经网络CNN和转移学习最近已用于6自由度6 DoF相机姿态估计。尽管它们不能达到与基于视觉SLAM的方法相同的精度，并且受限于特定的环境，但它们的鲁棒性出色，甚至可以应用于单个图像。在本文中，我们研究PoseNet 1并研究基于数据集特征的修改以提高姿态估计的准确性。特别是，我们强调视野对图像分辨率的重要性，我们提出了一种数据增强方案来减少过度拟合，我们研究了长期短期记忆LSTM细胞的作用。最后，我们结合了这些修改，并改善了基于单眼CNN的相机姿态回归的PoseNet性能。

Human Synthesis and Scene Compositing
Authors Mihai Zanfir, Elisabeta Oneata, Alin Ionut Popa, Andrei Zanfir, Cristian Sminchisescu
能够控制外观，姿势和形状参数的能力的人类产生高质量和几何上合理的合成图像，对于从照片编辑，时尚虚拟试戴到特殊效果和图像压缩等各种任务，已变得越来越重要。在本文中，我们提出了HUSC，这是一种人类合成和场景合成框架，用于在新颖的姿势和场景中逼真地合成具有不同外观的人类。我们公式的核心是对人和场景的3D推理，以便通过正确建模透视效果和遮挡，考虑场景语义并适当处理相对比例来生成逼真的拼贴。从概念上讲，我们的框架由三个部分组成：1是基于参数表示的具有可控姿势和外观的可控人体图像合成模型； 2是利用3d场景的几何形状和语义的人员插入过程； 3是外观合成过程以创建一个场景颜色与生成的人类图像之间的无缝融合，并避免视觉伪影。定性和定量结果都支持我们框架的性能，尤其是DeepFashion数据集的最新综合得分。

Predicting Landscapes from Environmental Conditions Using Generative Networks
Authors Christian Requena Mesa, Markus Reichstein, Miguel Mahecha, Basil Kraft, Joachim Denzler
景观是有意义的生态单元，在很大程度上取决于环境条件。自从地球科学开始以来，景观与环境之间的这种依赖性就得到了关注，并被注入描述气候，地质，植被和地貌之间相互依赖性的概念模型中。在这里，我们问是否可以根据相关环境条件从空间上对景观进行统计预测。为此，我们采用了深度学习生成模型，以建立环境条件与Sentinel 2卫星的景观之间的关系。我们训练了条件生成对抗网络，以根据一组气候，地形和人为预测因素生成多光谱图像。生成的景观图像与真实图像具有许多特征。基于景观斑块度量标准的结果（表明景观组成和结构）表明，所提出的生成模型创建的景观比基准模型更接近目标，而总反射率和植被覆盖度得到了更好的预测。我们证明，出于许多目的，所生成的景观在直接应用于全球变化研究时表现得真实。我们设想将机器学习作为一种工具来预测气候变化对景观空间特征的影响，同时评估其局限性和突破点。

Large Scale Joint Semantic Re-Localisation and Scene Understanding via Globally Unique Instance Coordinate Regression
Authors Ignas Budvytis, Marvin Teichmann, Tomas Vojir, Roberto Cipolla
在这项工作中，我们提出了一种新颖的方法来进行联合语义本地化和场景理解。我们对工作的兴趣来自对定位算法的需求，这些算法不仅可以预测6个自由度的摄像机姿态，还可以同时识别周围的物体并估算3D几何形状。这种功能对于与环境自动驾驶，增强现实和机器人技术交互的计算机视觉引导系统至关重要。特别是，我们提出了一个两步过程。在第一步中，我们训练卷积神经网络以共同预测每个像素的全局唯一实例标签和静态对象的每个实例的相应局部坐标，例如建筑。在第二步中，我们通过组合对象中心坐标和局部坐标来获取场景坐标，并使用它们执行6 DoF相机姿态估计。我们对真实世界的CamVid 360和人工SceneCity自动驾驶数据集进行评估。我们获得了比现有技术6 DoF姿态估计算法更小的平均距离和角度误差，该技术基于直接姿态回归和所有数据集上场景坐标的姿态估计而构成。我们的贡献包括将场景坐标回归作为两个单独的对象实例识别和局部坐标回归任务来进行新颖的表述，并证明了我们提出的解决方案可以预测静态对象的精确3D几何形状并估计ii地图上相机的6 DoF姿态，其放大倍数更大。比以前通过场景坐标回归方法以及在iii轻量级，近似3D地图（由3D图元构建的）（例如，构建对齐的长方体）上尝试的数量级大几个数量级。

Scheduled Differentiable Architecture Search for Visual Recognition
Authors Zhaofan Qiu, Ting Yao, Yiheng Zhang, Yongdong Zhang, Tao Mei
卷积神经网络CNN被认为是解决视觉识别问题的能力强大的一类模型。但是，开发通用而强大的网络体系结构并非易事，这需要人类专家的大量努力。在本文中，我们介绍了一种在可微体系结构搜索DAS模具上自动探索体系结构的新思路，该体系具有通过梯度下降的有效搜索。具体来说，我们提出了针对图像和视频识别的计划可区分架构搜索SDAS，可将训练期间的操作选择与计划很好地集成在一起。从技术上讲，体系结构或单元表示为有向图。我们的SDAS以渐进和计划的方式逐渐将操作固定在图形的边缘，而不是一旦在现有DAS中完成训练后就一步一步确定所有边缘的操作，这可能会使体系结构变得脆弱。此外，我们通过设计一些独特的操作来编码时空动态，并展示了影响SDAS架构搜索的影响，从而扩大了SDAS的搜索空间，尤其是用于视频识别的搜索空间。在CIFAR10，Kinetics10，UCF101和HMDB51数据集上进行了架构学习的广泛实验，与DAS方法相比，其结果更为出色。更为明显的是，我们的SDAS的搜索速度比DAS快2倍左右。当将CIFAR10和Kinetics10上的学习单元分别转移到大规模ImageNet和Kinetics400数据集时，构建的网络也优于几种最先进的手工结构。

Deep Convolutions for In-Depth Automated Rock Typing
Authors E.E. Baraboshkin, L.S. Ismailova, D.M. Orlov, E.A. Zhukovskaya, G.A. Kalmykov, O.V. Khotylev, E.Yu. Baraboshkin, D.A. Koroteev
地质学家日常工作中最耗时的任务之一是对岩石进行描述，尤其是在进行非常精确的描述时。在这里，我们提出了一种有助于最大程度提高地质学家效率并减少描述岩石时间的方法。我们描述了基于颜色分布分析和特征提取的方法的应用，以及基于卷积神经网络的新方法。我们使用了几种著名的神经网络架构AlexNet，VGG，GoogLeNet，ResNet并对其性能进行了比较。在使用GoogLeNet架构的验证集上，算法的精度高达95。所提出的算法中最好的算法可以在一分钟内以自动模式描述50 m的全尺寸磁芯。

WiCV 2019: The Sixth Women In Computer Vision Workshop
Authors Irene Amerini, Elena Balashova, Sayna Ebrahimi, Kathryn Leonard, Arsha Nagrani, Amaia Salvador
在本文中，我们将与CVPR 2019联合举办``2019年计算机视觉中的女性研讨会''。该活动旨在提高计算机视觉领域中女性研究人员的知名度和包容性。在过去的几年中，计算机视觉和机器学习取得了令人难以置信的进步，但是在学术界和行业中，女性研究人员的数量仍然很少。 WiCV之所以组织起来，主要是出于以下原因，以提高女性研究人员的知名度，加强他们之间的合作并为该领域的女性初级研究人员提供指导。在本文中，我们将介绍过去几年的趋势报告，以及有关当前研讨会的演讲者，出席者和赞助情况的统计摘要。

Learning Coupled Spatial-temporal Attention for Skeleton-based Action Recognition
Authors Jiayun Wang
在本文中，我们提出了一种基于骨架的动作识别的耦合时空注意CSTA模型，旨在同时找出时空域中最具区分性的关节和帧。常规方法通常认为骨骼序列中的所有关节或框架都同样重要，对于歧义和多余的信息而言，这些关节或框架不那么重要。为了解决这个问题，我们首先通过两个子网分别为不同的关节和框架学习两组权重，这使模型能够关注相对信息丰富的部分。然后，我们基于关节和框架的权重计算空间乘积，以求出叉积。此外，我们的CSTA机制可轻松插入现有的分层CNN模型CSTA CNN中以实现其功能。在最近收集的UESTC数据集和当前最大的NTU数据集上的大量实验结果表明，我们提出的基于骨骼的动作识别方法的有效性。

Retrieval-based Localization Based on Domain-invariant Feature Learning under Changing Environments
Authors Hanjiang Hu, Hesheng Wang, Zhe Liu, Chenguang Yang, Weidong Chen, Le Xie
视觉本地化是移动机器人和自动驾驶中的关键问题。一种解决方案是从数据库中检索具有已知姿势的图像，以对查询图像进行本地化。但是，在条件急剧变化的环境中，例如光照变化，季节，遮挡，动态物体，基于检索的本地化受到严重阻碍，并成为一个具有挑战性的问题。本文提出了一种基于多域图像翻译网络体系结构ComboGAN的领域不变特征学习方法。通过在另一个域的原始图像和翻译图像的编码特征之间引入特征一致性损失FCL，我们能够训练编码器以自我监督的方式生成域不变特征。为了从数据库检索目标图像，首先使用属于查询域的编码器对查询图像进行编码，以获得域不变特征向量。然后，我们通过选择具有最相似的领域不变特征向量的数据库图像来进行检索。我们在CMU Seasons数据集上验证了所提出的方法，该方法在高中精度场景的基于检索的本地化中表现优于基于学习的描述符。

Smooth Extrapolation of Unknown Anatomy via Statistical Shape Models
Authors Robert Grupp, Hsin Hong Chiang, Yoshito Otake, Ryan Murphy, Chad Gordon, Mehran Armand, Russell Taylor
评估了执行未知解剖结构外推的几种方法。主要应用是增强可使用部分医学图像或不完整解剖学医学图像的外科手术程序。基于勒堡的面部颌骨牙齿移植就是这样一种程序。根据36个头骨和21个下颌骨的CT数据，分别创建了解剖表面的统计形状模型。使用统计形状模型，对不完整的表面进行投影以获得完整的表面估计。表面估计在已知真实表面的区域中显示出非零误差，希望保留真实表面并无缝地合并估计的未知表面。现有的外推技术会导致从真实表面到估计表面的非平滑过渡，从而导致附加误差和美学上不太令人满意的结果。评估的三种外推技术是复制和粘贴表面估计值（非平滑基线），患者表面和表面估计值之间的羽化以及通过薄板样条生成的估计值，该样条是根据已知患者的表面估计值和相应顶点之间的位移训练的表面。羽化和薄板样条曲线方法均可产生平滑过渡。但是，羽化会破坏已知的顶点值。进行了遗漏的分析，从遗留的患者中取出了5至50个已知的解剖结构，并通过提出的方法进行了估算。薄板样条线方法产生的误差比其他两种方法小，与基线方法相比，颅骨和下颌骨的平均顶点误差分别提高了1.46毫米和1.38毫米。

Robust Local Features for Improving the Generalization of Adversarial Training
Authors Chubiao Song, Kun He, Jiadong Lin, Liwei Wang, John E. Hopcroft
对抗训练已被证明是训练健壮模型以对抗对抗示例的最有效方法之一。但是，对抗训练通常缺乏对看不见的数据的对抗性强健的概括。最近的工作表明，经过对抗训练的模型可能更偏向于全局结构特征。相反，在这项工作中，我们想研究对抗训练的泛化与鲁棒的局部特征之间的关系，因为局部特征很好地概括了看不见的形状变化。为了学习鲁棒的局部特征，我们开发了一种随机块随机RBS变换来分解正常对抗示例中的全局结构特征。我们继续提出一种新的方法，称为对抗训练的鲁棒局部特征RLFAT，该方法首先通过对RBS转换后的对抗示例进行对抗训练来学习鲁棒的局部特征，然后将稳健的局部特征转换为常规对抗示例的训练。最后，我们在两个当前最先进的对抗训练框架中实施RLFAT。在STL 10，CIFAR 10，CIFAR 100数据集上进行的大量实验表明，RLFAT改进了对抗性强大的概括以及对抗性训练的标准概括。此外，我们证明了我们的方法可以捕获对象的更多局部特征，从而更好地与人类感知保持一致。

Validation of image-guided cochlear implant programming techniques
Authors Yiyuan Zhao, Jianing Wang, Rui Li, Robert F. Labadie, Benoit M. Dawant, Jack H. Noble
耳蜗植入物CIs是严重或严重听力损失患者的标准治疗方法。最近的研究表明，听力结果与耳蜗内解剖结构和电极位置相关。我们的小组已开发出图像引导CI编程IGCIP技术，该技术使用图像分析方法对植入前或植入后CT图像中的内耳结构进行分割，并在植入后CT图像中定位CI电极。通过建议应停用哪些触点以减少已知会影响结果的电极相互作用，这可以帮助听力学家进行CI编程。临床研究表明，IGCIP可以改善CI接受者的听力结果。然而，IGCIP相对于电极定位和耳蜗内部解剖分割这两个主要步骤的准确性的敏感性是未知的。在本文中，我们使用35个颞骨标本的常规CT和微型CT图像创建了一个地面真实数据集，以严格刻画这两个步骤的准确性，并评估这些步骤中的不准确性如何影响总体结果。我们的研究结果表明，当有植入前和植入后的临床CT可用时，IGCIP所产生的结果可与86.7名接受测试的受试者使用相应的基本事实得出的结果相媲美。当只有植入后CT可用时，该数字为83.3。这些结果表明，我们当前的方法对分割和定位错误具有鲁棒性，而且可以对其进行改进。

Explainable High-order Visual Question Reasoning: A New Benchmark and Knowledge-routed Network
Authors Qingxing Cao, Bailin Li, Xiaodan Liang, Liang Lin
解释和高阶推理能力对于现实世界中具有不同级别的推理复杂性的视觉问题回答至关重要，例如，与女孩一起玩耍的狗附近的狗是什么，对于用户理解和诊断系统的可信赖性很重要。当前在自然图像上的VQA基准仅具有准确性度量标准，最终迫使模型利用数据集偏差，并且无法提供任何可解释的理由，这在一定程度上阻碍了高级问答的发展。在这项工作中，我们提出了一种新的HVQR基准，用于评估具有三个可区分优点的可解释性和高级视觉问题推理能力1问题通常包含一两个关系三胞胎，这要求模型具有多步推理能力以预测合理答案2我们对使用图像场景图和常识性知识库构建的多步推理过程进行了显式评估，3大规模知识库中的每个关系三元组在所有问题中仅出现一次，这对经常尝试尝试解决现有网络的现有网络构成了挑战过度拟合已出现在训练集中的知识库，并强制执行模型以处理看不见的问题和知识事实用法。我们还提出了一种新的知识路由模块化网络KM网络，该网络将基于大型知识库的多步推理过程纳入了可视化问题推理。广泛的数据集分析和与HVQR基准上现有模型的比较表明，我们的基准提供了可解释的评估，全面的推理要求和VQA系统的实际挑战，以及我们的KM网络在准确性和解释能力方面的优越性。

Field typing for improved recognition on heterogeneous handwritten forms
Authors Ciprian Tomoiaga 1 , Paul Feng 1 , Mathieu Salzmann 2 , Patrick Jayet 1 1 AXA REV Lausanne, 2 CVLab EPFL Switzerland
离线手写识别在过去的几十年中一直在不断发展。但是，现有方法通常以自由格式文本数据集为基准，这些数据集倾向于高质量的图像和手写样式以及均质的内容。在本文中，我们表明采用长期短期记忆LSTM层的先进算法由于其高度异构且词汇量不够以及固有的特性，因此不易推广到现实世界中的结构化文档（例如表单）此内容含糊不清。为了解决这个问题，我们建议在基于LSTM的体系结构中利用内容类型。此外，我们介绍了一种生成合成数据的过程，以训练该体系结构而无需昂贵的手动注释。我们证明了我们的方法在具有挑战性的，真实的欧洲事故声明数据集上转录文本时的有效性。

mlVIRNET: Multilevel Variational Image Registration Network
Authors Alessa Hering, Bram van Ginneken, Stefan Heldmann
我们为基于深度学习的图像配准提出了一种新颖的多级方法。最近发布的基于深度学习的注册方法已针对多种任务显示出令人鼓舞的结果。但是，这些算法仍限于相对较小的变形。我们的方法通过引入一个多级框架来解决此缺点，该框架类似于常规方法，可以在不同尺度上计算变形场。由此，首先获得粗略的水平对准，其随后在较细的水平上得到改善。我们证明了在吸气以呼气肺注册这一复杂任务上的方法。我们表明，深度学习多级方法的使用可显着改善注册结果。

Tag-based Semantic Features for Scene Image Classification
Authors Chiranjibi Sitaula, Yong Xiang, Anish Basnet, Sunil Aryal, Xuequan Lu
现有的图像特征提取方法主要基于图像的内容和结构信息，很少考虑上下文语义信息。关于诸如场景和对象的某些类型的图像，在网络上可用的图像的注释和描述可以提供用于特征提取的可靠的上下文语义信息。在本文中，我们基于在网络上可用的类似图像的注释和描述，介绍了图像的新颖语义特征。具体来说，我们提出了一种新方法，该方法由两个连续的步骤组成，以提取我们的语义特征。对于训练集中的每个图像，我们首先从互联网上搜索前k个最相似的图像，然后提取它们的注释描述，例如标签或关键字。注释信息用于为每个图像类别设计一个滤波器组，并生成滤波器词码本。最后，每个图像都由所有类别中过滤词出现的直方图表示。我们在三个常用的场景图像数据集（即MIT 67，Scene15和Event8）上评估了场景图像分类中建议功能的性能。我们的方法通常会产生比现有特征提取方法更低的特征维。实验结果表明，与基于视觉和基于标签的特征相比，与基于深度学习的特征相比，所提出的特征具有更好的分类准确性。

Double Anchor R-CNN for Human Detection in a Crowd
Authors Kevin Zhang, Feng Xiong, Peize Sun, Li Hu, Boxun Li, Gang Yu
由于遮挡模式的不确定性，在人群中检测人类是一个具有挑战性的问题。在本文中，我们建议通过利用头部来解决人体检测中的人群遮挡问题。开发了Double Anchor RPN，可以成对捕获身体和头部。引入了提案交叉策略以生成两个部分的高质量提案，作为培训的补充。然后，可以有效地汇总已耦合提案的特征，以利用固有关系。最后，开发了联合NMS模块以进行可靠的后处理。提议的框架称为Double Anchor R CNN，能够在拥挤的场景中同时检测每个人的身体和头部。在具有挑战性的人体检测数据集上报告了最新的技术成果。我们的模型在CrowdHuman上的对数平均未命中率MR为51.79pp，在COCOPersons拥挤的子数据集上为55.01pp，在CrowdPose拥挤的子数据集上为40.02pp，分别比之前的基线检测器高3.57pp，3.82pp和4.24pp。我们希望我们简单有效的方法将成为坚实的基准，并有助于简化将来在拥挤的人类检测中的研究。

Variational Conditional GAN for Fine-grained Controllable Image Generation
Authors Mingqi Hu, Deyu Zhou, Yulan He
在本文中，我们为条件GAN提出了一种新颖的变分生成器框架，以捕获语义细节以提高生成质量和多样性。条件GAN中的传统生成器只是将条件向量与噪声作为输入表示进行连接，直接将其用于上采样操作。但是，隐藏条件信息并未得到充分利用，尤其是当输入是类标签时。因此，我们将变分推理引入生成器中，以仅从条件输入中推断潜在变量的后验，这有助于实现用于图像生成的变量增强表示。定性和定量的实验结果表明，所提出的方法优于现有技术的方法并获得了逼真的可控图像。

Pixel-Level Dense Prediction without Decoder
Authors Xin Cai, Yi Fei Pu
诸如关键点估计之类的像素级密集预测任务由编码器解码器结构控制，其中作为重要组成部分的解码器是复杂且计算量大的。相比之下，我们提出了一种称为FlatteNet的完全解码的自由像素级密集预测网络，其中直接将由骨干网输出的高维张量展平以适合所需的输出分辨率。拟议的FlatteNet具有端到端的差异性。通过删除解码器单元，FlatteNet需要更少的参数和更低的计算复杂度。我们通过在MPII上的人体姿势估计，PASCAL上下文上的语义分割以及PASCAL VOC上的对象检测方面的竞争性结果，通过竞争性结果证明了所提出网络的有效性。我们希望所提出的FlatteNet可以作为当前基于主流解码器的像素级密集预测网络的简单而强大的替代方案。

Learning Visual Relation Priors for Image-Text Matching and Image Captioning with Neural Scene Graph Generators
Authors Kuang Huei Lee, Hamid Palangi, Xi Chen, Houdong Hu, Jianfeng Gao
使语言与视觉关系扎根对于各种语言和视觉应用至关重要。在这项工作中，我们解决了两个基本的语言和视觉任务，即图像文本匹配和图像字幕，并证明了神经场景图生成器可以学习有效的视觉关系特征，从而促进了语言与视觉关系的基础，从而改善了两个最终应用。通过将关系特征与最新模型相结合，我们的实验显示出对标准Flickr30K和MSCOCO基准的显着改进。我们的实验结果和分析表明，关系特征提高了下游模型在最终视觉和语言应用中捕获视觉关系的能力。我们还证明了学习具有视觉相关关系的场景图生成器对关系特征的有效性的重要性。

Semi-supervised estimation of event temporal length for cell event detection
Authors Ha Tran Hong Phan, Ashnil Kumar, David Feng, Michael Fulham, Jinman Kim
细胞视频中的细胞事件检测对于长时间监控细胞行为至关重要。与传统方法相比，深度学习方法在捕获细胞事件方面已显示出巨大的成功，因为它们能够捕获细胞过程的更多判别特征。特别地，利用在视频序列中可观察到的细胞事件变化的卷积长期短期记忆LSTM模型是用于细胞视频中有丝分裂检测的最新技术。但是，它们的局限性在于确定输入序列长度（通常凭经验进行），并且需要准备大笔费用的带注释的训练数据集。我们提出了一种新颖的半监督方法，用于有丝分裂检测的最佳长度检测，具有两个关键作用：一个非监督步骤，用于学习正常阶段细胞的空间和时间位置，并估算细胞事件的时间长度分布，并且从该分布推断出用于训练每个特定视频的LSTM模型的最佳输入序列长度和最少数量的带注释帧。我们在相衬显微镜视频中评估了在密集包装的干细胞中检测有丝分裂的方法。我们的实验数据证明，增加LSTM的输入序列长度会导致性能下降。我们的结果还表明，通过近似测试视频的最佳输入序列长度，仅训练了18个带注释帧的模型的F1分数为0.880 0.907，这比其他公开方法（含110个带注释的训练集）的F1分数高10帧。

To What Extent Does Downsampling, Compression, and Data Scarcity Impact Renal Image Analysis?
Authors Can Peng, Kun Zhao, Arnold Wiliem, Teng Zhang, Peter Hobson, Anthony Jennings, Brian C. Lovell
肾脏直接免疫荧光DIF标本中的肾小球或滤袋的状况是诊断肾脏疾病的关键指标。数字病理系统将玻璃组织学玻片数字化为整个玻片图像WSI，然后自动检测并放大具有较高放大倍率的肾小球，这对病理学家将非常有帮助。本文以肾小球检测为研究案例，对一些重要问题进行分析和观察，以帮助开发用于处理WSI的计算机辅助诊断CAD系统。较大的图像分辨率，较大的文件大小和数据稀缺总是很难解决的。为此，我们首先根据图像下采样率对检测精度的影响来进行研究。其次，我们检查图像压缩的影响。第三，我们检查训练集的大小和检测精度之间的关系。为了解上述问题，我们对最先进的检测器Faster R CNN，R FCN，Mask R CNN和SSD进行了实验。观察到了关键的发现1检测精度，检测速度和文件大小之间的最佳平衡是使用40倍目标压缩捕获的8倍下采样获得的2压缩显着减小了文件大小，并不一定会对总体准确性产生不利影响3减小训练数据的数量在一定程度上导致精度下降，但对召回率的影响可忽略不计4，Faster R CNN在肾小球检测任务中获得最佳准确性。我们显示，可以将40倍WSI图像的图像文件大小减少6000倍，而肾小球检测准确性的损失可忽略不计。

Watch, Listen and Tell: Multi-modal Weakly Supervised Dense Event Captioning
Authors Tanzila Rahman, Bicheng Xu, Leonid Sigal
多模态学习，尤其是在图像和语言模态中，在从语言基础到密集事件字幕的许多高级基本视觉理解问题上取得了惊人的进步。但是，许多研究仅限于要么根本不考虑与视频相对应的音频，要么为声音或声源定位服务而对视听相关性进行建模的方法。在本文中，我们提供了证据，当涉及高级视觉语言任务时，音频信号可以携带大量信息。具体来说，我们关注视频中弱监督密集事件字幕的问题，并表明音频本身可以与最先进的视觉模型的性能相媲美，并且与视频相结合可以改善最新的性能。在ActivityNet Captions数据集上的大量实验表明，我们提出的多模式方法优于现有的单模式方法，并且可以验证特定的特征表示和体系结构设计选择。

Structured Binary Neural Networks for Image Recognition
Authors Bohan Zhuang, Chunhua Shen, Mingkui Tan, Lingqiao Liu, Ian Reid
我们提出了利用二值化权重和激活性来训练卷积神经网络CNN的方法，从而导致了量化模型，该模型特别适合功率能力和计算资源有限的移动设备。先前有关CNN量化的工作通常试图使用一组离散值来近似浮点信息，我们称之为值近似，通常假设与全精度网络具有相同的体系结构。在这里，我们采用一种新颖的量化结构近似视图，很可能为低位网络设计的不同体系结构可能会更好地实现良好的性能。特别是，我们提出了一种称为组网的网络分解策略，该策略将网络划分为多个组。因此，通过聚集一组同构的二进制分支可以有效地重建每个全精度组。此外，我们学习了群体之间的有效联系以提高代表能力。此外，建议的Group Net对其他任务也具有很强的概括性。例如，我们通过将丰富的上下文嵌入到二进制结构中来扩展Group Net以进行准确的语义分割。此外，我们第一次将二进制神经网络应用于对象检测。分类，语义分割和对象检测任务的实验证明了所提出的方法在文献中的各种量化网络上的优越性能。在准确性和计算效率方面，我们的方法优于以前最好的二进制神经网络。

Nonlocal Patches based Gaussian Mixture Model for Image Inpainting
Authors Wei Wan, Jun Liu
我们考虑了噪点图像的修复问题。在处理图像修复时，抑制噪声非常困难。提出了一种基于图像补丁的非局部变分方法来同时修复和去噪。我们的方法是在假设小图像块应服从可以由高维高斯混合模型描述的分布的假设下开发的。通过最大后验MAP估计，我们根据混合模型的对数似然函数制定了新的正则化项。为了有效地优化此正则项，我们采用了Expectation Maximum EM算法的想法。其中，期望步骤可以给出自适应加权函数，该加权函数可以被视为像素之间的非本地连接。利用这一事实，我们建立了一个在噪声下进行非局部图像修复的框架。此外，我们在数学上证明了所提出的修复模型存在最小化器。通过使用分散算法，该模型能够同时实现图像修复和去噪。数值结果表明，该方法可以在修复区域较大时产生令人印象深刻的重建效果。

Volume Preserving Image Segmentation with Entropic Regularization Optimal Transport and Its Applications in Deep Learning
Authors Haifeng Li, Jun Liu, Li Cui, Haiyang Huang, Xue cheng Tai
具有体积约束的图像分割对于许多实际应用而言是重要的先决条件。在这项工作中，我们提出了一种新的体积保留图像分割算法，该算法基于熵正则化最优输运理论的框架。将经典的Total Variation TV正则化器和体积保留功能集成到正则化的最优运输模型中，并且可以将体积和分类约束视为最优运输问题中保留约束的两种措施。通过研究对偶问题，我们为模型开发了一种简单有效的对偶算法。此外，与许多基于变分的图像分割算法不同，该算法可直接展开到新的“体积保留和电视正则化softmax VPTV softmax”层，以在流行的深度卷积神经网络DCNN中进行语义分割。实验结果表明，我们提出的模型具有很强的竞争性，可以提高许多语义分割网的性能，例如流行的U网。

Learning a Fixed-Length Fingerprint Representation
Authors Joshua J. Engelsma, Kai Cao, Anil K. Jain
我们介绍了DeepPrint，这是一个深度网络，可学习提取仅200字节的固定长度指纹表示形式。 DeepPrint将指纹对齐域知识（包括对齐和细节检测）整合到深度网络体系结构中，以最大程度地发挥其表示能力。紧凑的DeepPrint表示相对于流行的可变长度细节表示具有多个优点，后者需要计算上昂贵的图形匹配技术，ii难以使用强大的加密方案（例如，同构加密，并且iii在细节提取不可靠的劣质指纹中具有较低的判别能力。我们根据NIST和FVC评估中两个最出色的COTS SDK Verifinger和Innovatrics对DeepPrint进行了基准测试。结合重新排序方案，NIST SD4数据集对110万个指纹库的DeepPrint排名1搜索准确性可与顶级COTS匹配器相比，但在0.3秒之内，DeepPrint 98.80的速度要快得多，而在27秒内的COTS A 98.85的速度要快得多。秒。就我们所知，DeepPrint表示形式是学术文献中报告的最紧凑和最具区别性的固定长度指纹表示形式。

Efficient Surface-Aware Semi-Global Matching with Multi-View Plane-Sweep Sampling
Authors Boitumelo Ruf, Thomas Pollok, Martin Weinmann
使用结构信息在线增加倾斜的航拍图像序列是3D场景解释和分析过程中的重要方面。其中一个关键方面是有效的密集图像匹配和深度估计。在此，Semi Global Matching SGM方法已被证明是用于有效深度估计的最广泛使用的算法之一，可以在精度和计算复杂性之间取得良好的平衡。但是，SGM仅对一阶平滑度假设建模，因此倾向于正面平行曲面。在这项工作中，我们提出了一种分层算法，该算法允许有效的深度和法线贴图估计以及每个估计的置信度。我们的算法依赖于平面扫描多图像匹配，然后是扩展的SGM优化，该优化允许并入局部表面方向，从而在由倾斜的航空影像所固有的倾斜表面组成的区域中实现了更加一致和准确的估算。我们使用绝对和相对精度度量对两个不同的数据集评估算法的众多配置。在我们的评估中，我们证明了我们方法的结果与通过Motion SfM管道（例如COLMAP）的精制结构所实现的结果可比，后者是为脱机处理而设计的。但是，相比之下，我们的方法仅考虑输入序列的受限图像束，因此允许以1Hz 2Hz进行在线和增量计算。

Learning Dense Voxel Embeddings for 3D Neuron Reconstruction
Authors Kisuk Lee, Ran Lu, Kyle Luther, H. Sebastian Seung
我们显示通过深度度量学习学习到的密集体素嵌入可用于从3D电子显微镜图像产生神经元的高精度分割。可以根据卷积网络生成的密集嵌入来构造任意一组短边和长边的度量图。将具有远距离亲和力的度量图划分为排斥性约束可以产生具有高精确度的初始分割，并且对非常薄的对象进行了实质性的改进。卷积嵌入网络无需修改即可重复使用，以凝聚由复杂的自接触物体引起的系统性分裂。我们提出的方法在通过串行截面电子显微镜获取的大脑图像中对3D神经元重建这一具有挑战性的问题上实现了最先进的准确性。我们的替代性，以对象为中心的表示形式可能对自动神经电路重构中的其他计算任务更为有用。

Advances in Computer-Aided Diagnosis of Diabetic Retinopathy
Authors Saket S. Chaturvedi, Kajol Gupta, Vaishali Ninawe, Prakash S. Prasad
糖尿病性视网膜病是一个严重的健康问题，影响全世界1亿人，而且预计这一数字还会上升，特别是在亚洲。糖尿病性视网膜病是一种慢性眼病，可导致不可逆的视力丧失。考虑到视网膜图像的视觉复杂性，糖尿病性视网膜病变的早期诊断对人类专家可能具有挑战性。但是，早期发现糖尿病性视网膜病可以大大避免永久性视力丧失。计算机辅助检测系统准确有效地检测糖尿病性视网膜病变的能力已在研究人员中普及。在这篇评论文章中，文献搜索是在PubMed，Google Scholar，IEEE Explorer上进行的，重点是使用机器学习或深度学习算法的计算机辅助检测糖尿病性视网膜病变。此外，本研究还探讨了用于糖尿病视网膜病变计算机辅助诊断的典型方法。本文旨在指导研究人员当前方法的局限性，并确定该领域的特定领域以促进未来的研究。

Class Activation Map generation by Multiple Level Class Grouping and Orthogonal Constraint
Authors Kaixu Huang, Fanman Meng, Hongliang Li, Shuai Chen, Qingbo Wu, King N.Ngan
类激活图CAM基于分类网络突出显示类的区域，该类网络广泛用于弱监督任务中。但是，面临的问题是，类激活区域通常较小且局部。尽管为第二步所做的一些努力已使CAM生成步骤部分地增强了生成，但我们认为，这种问题也是由第一步训练步骤引起的，因为在整个类上训练的单个分类模型包含限制对象区域的有限区分信息萃取。为此，本文通过使用多个分类模型解决了CAM的生成问题。为了形成承载不同判别信息的多个分类网络，我们尝试捕获类之间的语义关系以形成不同语义级别的分类模型。具体而言，基于类关系的层次聚类用于形成层次聚类结果，其中聚类级别被视为语义级别以形成分类模型。此外，提出了一种新的正交模块和基于两分支的CAM生成方法来生成正交且互补的类区域。我们使用PASCAL VOC 2012数据集来验证所提出的方法。实验结果表明，我们的方法改善了CAM的生成。

Invasiveness Prediction of Pulmonary Adenocarcinomas Using Deep Feature Fusion Networks
Authors Xiang Li, Jiechao Ma, Hongwei Li
使用计算机断层扫描CT成像对肺腺癌的病理学浸润性进行早期诊断将改变腺癌的治疗过程，从而改善预后。大多数现有系统仅使用常规的放射线学功能或深度学习功能来预测侵袭性。在这项研究中，我们探索了两种功能的融合，并声称放射线学功能可以与深度学习功能互补。提出了一种有效的深度特征融合网络，以利用两种特征之间的互补性，从而提高了入侵性预测结果。我们收集了一个私人数据集，其中包含来自合作医院的676例患者的肺部CT扫描，这些患者分为四种侵入性类型。对这个数据集的评估证明了我们建议的有效性。

Automatic Posture and Movement Tracking of Infants with Wearable Movement Sensors
Authors Manu Airaksinen, Okko R s nen, Elina Il n, Taru H yrinen, Anna Kivi, Viviana Marchi, Anastasia Gallen, Sonja Blom, Anni Varhe, Nico Kaartinen, Leena Haataja, Sampsa Vanhatalo
婴儿的自发运动反映了大脑网络的完整性，因此也预测了更高认知功能的未来发展。早期识别运动发育受损的婴儿有望为早期治疗提供指导，以改善终生的神经认知结果。然而，以客观和定量的方式评估运动表现一直是一项挑战。新颖的可穿戴技术已显示出有望在运动评估中提供高效，可扩展和自动化的方法。在这里，我们描述了一种婴儿可穿戴，多传感器智能连身衣的开发，该连身衣允许在独立运动中收集移动数据。然后，使用多个人类注释对基于卷积神经网络CNN的深度学习算法进行了训练，这些注释在运动分类中纳入了本质上的固有歧义。我们还量化了人类观察者的实质模糊性，从而将其转移到改进自动分类器中。对不同传感器配置和分类器设计的比较表明，四肢记录和端到端CNN分类器体系结构可实现最佳运动分类。我们的结果表明，可以以人类等效的精度对独立运动的活动进行定量跟踪，即它符合婴儿姿势和运动分类中人与人之间的协议水平。

CANZSL: Cycle-Consistent Adversarial Networks for Zero-Shot Learning from Natural Language
Authors Zhi Chen, Jingjing Li, Yadan Luo, Zi Huang, Yang Yang
现有的使用生成对抗方法进行零镜头学习ZSL的方法旨在通过单一生成网络从类语义中生成逼真的视觉特征，而该网络受到严重限制。结果，先前的方法不能保证所生成的视觉特征能够如实反映相应的语义。为了解决这个问题，我们提出了一种新的方法，称为零散学习CANZSL的循环一致对抗网络。它鼓励视觉特征生成器从语义上合成现实的视觉特征，然后通过语义特征生成器将合成后的视觉特征逆转换回相应的语义空间。此外，本文考虑了更具挑战性和实用性的ZSL问题，其中原始语义来自带有不相关单词的自然语言，而不是先前工作中广泛使用的纯语义。具体来说，训练多模式一致双向生成对抗网络，以利用自然语言中的噪声来处理看不见的实例。从一个文本描述到多个视觉特征的正向一对多映射与从视觉空间到语义空间的反向多对一映射相结合。因此，可以学习并利用合成语义表示和基本事实之间的多模式循环一致性损失，并强制实施生成的语义特征以近似于语义空间中的实际分布。进行了广泛的实验以证明我们的方法在基于自然语言的零击学习任务上始终优于最新方法。

Visual Odometry Revisited: What Should Be Learnt?
Authors Huangying Zhan, Chamara Saroj Weerasekera, Jiawang Bian, Ian Reid
在这项工作中，我们提出了一种单眼视觉测距VO算法，该算法利用了基于几何的方法和深度学习。现有的大多数具有卓越性能的VO SLAM系统都是基于几何形状的，必须针对不同的应用场景进行精心设计。而且，大多数单眼系统遭受水垢漂移问题。最近的一些深度学习工作以端到端的方式学习VO，但是这些深度系统的性能仍无法与基于几何的方法相提并论。在这项工作中，我们将重温VO的基础知识，并探索将深度学习与对极几何和Perspective n Point PnP方法相集成的正确方法。具体来说，我们训练了两个卷积神经网络CNN来估计单视深度和两视光流作为中间输出。通过深入的预测，我们设计了一种简单但健壮的逐帧VO算法DF VO，其性能优于纯基于深度学习和基于几何的方法。更重要的是，我们的系统不会受到比例尺一致的单一视图深度CNN辅助的比例尺漂移问题的困扰。在KITTI数据集上进行的广泛实验显示了我们系统的鲁棒性，详细的消融研究显示了我们系统中不同因素的影响。

Adversarial Learning of General Transformations for Data Augmentation
Authors Saypraseuth Mounsaveng, David Vazquez, Ismail Ben Ayed, Marco Pedersoli
数据增强DA是防止大型卷积神经网络过度拟合的基础，尤其是在训练数据集有限的情况下。在图像中，DA通常基于启发式变换，例如几何或颜色变换。我们的工作不是使用预定义的变换，而是通过学习使用结合了空间变换器网络的编码器-解码器体系结构来变换图像，直接从训练数据中学习数据增强。变换后的图像仍然属于同一类，但是对于分类器来说是新的，更复杂的样本。我们的实验表明，我们的方法比以前的生成数据增强方法更好，并且在训练图像分类器时可与预定义的转换方法相媲美。

Generating Positive Bounding Boxes for Balanced Training of Object Detectors
Authors Kemal Oksuz, Baris Can Cam, Emre Akbas, Sinan Kalkan
两级深物体检测器在第一阶段生成一组感兴趣区域RoI，然后在第二阶段在提议的RoI中识别与地面真实GT框充分重叠的物体。众所周知，第二阶段的RoI偏向于与联合IoU与关联的GT盒的交点较低。为了解决这个问题，我们首先提出一种采样方法来生成与给定参考框重叠超过给定IoU阈值的边界框BB。然后，我们使用这种BB生成方法来开发一个正的RoI pRoI生成器，该生成器会在第二阶段按照任何所需的空间或IoU分布生成RoI。我们证明了我们的pRoI生成器能够为正面示例模拟其他采样方法，例如硬示例挖掘和原始采样。使用我们的生成器作为分析工具，我们表明i IoU不平衡对性能有不利影响，ii硬正例挖掘仅针对某些输入IoU分布会提高性能，并且iii前景类之间的不平衡对性能有不利影响并且可以在批次级别上减轻它。最后，我们使用pRoI发生器训练Faster R CNN，与传统训练相比，对于低IoU可获得更好的性能或同等的性能，而对于较高IoU则可获得显着的改进，例如对于IoU 0.8，mathrm mAP 0.8提高了10.9。该代码将公开提供。

IntersectGAN: Learning Domain Intersection for Generating Images with Multiple Attributes
Authors Zehui Yao, Boyan Zhang, Zhiyong Wang, Wanli Ouyang, Dong Xu, Dagan Feng
生成式对抗网络GAN在生成各种视觉内容方面已展示出巨大的成功。然而，由现有GAN生成的图像通常具有例如从一个图像域获知的微笑表情的属性。结果，生成具有多个属性的图像需要具有多个属性的许多真实样本，这些样本的资源收集非常昂贵。在本文中，我们提出了一种新颖的GAN，即IntersectGAN，以通过相交的体系结构从不同的图像域中学习多个属性。例如，给定两个具有特定属性的图像域X1和X2，则X1和X2的交集是一个新域，其中图像同时具有来自X1和X2域的属性。提出的IntersectGAN由两个鉴别器D1和D2组成，以区分不同域的生成样本和真实样本，以及三个生成器，其中交叉生成器针对两个鉴别器进行训练。并且在三个生成器上定义了总体对抗损失函数。结果，我们提出的IntersectGAN可以在多个域上训练，每个域都呈现一种特定的属性，并最终消除了同时具有多个属性的真实样本图像的需求。通过使用CelebFaces Attributes数据集，我们提出的IntersectGAN能够生成具有多个属性的高质量人脸图像，例如，一头黑发和表情微笑的人脸。进行了定性和定量评估，以将我们提出的IntersectGAN与其他基线方法进行比较。此外，已经探索了IntersectGAN的几种不同应用，并取得了可喜的结果。

Deep Generative Models for Library Augmentation in Multiple Endmember Spectral Mixture Analysis
Authors Ricardo Augusto Borsoi, Tales Imbiriba, Jos Carlos Moreira Bermudez, C dric Richard
考虑到末端成员EMs的可变性，多末端成员光谱混合分析MESMA是执行光谱分解SU的主要方法之一。它使用先验获得的光谱特征库表示图像中的每个末端成员。但是，现有的光谱库通常很小，并且无法在实际场景中正确捕获每个终端成员的可变性，这大大损害了MESMA的性能。在本文中，我们提出了一种图书馆扩充策略，以改善现有光谱图书馆的多样性，从而提高其在真实图像中表示材料的能力。首先，所提出的方法利用深层生成模型DGM的功能，根据现有库中可用的光谱特征来学习端成员的统计分布。之后，可以从学习到的EM分布中提取新样本，并将其用于扩展光谱库，从而提高解混过程的整体质量。使用合成数据和真实数据进行的实验结果证明，即使在库不匹配条件下，该方法也具有出色的性能。

Context-Aware Image Matting for Simultaneous Foreground and Alpha Estimation
Authors Qiqi Hou, Feng Liu
自然的图像消光是计算机视觉和图形中的重要问题。当仅输入图像可用而没有任何外部信息时，这是一个不适的问题。尽管最近的深度学习方法显示出令人鼓舞的结果，但它们仅估计了alpha遮罩。本文提出了一种同时感知前景和alpha遮罩的上下文感知自然图像遮罩方法。我们的方法采用两个编码器网络来提取用于遮罩的基本信息。特别是，我们使用消光编码器来学习局部特征，并使用上下文编码器来获取更多的全局上下文信息。我们将这两个编码器的输出连接起来，并将它们输入解码器网络，以同时估计前景和alpha遮罩。为了训练整个深度神经网络，我们同时使用了标准的拉普拉斯损失和特征损失，前者有助于实现较高的数值性能，而后者则导致更合理的结果。我们还报告了几种数据增强策略，这些策略极大地提高了网络的泛化性能。我们的定性和定量实验表明，我们的方法可以为单个自然图像实现高质量的抠图。

Content-based image retrieval using Mix histogram
Authors Mohammad Rezaei, Ali Ahmadi, Navid Naderi
本文提出了一种新的提取图像低层特征的方法，即混合直方图MH，用于基于内容的图像检索。由于颜色和边缘方向特征是帮助人类视觉系统感知和区分不同图像的重要视觉信息，因此该方法提取并整合颜色和边缘方向信息，以测量不同图像之间的相似性。传统的颜色直方图仅关注图像中颜色的全局分布，因此无法提取其他视觉特征。 MH试图通过提取边缘方向以及颜色特征来克服此问题。 MH的独特特征是它有效地考虑了颜色和边缘方向信息。实验结果表明，它优于许多最初为图像检索目的而开发的现有方法。

Persian Signature Verification using Fully Convolutional Networks
Authors Mohammad Rezaei, Nader Naderi
完全卷积网络FCN最近已用于图像和语音识别中的特征提取和分类，其输入是原始信号或其他复杂特征。波斯语签名验证是使用常规的卷积神经网络CNN进行的。在本文中，我们建议使用FCN从原始签名图像中学习鲁棒的特征提取。 FCN可以被视为CNN的变体，其中其完全连接的层被全局池化层替代。以提议的方式，FCN输入是原始签名图像，并且卷积滤波器的大小是固定的。 UTSig数据库的识别准确性表明，具有全局平均池的FCN优于CNN。

Neural Style Transfer Improves 3D Cardiovascular MR Image Segmentation on Inconsistent Data
Authors Chunwei Ma, Zhanghexuan Ji, Mingchen Gao
三维医学图像分割是医学图像分析中最重要的问题之一，在下游诊断和治疗中起着关键作用。近年来，深度神经网络在医学图像分割问题上取得了突破性的成功。但是，由于仪器参数，实验规程和主题外观的高度差异，不同机器和医院生成的医学图像的不一致常常会阻碍深度学习模型的泛化。在这项工作中，我们提出了StyleSegor，这是一种有效且易于使用的策略，可以缓解这种不一致的问题。具体而言，将神经样式转移算法应用于未标记的数据，以最小化标记和未标记的数据之间的图像属性（包括亮度，对比度，纹理等）的差异。我们还将对网络输出进行概率调整，并通过集成学习整合多个预测。在来自MICCAI HVSMR 2016挑战赛的公开可用的全心分割基准数据集上，我们证明了提高的骰子准确性超过了当前的最新方法，并且值得注意的是，总得分提高了29.91。因此，StyleSegor被证实是3D全心分割的准确工具，尤其是在高度不一致的数据上，并且可以在

SkyNet: a Hardware-Efficient Method for Object Detection and Tracking on Embedded Systems
Authors Xiaofan Zhang, Haoming Lu, Cong Hao, Jiachen Li, Bowen Cheng, Yuhong Li, Kyle Rupnow, Jinjun Xiong, Thomas Huang, Honghui Shi, Wen mei Hwu, Deming Chen
在资源受限的嵌入式系统上开发对象检测和跟踪具有挑战性。尽管对象检测是人工智能领域中计算量最大的任务之一，但仅允许在嵌入式设备上使用有限的计算和内存资源。同时，通常需要这种资源受限的实现方式来满足额外的苛刻要求，例如实时响应，高吞吐性能和可靠的推理精度。为了克服这些挑战，我们提出了SkyNet，这是一种硬件有效的方法，可以为嵌入式系统提供最先进的检测精度和速度。 SkyNet并没有遵循通用的自上而下的流程来进行紧凑的DNN设计，而是提供了一种自下而上的DNN设计方法，该方法从一开始就全面了解硬件约束，从而提供了高效的硬件DNN。通过在第56届IEEE ACM设计自动化大会DAC SDC上赢得低功耗物体检测领域极富竞争力的系统设计竞赛，证明了SkyNet的有效性，我们的SkyNet的性能大大优于其他100个竞争对手，它在Union IoU上的交点为0.731，每帧67.33帧。 TX2嵌入式GPU上的第二FPS，Ultra96嵌入式FPGA上的0.716 IoU和25.05 FPS。 SkyNet的评估还扩展到GOT 10K，GOT 10K是最近在野外进行通用对象跟踪的大规模高多样性基准。对于采用ResNet 50作为主干的最新对象跟踪器SiamRPN和SiamMask，在1080Ti GPU和37.20X上运行时，使用我们的SkyNet作为主干DNN的实现速度分别提高了1.60倍和1.73倍，且具有更好或相似的精度。在参数大小方面较小，可显着改善内存和存储空间。

Gradual Network for Single Image De-raining
Authors Zhe Huang, Weijiang Yu, Wayne Zhang, Litong Feng, Nong Xiao
单幅图像除雨的大多数进步都遇到了一个关键挑战，那就是在保留图像细节的同时消除具有不同比例和形状的雨条纹。现有的单图像除雨方法将去除雨水条纹视为直接逐像素回归的过程。然而，他们缺乏挖掘过雨之间的平衡。去除无雨区域和下雨天的纹理细节，例如留下雨痕。在本文中，我们首先提出了一种由粗到精组成的由粗到精的网络，称为渐变网络GraNet，用于研究不同粒度的单个图像去雨。具体而言，为了揭示粗粒雨纹特征，例如长而厚的雨条会形成雨滴，我们通过一个由区域感知块组成的局部全局子网络，利用局部全局空间相关性，提出了一个粗略阶段。将残留结果作为多雨图像样本（即输入数据）与粗糙级（即学习的防雨罩）的输出之间的粗雨除结果作为输入，通过去除细雨纹例如细线继续细雨。小雨条纹和水雾通过具有密集块和合并块的统一上下文合并子网络获得无雨量且重建良好的输出图像。对合成和真实数据进行的固体和全面实验表明，我们的GraNet通过去除各种密度，比例和形状的雨水条，同时保持良好的无雨区图像细节，可以大大优于现有方法。

Cross-Dataset Person Re-Identification via Unsupervised Pose Disentanglement and Adaptation
Authors Yu Jhe Li, Ci Siang Lin, Yan Bo Lin, Yu Chiang Frank Wang
人物识别ID的目的是从不同相机拍摄的图像中识别同一个人。为了解决这一艰巨的任务，现有的re ID模型通常依赖于大量带标签的训练数据，这对于现实世界的应用是不切实际的。为了减轻这种局限性，研究人员现在将目标对准了交叉数据集re ID，该数据集着重于在给定标记源域数据集时将对非标记目标域的判别能力概括化。为了实现这个目标，我们提出的姿势分解和适应网络PDA Net旨在学习正确解开姿势和领域信息的深度图像表示。借助学习到的跨域姿势不变特征空间，我们提出的PDA Net能够跨域执行姿势解缠，而无需对身份进行监督，并且可以将所得特征应用于跨数据集re ID。我们在两个基准数据集上的定性和定量结果都证实了我们方法的有效性及其相对于最新的交叉数据集Re ID方法的优越性。

Research Directions in Democratizing Innovation through Design Automation, One-Click Manufacturing Services and Intelligent Machines
Authors Binil Starly, Atin Angrish, Paul Cohen
制造业的数字化为消费者创造了机会来定制满足其个性化需求的产品，从而推动了对制造业服务的需求。但是，这种基于拉式的制造系统生产的产品数量极少且种类繁多，实施起来非常昂贵。由数据驱动的计算设计，制造即服务市场和启用数字的微型工厂驱动的设计自动化中的新兴技术有望使创新民主化。在本文中，我们确定了科学，技术和基础设施方面的挑战，如果解决了这些挑战，则将讨论这些新兴技术对产品创新和未来工厂组织的影响。

Improving Generative Visual Dialog by Answering Diverse Questions
Authors Vishvak Murahari, Prithvijit Chattopadhyay, Dhruv Batra, Devi Parikh, Abhishek Das
通过强化学习训练生成可视对话框的模型的先前工作。我们已经研究了Qbot Abot图像猜测游戏，并显示了这种自言自语的方法可以改善下游对话框条件图像猜测任务的性能。但是，经过几轮交互后，这种改进会饱和并开始降低性能，并且不会带来更好的Visual Dialog模型。我们发现，这部分归因于Qbot和Abot在自言自语过程中的反复交互，这对图像没有帮助。为了改善这一点，我们设计了一个简单的辅助目标，该目标可以激励Qbot提出各种问题，从而减少重复，从而使Abot在RL期间探索更大的状态空间。接触更多的视觉概念来谈论，并回答各种问题。我们通过一系列自动指标和人工研究来评估我们的方法，并证明它可以带来更好的对话。对话框更加多样化，即。少重复，一致。具有较少的冲突交流，即流利。更加人性化和细化，同时仍具有与先前工作和消融相关的可比图像。

NLVR2 Visual Bias Analysis
Authors Alane Suhr, Yoav Artzi
NLVR2 Suhr等人，2019年经过精心设计，可通过数据收集过程来应对语言偏见，该过程导致每个自然语言句子都显示真假标签。该过程没有提供类似的视觉偏见控制措施。本技术报告分析了NLVR2中视觉偏见的可能性。我们表明可能存在一些视觉偏见。最后，我们确定了测试数据的一个子集，该子集允许以对此类潜在偏差具有鲁棒性的方式测试模型性能。我们显示，Li等人（2019 Tan和Bansal 2019）的现有模型的性能相对于此潜在偏差而言相对稳健。我们建议将对此数据子集的评估添加到NLVR2评估协议中，并更新正式版本以将其包括在内。包含用于复制此分析的代码的实现的笔记本可在以下位置获得：

CochleaNet: A Robust Language-independent Audio-Visual Model for Speech Enhancement
Authors Mandar Gogate, Kia Dashtipour, Ahsan Adeel, Amir Hussain
嘈杂的环境给听力损失带来了巨大的麻烦，因为助听器通常会使信号更容易听见，但并不总能使用户理解。在嘈杂的环境中，人类通常会利用语音的视听AV特性来选择性地抑制背景噪声并集中在目标讲话者身上。在本文中，我们提出了一种因果关系，语言，噪声和说话者无关的AV深度神经网络DNN架构，用于语音增强SE。该模型利用了嘈杂的声音提示和强大的噪声视觉提示，将注意力集中在所需的说话者上并提高了语音清晰度。为了评估提议的SE框架，首先在包括餐厅和餐厅在内的实际嘈杂环境中记录称为AVIRE的AV双耳语音语料库。我们在客观的测量方法和主观的听力测试方面证明了我们的方法在最先进的SE方法以及最近基于DNN的SE模型方面的卓越性能。此外，我们的工作挑战了一种普遍的观念，即缺乏多语言的大词汇量AV语料库和各种各样的噪音是建立强大的语言，说话者和噪音独立的SE系统的主要瓶颈。我们显示了一个模型，该模型在网格语料库与33个说话者和一个小的英语词汇以及ChiME 3噪声的合成混合物上进行训练，该噪声仅由公共汽车，行人，自助餐厅和街道噪声组成，不仅适用于大型词汇集，而且适用于完全不相关的语言例如普通话，各种说话者和杂音。

Robot Navigation in Crowds by Graph Convolutional Networks with Attention Learned from Human Gaze
Authors Yuying Chen, Congcong Liu, Ming Liu, Bertram E. Shi
对于移动机器人而言，安全高效的人群导航是一项至关重要而又充满挑战的任务。先前的工作表明了深度强化学习框架对培训有效政策的强大作用。但是，随着人群的增加，他们的表现会下降。我们建议可以通过使网络能够识别并关注人群中对导航最关键的人员来解决此问题。我们提出一种利用图形表示来学习策略的新型网络。我们首先训练基于人类凝视数据的图卷积网络，该网络可准确预测人类对人群中不同主体的关注。然后，我们将学习到的注意力整合到基于图的强化学习架构中。所提出的注意力机制能够将有意义的权重分配给机器人的邻居，并具有可解释性的其他好处。在具有各种人群大小的现实世界中密集的行人数据集上进行的实验表明，我们的模型在任务完成方面的性能达到了18.4，在时间效率方面则达到了16.4。

Class-dependent Compression of Deep Neural Networks
Authors Rahim Entezari, Olga Saukh
当今的深层神经网络需要大量的计算资源来进行训练，存储和推理，这限制了它们在资源受限的设备上的有效使用。一方面，许多近期的研究活动探索了压缩和优化深度模型的不同选择。另一方面，在许多实际应用中，我们面临类不平衡的问题，例如压缩网络产生的大量误报是可以忍受的，但误报的数量必须保持较低。该问题源于训练数据集内不平衡样本的固有性质，或者源于某些类别对于模型的应用领域更重要的事实，例如在医学成像中。在本文中，我们提出了一种基于类的网络压缩方法，该方法基于一种新引入的网络修剪技术，该技术用于在原始深层网络中搜索彩票。我们引入了一种新颖的组合损失函数，以找到与原始网络相比具有相同甚至更低数量的假阴性的高效压缩子网。我们使用三个基准数据集进行的实验评估表明，压缩后的子网络最多可以减少50个错误否定的错误数，并实现更高的AUC ROC量度，但与原始网络相比，最多可以减少99个参数。

Deep Multi-Facial patches Aggregation Network for Expression Classification from Face Images
Authors Amine Djerghri, Ahmed Rachid Hazourli, Alice Othmani
人机交互中的情商已经吸引了多学科研究领域的研究人员越来越多的关注，这些领域包括心理学，计算机视觉，神经科学，人工智能以及相关学科。人类倾向于与计算机面对面自然互动。人为表达是更好地将人与计算机联系起来的重要关键。因此，设计能够理解人类表达和情感的界面可以改善人机交互HCI，以实现更好的沟通。在本文中，我们通过用于面部表情识别FER的深度多面部补丁聚合网络研究了HCI。从面部部位提取深层特征并汇总以进行表情分类。一些问题可能会影响所提出框架的性能，例如FER数据集的大小较小以及要学习的参数数量很大。为此，提出了两种用于面部表情生成的数据增强技术，以扩展标记的训练。在扩展的Cohn Konade数据集CK上评估了提出的框架，并获得了可喜的结果。

Deep Local Global Refinement Network for Stent Analysis in IVOCT Images
Authors Yuyu Guo
对于患有心血管疾病的患者，将支架植入冠状动脉是一种常见的治疗选择。通过人工目视检查血管内光学相干断层扫描IVOCT图像中的新内膜覆盖范围，可以评估支架植入的安全性和有效性。然而，这种手动评估需要检测支架内的数千个支撑点。这是一项具有挑战性，乏味且耗时的任务，因为支撑点通常显示为具有不均匀纹理的不规则形状的小物体，并且经常被阴影，伪影和血管壁遮挡。基于纹理，边缘检测或用于自动检测IVOCT图像中支撑点的简单分类器的常规方法具有较低的查全率和准确性，无法充分表示要检测的支撑点的视觉特征。在这项研究中，我们提出了一个本地全局优化网络，以将本地补丁内容与全局内容集成在一起，以从IVOCT图像中检测支撑点。我们的方法密集地检测局部图像补丁中的潜在支撑点，然后根据全局外观约束对其进行精炼以减少误报。我们在7,000个IVOCT图像的临床数据集上的实验结果表明，我们的方法优于最新方法，召回点检测的召回率为0.92，精确度为0.91。

LoGANv2: Conditional Style-Based Logo Generation with Generative Adversarial Networks
Authors Cedric Oeldorf, Gerasimos Spanakis
徽标合成等领域（其中的数据具有高度的多模态性）仍然对生成对抗网络GAN构成挑战。最新研究表明，渐进式训练ProGAN和映射网络扩展StyleGAN既可以提高针对较高维度问题的训练稳定性，又可以在嵌入式潜在空间内实现更好的特征分离。但是，这些体系结构对网络输出整形的控制有限，这在徽标合成的情况下是不希望有的特征。本文探索了对StyleGAN体系结构的条件扩展，其目的是首先改进先前研究的低分辨率结果，其次通过使用合成类条件提高输出的可控制性。此外，以人类的可解释性为重点，探索了提取此类分类条件的方法，其中的挑战在于，从本质上来说，视觉徽标特征很难定义。引入的基于条件样式的生成器体系结构在两个实验中对提取的类条件进行了训练，并相对于无条件模型的性能进行了研究。结果表明，尽管无条件模型与训练分布更紧密匹配，但高质量条件可以将更精细的细节嵌入到潜在空间中，从而带来更多的输出。

Using theoretical ROC curves for analysing machine learning binary classifiers
Authors Luma Omar, Ioannis Ivrissimtzis
大多数二进制分类器通过处理输入以产生标量响应并将其与阈值进行比较来工作。分类器性能的各种度量显式或隐式地假设属于任一类的响应的概率分布P s和P n，每种错误分类的成本的概率分布，并根据预期成本计算性能得分。

Understanding and Robustifying Differentiable Architecture Search
Authors Arber Zela, Thomas Elsken, Tonmoy Saikia, Yassine Marrakchi, Thomas Brox, Frank Hutter
差异化架构搜索DARTS由于其简单性以及通过不断放松和近似得出的双级优化问题而获得的少量搜索成本而引起了广泛的关注。但是，DARTS对于新问题并不能很好地发挥作用，因此，我们确定了范围广泛的搜索空间，DARTS可以针对这些搜索空间生成简并的架构，其测试性能非常差。我们研究了这种故障模式，结果表明，尽管DARTS成功地将验证损失最小化，但是当发现的解决方案与体系结构空间中的高验证损失曲率相吻合时，它们的推广效果很差。我们显示出，通过添加各种类型的正则化之一，我们可以使DARTS鲁棒化，以找到具有更小的Hessian光谱和更好的泛化特性的解决方案。基于这些观察，我们提出了DARTS的几种简单变体，它们在实践中表现得更加强大。我们的观察结果在三个图像分类任务的五个搜索空间中均很可靠，并且对于差异估计的差异非常大，对密集的回归任务和语言建模也持保留态度。我们提供实现和脚本以促进可重复性。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

在这里插入图片描述
pic from pexels.com