【AI视野·今日CV 计算机视觉论文速览第203期】Fri, 21 May 2021

本文链接：https://blog.csdn.net/u014636245/article/details/117136301

本文提出了一种多模态算法，结合面部、身体和语音信息，实现视频中人物的高精度聚类。研究者还发布了首个大规模视频人群数据集，用于评估多模态人员聚类，有助于故事理解和跨模态任务。实验展示了在人群聚类和理解剧情方面的有效性。

摘要由CSDN通过智能技术生成

AI视野·今日CS.CV 计算机视觉论文速览
Fri, 21 May 2021
Totally 52 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Computer Vision Papers

Face, Body, Voice: Video Person-Clustering with Multiple Modalities
Authors Andrew Brown, Vicky Kalogeiton, Andrew Zisserman
这项工作的目标是根据其身份进行视频分组字符的人群。以前的方法侧重于面部聚类的较窄任务，并且对于大多数份额忽略了其他提示，如人的声音，他们的整体外观头发，衣服，姿势以及视频的编辑结构。同样，大多数当前数据集仅评估面部聚类的任务，而不是人员聚类。这将其适用于下游应用程序，例如需要人级的故事理解，而不是只面临面部级别。在本文中，我们首先提出解决这两种缺陷的贡献，我们将多种模态高精度聚类算法用于使用来自几种方式，身体和语音的彩色的彩色仪表中的视频。其次，我们介绍了一个视频人群聚类数据集，用于评估多模态人聚类。它包含每个带注释字符的身体轨道，在可见时的面部轨道，语音轨道时，它们的关联功能有关。数据集是迄今为止最大的类型，涵盖了代表广泛人口统计学的电影和电视节目。最后，我们展示了对人群聚类的多种方式的有效性，探讨通过角色CO发生的故事理解使用这一新的广泛任务，并在面部和人群的所有可用数据集中实现新的最新状态。

AnaXNet: Anatomy Aware Multi-label Finding Classification in Chest X-ray
Authors Nkechinyere N. Agu, Joy T. Wu, Hanqing Chao, Ismini Lourentzou, Arjun Sharma, Mehdi Moradi, Pingkun Yan, James Hendler
放射科医师通常在做出决定之前观察胸部X射线图像的解剖区域以及整体图像。然而，大多数现有的深度学习模型只能查看整个X射线图像进行分类，未能利用重要的解剖信息。在本文中，我们提出了一种新型多标签胸X射线分类模型，可以准确地对图像发现进行分类，并将研究结果定位在其正确的解剖区域。具体来说，我们的模型由两个模块，检测模块和解剖依赖模块组成。后者利用图形卷积网络，这使我们的模型不仅可以学习标签依赖性，而且可以学习胸部X射线中的解剖区域之间的关系。我们进一步利用了一种方法来使用在不同区域的标签的相关性有效地为解剖区域创造邻接矩阵。我们的结果的详细实验和分析表明，与现有技术的当前状态相比，我们的方法的有效性在多标签胸X射线图像分类方法的同时也提供准确的位置信息。

BodyPressure -- Inferring Body Pose and Contact Pressure from a Depth Image
Authors Henry M. Clever, Patrick Grady, Greg Turk, Charles C. Kemp
人体与周围环境之间的接触压力具有重要意义。例如，它在舒适，安全，姿势和健康方面发挥作用。我们提出了一种方法，即在深度图像中递送人体和床垫之间的接触压力。具体地，我们专注于使用从向下朝向相机的深度图像来推断通过床上用品封闭的床上休息的身体上的压力，这是直接适用于预防医疗保健中的压力损伤。我们的方法涉及使用人体，床垫，压力传感垫和毯子的软体物理模拟来增强具有合成数据的真实数据集。我们介绍了一款新的深度网络，我们在增强的数据集上培训并用真实数据进行评估。该网络包含嵌入式人体网格模型，并使用白盒模型和压力图像生成。我们的网络成功地缩小了身体姿势，表现优于上班。它还仅在人体的3D网状模型上缩小了接触压力，这是一种新的能力，并且在毛毯上的遮挡的情况下这样做。

Probing the Effect of Selection Bias on NN Generalization with a Thought Experiment
Authors John K. Tsotsos, Jun Luo
学习网络在视觉识别和认知领域的域名部分地介绍，因为即使他们接受了数据集训练，数量级小于可能的图像的完整群体，它们都表现出足够的概括，以适用于新的和以前看不见的数据。虽然许多人已经检查了几个角度的概括的问题，但我们想知道网络是否训练了一个偏置的数据集，这些数据集会遗漏对应于某些定义域属性的特定样本，它可以概括到从中提取训练数据集的完整域，它肯定是如果在愿景中，没有当前训练集完全捕获所有视觉信息，这可能导致选择偏差。在这里，我们在思想实验的传统中尝试一种新的方法。我们在视觉对象的真实领域中运行此思想实验，我们可以完全表征和看看培训数据的特定差距及其对性能要求的影响。我们的思想实验首先指出了三个结论，即泛化行为取决于域在训练期间表示域的特定尺寸如何，任何概括都完全取决于可接受的系统错误和第三个特定的视觉功能如果在训练集中足够地表示，则在成像平面或颜色之外的物体（例如姿势取向）可能无法恢复。现代深度学习网络中的任何目前观察到的泛化可能更多地是巧合对准的结果，并且需要在系统S的性能规范方面确认其实用程序。我们的思想实验探测方法，加上所产生的偏见击穿可能非常有效地了解偏差的影响。

PLSM: A Parallelized Liquid State Machine for Unintentional Action Detection
Authors Dipayan Das, Saumik Bhattacharya, Umapada Pal, Sukalpa Chanda
储库计算RC提供可行的选择，可在低端嵌入式系统平台上部署AI算法。液态机器LSM是一种生物启发性RC模型，用于模仿皮质微电路，并使用尖峰神经网络SNN，可以直接在神经胸壁上实现。在本文中，我们提出了一种新颖的并行化LSM PLSM架构，该架构包含Spatio时间读出层和模型输出的语义约束。据我们所知，这种配方是在文献中首次完成的，它为传统的深度学习模型提供了一种计算较轻的替代品。此外，我们还提供了一种用于实现PPU的并行SNN和LSM的全面算法。我们使用哎呀数据集实现PLSM模型以对无意的意外视频剪辑进行分类。从实验结果来看，在视频中检测到无意的动作，可以观察到我们所提出的模型优于自我监督模型和完全监督的传统深度学习模型。所有实现的代码都可以在我们的存储库找到

Classification of Urban Morphology with Deep Learning: Application on Urban Vitality
Authors Wangyang Chen, Abraham Noah Wu, Filip Biljecki
由于对各种形式的空间大数据，增加计算能力，增加了从这些信息的使用案例，因此有一种普遍的趋势来定量地学习城市形态。该方法以现在的方式衡量了描述密度，比例和混合物的数值指数的城市形态，但它们不直接代表人类视觉和直观的视角的形态特征。我们通过提出基于深度学习的技术来实现第一步来弥合差距，以便在视觉基础上自动将道路网络分为四个类别。该方法是通过生成街道网络彩色道路层次图的图像来实现，我们在本文中介绍，并使用深卷积神经网络Reset34进行分类。该模型实现了0.875的整体分类准确性。世界各地的九个城市被选为研究领域，他们的道路网络是从OpenStreetMap获得的。城市之间的潜在子组通过集群揭示每个道路网络类别的百分比。在本文的后续部分，我们专注于我们人类感知增强的有效性受到城市活力预测的情况下，研究分析这种分类的可用性。基于先进的树的回归模型是第一次指定建立形态指数与活力指标之间的关系。在基线模型和增强模型的比较实验中检测到人类感知增强的积极效果。这项工作扩展了具有新技术的定量城市形态学研究的工具包，在未来支持进一步的研究。

Joint Face Image Restoration and Frontalization for Recognition
Authors Xiaoguang Tu, Jian Zhao, Qiankun Liu, Wenjie Ai, Guodong Guo, Zhifeng Li, Wei Liu, Jiashi Feng
在现实世界的情景中，许多因素可能会危害面部识别性能，例如大姿势，不良照明，低分辨率，模糊和噪音。为解决这些挑战，以前的努力通常首先将低质量面对高质量的面孔恢复到高质量的面部，然后进行人脸识别。然而，大多数这些方法是明智的阶段，这是次优先的并且偏离现实。在本文中，我们共同解决了不受约束的人脸识别的所有这些挑战。我们提出了一种多重降级面部修复MDFR模型，以在任意面部姿势下从给定的低质量造成的高质量面，具有三种不同的新科。首先，MDFR是一款精心设计的编码器解码器架构，其从输入面部图像中提取具有任意低质量因子的输入面部图像的特征表示，并将其恢复为高质量的对应物。其次，MDFR介绍了姿势残差学习策略以及基于3D的姿态归一化模块PNM，这可以在输入初始姿势和其真正的正面姿势之间感知到引导面部的姿势。最后，MDFR可以通过单个统一网络产生正面化的高品质面部图像，显示出面部标识的强大能力。在控制和野外基准测试中的定性和定量实验证明了在既有正利化和面部恢复的最先进方法的MDFR过度的优势。

Empirical Analysis of Image Caption Generation using Deep Learning
Authors Aditya Bhattacharya, Eshwar Shamanna Girishekar, Padmakar Anil Deshpande
自动图像标题是深度学习的应用之一，涉及在计算机视觉和自然语言处理中完成的工作融合，并且通常使用编码器解码器架构进行。在该项目中，我们已经实施和实验，并探讨了Reset101，DenSenet121和VGG19的CNN编码器和基于LSTM解码器的resnet101，DenSenet121和VGG19的各种形式的多模态图像标题网络的调味。我们已经研究了光束尺寸和使用预先使用的Word Embeddings的效果，并将其与基线CNN编码器和RNN解码器架构进行了比较。目标是使用包括Bleu，苹果酒，胭脂和流星在内的各种评估度量来分析每种方法的性能。我们还使用可视注意映射VAM探索模型说明，以突出显示具有最大贡献的图像的零件，以预测生成的标题的每个单词。

Multi-Perspective Anomaly Detection
Authors Manav Madan, Peter Jakob, Tobias Schmid Schirling, Abhinav Valada
多视图分类是通过人类的行为的启发，特别是当要检测到很少发生的异常时的细粒度或在我们的情况下。目前的贡献指出了如何融合高维数据的问题。在这项工作中，我们建立在深度支持向量数据描述算法和地址使用三种不同融合技术的多视角异常检测I.e.早期融合，晚期融合和多种解码器的晚期融合。我们采用不同的增强技术，具有去噪过程来处理稀缺的一个类数据，这进一步改善了性能ROC AUC 80。此外，我们介绍了由多个观点的超过2000年灰度图像组成的DICE数据集，其中5个含有罕见的异常的图像。钻孔，锯切或划痕。我们使用来自两个不同的透视图的图像和标准MNIST数据集的映像评估我们在新骰子数据集上的方法。广泛的实验表明，我们的建议方法超出了MNIST和骰子数据集的最新技术。据我们所知，这是第一个专注于通过共同使用不同的观点来解决图像中的多视角异常检测，与异常检测的单一目标函数共同地解决图像中的多个透视异常检测。

DeepAVO: Efficient Pose Refining with Feature Distilling for Deep Visual Odometry
Authors Ran Zhu, Mingkun Yang, Wang Liu, Rujun Song, Bo Yan, Zhuoling Xiao
通过分析由船上摄像机捕获的图像序列来估计移动物体的位置和取向的视觉内径vo的技术已经很好地研究了自主驾驶的兴趣兴趣。本文从深度学习DL的角度研究单眼vo。与大多数基于学习的方法不同，我们的方法称为Deepavo，建立了对不同运动模式差异的直觉。具体地，我们介绍了一种新颖的四个分支网络来通过利用卷积神经网络CNN来专注于光流量输入的不同象限来学习旋转和转换。为了增强特征选择的能力，我们进一步引入有效的信道空间注意机制，以强制每个分支以明确地将相关信息蒸馏出特定帧以帧F2F运动估计。涉及户外驾驶和室内行走方案的各种数据集的实验表明，建议的Deepavo通过大幅度优于现有的单眼方法的状态，对立体声VO算法展示了竞争性能，并验证了泛化的有希望的潜力。

DeepDarts: Modeling Keypoints as Objects for Automatic Scorekeeping in Darts using a Single Camera
Authors William McNally, Pascale Walters, Kanav Vats, Alexander Wong, John McPhee
现有的多摄像头用于钢尖端钢尖端的自动记分速度非常昂贵，因此对大多数玩家无法访问。有动力开发更可访问的低成本解决方案，我们提出了一种新的关键点检测方法，并将其应用于从任何摄像机角度拍摄的单个图像中预测飞镖分数。该问题涉及检测可以是同一类的多个关键点，并且彼此靠近地定位。使用Heatmaps回归关键点的广泛采用的框架对此任务不太适合。要解决此问题，请建议将关键点模拟为对象。我们围绕这个想法开发了一个深度卷积的神经网络，并使用它来预测全部管道内的飞镖位置和跳板校准点，用于自动飞镖评分，我们称之为Deepdarts。此外，我们提出了几项任务特定数据增强策略，以改善我们方法的概括。作为概念证明，手动收集和注释由源自两个不同的飞镖设置的16K图像的两个数据集以评估系统。在使用智能手机的掷镖板的视图上的初级数据集中包含从面部捕获的15K图像，Deepdarts在测试图像的94.7中预先正确得分。在包含有限训练数据的最具挑战性数据集中，我们利用传输学习和广泛的数据增强来实现84.0的测试精度。由于Deepdarts仅依赖于单个图像，因此它有可能部署在边缘设备上，以便为智能手机访问钢尖端的自动飞镖评分系统。代码和数据集可用。

Flexible Compositional Learning of Structured Visual Concepts
Authors Yanli Zhou, Brenden M. Lake
人类是高效的学习者，能够从几个例子中掌握新概念的含义。与流行的计算机视觉系统不同，人类可以灵活地利用视觉世界的组成结构，了解新概念作为现有概念的组合。在目前的论文中，我们研究人们如何使用具有丰富关系结构的抽象视觉形式学习不同类型的视觉组合物。我们发现人们可以在各种场景中的几个例子中发出有意义的构图概括，我们开发了一个贝叶斯计划的诱导模型，提供了对行为数据的紧密契合。与过去的工作相比，检查特殊情况的组成性，我们的工作表明，单一的计算方法如何考虑许多不同类型的组成概括。

M4Depth: A motion-based approach for monocular depth estimation on video sequences
Authors Micha l Fonder, Damien Ernst, Marc Van Droogenbroeck
获得到物体的距离对于自治车辆至关重要。在无法使用深度传感器的情况下，必须从RGB摄像机估计该距离。与汽车相反，由于飞行期间运动缺乏限制，在无人机上估计从船上安装摄像机的深度的任务。在无人机的情况下，由于相机运动不受约束，因此该任务比汽车安装的相机更复杂。在本文中，我们通过使用其RGB视频流和无人驾驶运动信息来提出一种估计在板上安装的相机上看到的物体距离的方法。我们的方法是基于金字塔卷积神经网络架构的构建，并与运动施加的几何约束使用时间复发，以产生像素明智的深度图。从连接到无人机的相机的RGB视频流中，金字塔的每个级别都是根据过去的观测和信息在金字塔中提供的过去观察和信息来生成自己的深度估计。我们介绍了一种空间的刻录层，以维持水平之间数据的时空一致性。我们分析了我们在Mid Air上的方法的性能，公用无人机数据集以各种非结构化的户外环境中记录的合成无人机轨迹。我们的实验表明，我们的网络优于艺术深度估计方法的状态，并且运动信息的使用是这种改进的主要贡献因素。我们的方法代码在Github上公开可用，请参阅href

Biologically Inspired Semantic Lateral Connectivity for Convolutional Neural Networks
Authors Tonio Weidler, Julian Lehnen, Quinton Denman, D vid Seb k, Gerhard Weiss, Kurt Driessens, Mario Senden
横向连接在视觉皮质中的感觉加工通过支持可辨别的神经元响应来发挥重要作用，即使是高度相似的特征。在目前的工作中，我们表明，沿着滤波器域建立生物激发的墨西哥帽子横向连接配置文件可以显着提高各种轻质卷积神经网络的分类精度，而无需添加培训网络参数。此外，我们证明可以分析地确定调制滤波激活的静止分布，从而避免使用复制来建模时间动态。我们还揭示了墨西哥帽的连接功能具有在类似于早期视觉皮层中的特征选择性的地形组织的序列中订购过滤器的效果。在有序的滤波器序列中，此配置文件锐化过滤器调整曲线。

Weakly-Supervised Physically Unconstrained Gaze Estimation
Authors Rakshit Kothari, Shalini De Mello, Umar Iqbal, Wonmin Byeon, Seonwook Park, Jan Kautz
物理上不受约束的凝视估计的主要挑战是在野外和户外情景中获取具有3D凝视注释的培训数据。相比之下，无限制环境中的人类交互视频丰富，可以更容易地注释帧级活动标签。在这项工作中，我们解决了从人类互动视频的弱势监督凝视估计的先前未开发的问题。当人们履行Laeo的活动时，我们利用了强大的凝视相关的几何限制存在的见解。要从Laeo标签获取可行的3D凝视监管，我们提出了一种培训算法以及特别为任务设计的几种新型损耗功能。由于两种大型CMU Panoptic和AVA Laeo活动数据集的监督弱，我们对野生凝席360凝视估计基准测试基准的半监控凝视估计和B跨域泛化的准确性显着改善。我们开源我们的代码

A Spatio-temporal Attention-based Model for Infant Movement Assessment from Videos
Authors Binh Nguyen Thai, Vuong Le, Catherine Morgan, Nadia Badawi, Truyen Tran, Svetha Venkatesh
联合或肢体的禁令运动的缺失或异常都强烈指示婴儿的脑瘫。用于评估视频中婴儿运动的基于计算机的方法是改善脑瘫筛选的关键。大多数现有方法使用基于外观的特征，因此对由背景杂波或移动相机引起的强度但不相关的信号敏感。此外，这些特征在整个框架上计算，因此它们测量总体主体运动而不是特定的关节肢体运动。

Semi-supervised, Topology-Aware Segmentation of Tubular Structures from Live Imaging 3D Microscopy
Authors Kasra Arnavaz, Oswin Krause, Jelena M. Krivokapic, Silja Heilmann, Jakob Andreas B rentzen, Pia Nyeng, Aasa Feragen
通过一个具有挑战性的管状网络分割任务，本文解决了两种常见于分割的生物医学成像拓扑一致性的常见问题，以及有限的注释。我们提出了一种拓扑分数，可衡量预测和地面真相分段之间的拓扑和几何一致性，适用于模型选择和验证。我们在三种情况下应用我们的拓扑分数。 U网II。在AutoEncoder和III上预留的U净净值。半质化UN架构，它提供了一种直接的方法，可以将网络共同训练为AutoEncoder和分割算法。这使我们能够利用UN注释数据来训练跨越测试数据变异的表示，尽管我们的注释培训数据具有非常有限的变化。我们的贡献在挑战性分割任务上验证，从嘈杂的实时成像共聚焦显微镜检查胎儿胰腺中的管状结构。

An Attractor-Guided Neural Networks for Skeleton-Based Human Motion Prediction
Authors Pengxiang Ding, Jianqin Yin
联合关系建模是人类运动预测中的曲线组分。大多数现有方法都倾向于设计基于骨骼的图形，以建立关节之间的关系，其中联合对之间的局部相互作用很好地学习。然而，所有接头的全球协调反映人类议员平衡财产通常会削弱，因为它是从逐步和异步的部分学习到整体。因此，最终预测的动作有时是不自然的。为了解决这个问题，我们学习一个被称为平衡吸引子BA的媒体，从时空的动作特征来表征全球运动功能，随后用于建立新的联合关系。通过BA，所有关节都同步相关，因此可以更好地学习所有关节的全球协调。基于BA，我们提出了我们的框架，提到了吸引子导向神经网络，主要包括基于吸引子的联合关系提取器AJRE和多时间测量器动态提取器MTDE。 AJRE主要包括全球协调提取器GCE和局部互动提取器谎言。前者呈现了所有关节的全局协调，后者编码了联合对之间的局部相互作用。 MTDE旨在从原始位置信息中提取动态信息以进行有效预测。广泛的实验表明，所提出的框架在H3.6M，CMU Mocap和3DPW中的短期和长期预测中占据了现有技术的状态。

An Empirical Study of Vehicle Re-Identification on the AI City Challenge
Authors Hao Luo, Weihua Chen, Xianzhe Xu, Jianyang Gu, Yuqi Zhang, Chong Liu, Yiqi Jiang, Shuting He, Fan Wang, Hao Li
本文介绍了我们在AI City挑战2021 AICITY21中的Track2的解决方案。 Track2是具有真实世界数据和合成数据的车辆重新识别Reid任务。我们主要关注四点，即培训数据，无监督域自适应UDA培训，后处理，模型在这一挑战中合并。 1裁剪训练数据和使用合成数据可以帮助模型了解更多辨别特征。 2由于在训练集中出现的测试集中存在新的场景，因此UDA方法在挑战中表现良好。 3后处理技术包括重新排名，图像要跟踪检索，相机间融合等，显着提高最终性能。 4我们基于CNN的模型和基于变压器的模型，提供了不同的表示分集。通过上述技术，我们的方法终于实现了0.7445的地图评分，在竞争中产生了第一名。代码可用

Simple Transparent Adversarial Examples
Authors Jaydeep Borkar, Pin Yu Chen
使用机器学习作为服务MLAAS Vision API的使用，因此提供多种服务，包括预构建模型和算法，否则如果从头开始建造了大量资源。由于这些API部署了高赌注应用，因此它们对不同的操作非常强大。最近的作用仅关注评估视觉API的稳健性时典型的对抗性攻击。我们提出了两种对抗性图像生成方法的新方面，并在谷歌云视觉APIS光学字符识别服务和对象检测API的鲁棒性上评估它们，例如

Crowd Counting by Self-supervised Transfer Colorization Learning and Global Prior Classification
Authors Haoyue Bai, Song Wen, S. H. Gary Chan
标记的人群场景图像昂贵且稀缺。为了显着降低标记图像的要求，我们提出了一种基于CNN基于CNN的方法，通过组合自我监督的传输彩色学习和全球先前分类来利用大量可用的未标记数据。自我监督的彩色分支通过使用其颜色组件作为伪标签来了解图像的语义和表面纹理。分类分支通过学习图像集群之间的相关性提取全局组前沿。它们融合的结果鉴别特征是全球前锋，语义和纹理提供充足的指控，因此大大降低了标记图像的要求。我们对四个具有挑战性的基准进行了广泛的实验。与其他无人监督的方法相比，ColorCount实现了更好的性能。其性能接近受监督的基线，最初的标记数据如图10所示的数据10。

A Connected Component Labelling algorithm for multi-pixel per clock cycle video strea
Authors Marcin Kowalczyk, Tomasz Kryjak
这项工作描述了在RealMable Logic中的连接组件标记CCL模块的硬件实现。设计的主要新颖性是完整的，即，没有任何简化，每个时钟格式支持4个像素4 PPC和4K超大视频流的实时处理3840 x 2160像素，每秒60帧。为实现这一点，设计了一种特殊的标签方法和停止输入数据流的功能，以便处理需要将多个合并写入等效表的像素组。在ZCU104评估板上的Xilinx Zynq UltraScale MPSoC芯片上验证了所提出的模块。

Content-adaptive Representation Learning for Fast Image Super-resolution
Authors Yukai Shi, Jinghui Qin
深度卷积网络在图像恢复和增强中引起了极大的关注。通常，通过构建越来越多的卷积块，改善了恢复质量。然而，这些方法主要学习特定模型来处理所有图像并忽略难度分集。换句话说，具有高频图像中的图像中的区域倾向于在压缩过程中丢失更多信息，而低频频率的区域趋于较少。在本文中，我们通过将贴片明智的滚动网络PRN结合到以根据难度级别自适应地恢复图像来施加图像SR中的效率问题。与忽视难度多样性的现有研究相比，我们采用了神经网络的不同阶段来执行图像恢复。此外，我们提出了一种利用每个阶段的参数更灵活的滚动策略。广泛的实验表明，我们的模型不仅显示出显着的加速，而且展示了最先进的性能。

More Than Just Attention: Learning Cross-Modal Attentions with Contrastive Constraints
Authors Yuxiao Chen, Jianbo Yuan, Long Zhao, Rui Luo, Larry Davis, Dimitris N. Metaxas
由于其能力在不同模式中学习细粒度相关性的能力，因此广泛应用于跨越模型任务，例如图像标题和信息检索，并且已经实现了显着的改进。然而，现有的注意力模型可能是次优且缺乏精确性，因为在培训期间没有参与直接监督。在这项工作中，我们提出了对比的内容Re采购CCR和对比内容交换CCS限制以解决此类限制。这些限制以对比的学习方式监督关注模型的培训，而无需明确关注注释。此外，我们介绍了三个指标，即注意力精确，召回和F1分数，以定量评估注意力质量。我们评估跨模型检索图像文本匹配任务的提出的约束。 Flickr30k和MS Coco Datasets的实验表明，将这些注意限制集成为基于艺术的主要关注的模型在检索准确性和注意度量方面提高了模型性能。

AGSFCOS: Based on attention mechanism and Scale-Equalizing pyramid network of object detection
Authors Li Wang, Wei Xiang, Ruhui Xue, Kaida Zou, Laili Zhu
最近，锚定对象检测模型显示了基于锚的物体检测的精度和速度的巨大潜力。因此，在本第1条中主要研究了两个问题如何让骨干网络在锚自由对象检测模型中学习功能提取2如何更好地利用特征金字塔网络，以解决上述问题，实验表明我们的模型的准确性有一定的改进与Coco DataSet上的当前流行的检测模型相比，设计的注意机制模块可以捕获上下文信息井，提高检测精度，并使用SEPC网络帮助余额和详细信息，并减少问题特征金字塔网络中的语义差距。无论是基于锚的网络模型yolov3，速度越快，或锚免费网络模型foveabox，fsaf，fcos。我们的最佳模型可以在Reset50的背景下获得39.5个Coco AP。

Intra-Model Collaborative Learning of Neural Networks
Authors Shijie Fang, Tong Lin
最近，宋和柴提出的协作学习通过同时培训多个分类器头来实现了图像分类任务的显着改进。然而，这种多头结构所需的巨大内存足迹可能阻碍大容量基线模型的训练。自然问题是如何在没有复制任何模块的情况下在单个网络中实现协作学习。在本文中，我们提出了四种单一网络不同部分的协作学习，工程努力可忽略不计。为了提高网络的稳健性，我们利用输出层和中间层在协作学习框架下进行培训的一致性。此外，还引入了中间代表和卷积核的相似性以减少神经网络中的冗余冗余。与歌曲和柴的方法相比，我们的框架还考虑了一个模型内的协作，并占用了更小的开销。在CiFar 10，CiFar 100，ImageNet32和STL 10上的广泛实验在组合它们进一步改进的同时分开地证实了这四种方式的有效性。特别是，STL 10数据集上的测试误差分别为RESET 18和VGG 16的9.28和5.45减少。此外，我们的方法被证明是在CIFAR 10数据集上的实验中标记噪声的强大。例如，我们的方法在50个噪声比设定下具有3.53的性能。

A low-rank representation for unsupervised registration of medical images
Authors Dengqiang Jia, Shangqi Gao, Qunlong Chen, Xinzhe Luo, Xiahai Zhuang
注册网络在医学图像分析中显示了很大的应用潜力。然而，监督培训方法对大型和高质量标记数据集具有很大的需求，这是耗时的，并且由于数据共享问题而有时是不切实际的。无监督的图像登记算法通常采用基于强度的相似度措施作为损耗功能，而无需任何手动注释。这些方法通过在训练期间优化网络参数来估计移动和固定图像对之间的参数化变换。然而，当图像质量变化时，这些方法变得较小，例如，一些图像被大量噪声或伪像损坏。在这项工作中，我们提出了一种基于低级代表的新方法，即Regnet LRR，解决问题。我们将嘈杂的图像投影为无噪声低秩空间，然后计算图像之间的相似性。基于低等级相似度测量，我们训练登记网络以预测噪声图像对的密集变形领域。我们突出显示低排名投影以重新重新格式化，即注册网络可以成功更新渐变。有两项任务，即心脏和腹部内部的模态登记，我们证明了低秩表示可以提高模型的泛化能力和稳健性，并在嘈杂的数据登记场景中提高显着改进。

Egocentric Activity Recognition and Localization on a 3D Map
Authors Miao Liu, Lingni Ma, Kiran Somasundaram, Yin Li, Kristen Grauman, James M. Rehg, Chao Li
给出了从第一人称的透视图捕获的视频，并在熟悉的环境中记录，我们可以认识到该人在做什么并识别行动发生在3D空间中的位置，我们解决了联合识别和本地化移动用户的动作的挑战性问题来自Egentric视频的已知3D地图。为此，我们提出了一种新颖的深层概率模型。我们的模型采用环境的分层体积表示HVR的输入和自我传统视频，将3D动作位置Infers作为潜在变量，并基于围绕其潜在位置的视频和上下文提示识别该动作。为了评估我们的模型，我们对新收集的Egentric视频数据集进行了广泛的实验，其中捕获了人类的自然主义行动和照片现实的3D环境重建。我们的方法在看到和看不见的环境中表现出对动作识别和3D动作本地化的强劲结果。我们相信我们的工作指向Egentric Vision的交叉点和3D场景理解的令人兴奋的研究方向。

DeepCAD: A Deep Generative Network for Computer-Aided Design Models
Authors Rundi Wu, Chang Xiao, Changxi Zheng
3D形状的深度生成模型已经获得了大量的研究兴趣。然而，几乎所有所有的都生成了离散的形状表示，例如体素，点云和多边形网格。我们介绍了一个用于稳定不同的形状表示的第一个3D生成模型，其描述了一种作为计算机辅助设计CAD操作的序列的形状。与网格和点云不同，CAD模型对3D形状的用户创建过程进行了编码，广泛用于众多工程设计任务。然而，CAD操作的顺序和不规则结构对现有的3D生成模型带来了重大挑战。在CAD操作和自然语言之间绘制类比，我们提出了一种基于变压器的CAD生成网络。我们展示了我们模型的形状自动码和随机形态的表现。要培训我们的网络，我们创建了一个由179,133型号及其CAD施工序列组成的新CAD数据集。我们公开推广该数据集以促进对该主题的未来研究。

Generalized Few-Shot Object Detection without Forgetting
Authors Zhibo Fan, Yuchen Ma, Zeming Li, Jian Sun
最近，广泛采用镜头对象检测来处理数据有限的情况。虽然最先前的作品仅关注几个拍摄类别的性能，但我们声称检测所有类是至关重要的，因为测试样本可能包含现实应用中的任何实例，这需要几个镜头探测器在不遗忘的情况下学习新概念。通过分析基于转移学习的方法，一些被忽视但有益的属性用于设计简单但有效的几次射击探测器，保留R CNN。它由BIAS平衡RPN组成，以使预磨损的RPN和RE检测器进行衰减，以在不忘记以前的知识的情况下找到几张拍摄类对象。在很少的镜头检测基准上的广泛实验表明，保留R CNN显着优于所有设置中整体性能的最佳状态，因为它可以在很少的拍摄类上实现竞争结果，并且根本不会降低基类性能。我们的方法表明，长期从不忘记的学习者可用于物体检测。

Content-Augmented Feature Pyramid Network with Light Linear Transformers
Authors Yongxiang Gu, Xiaolin Qin, Yuncong Peng, Lu Li
最近，充足的工作试图将变形金刚引入计算机视觉任务，结果良好。与经典卷积网络不同，其中提取本地接收领域内的功能，变压器可以使用自我注意机制自动地从全局视图中聚合类似的特征。对于对象检测，特征金字塔网络FPN提出了跨层的特征互动，并证明了其非常重要性。然而，它的互动仍然处于当地，这留下了大量的改进空间。由于变压器最初设计用于NLP任务，因此将处理对象直接从文本调整到图像，这将导致无法计算的计算和空间开销。在本文中，我们利用了线性化的注意功能来克服上述问题，并建立一个名为Content Curemented Feature金字塔网络CA FPN的新颖架构，这提出了一种全局内容提取模块，并通过光线性变压器深入地与FPN相结合。更好的是，轻型变压器可以进一步使得多头关注机制更容易。最重要的是，我们的CA FPN可以容易地插入现有的基于FPN的模型。关于挑战的Coco对象检测数据集的广泛实验表明，我们的CA FPN显着优于没有钟声和口哨的竞争基础。代码将公开可用。

Anabranch Network for Camouflaged Object Segmentation
Authors Trung Nghia Le, Tam V. Nguyen, Zhongliang Nie, Minh Triet Tran, Akihiro Sugimoto
伪装的对象试图将其纹理隐藏到背景中并鉴别它们即使对于人类而难以解决。本文的主要目的是探讨伪装的对象分割问题，即将伪装对象S分割用于给定图像。尽管有广泛的潜在应用，但在包括野生动物的保存以及在诸如地震，洪水或飓风等自然灾害的情况下发现新物种，监测系统，搜索和救援任务，仍未得到很好的潜在应用。本文涉及伪装对象分割的新挑战性问题。要解决此问题，我们为伪装对象提供了新的图像数据集，用于基准测试。此外，我们提出了一般端到端网络，称为AnabRanch网络，它利用了分类和分段任务。与用于分割的现有网络不同，我们所提出的网络具有分类的第二分支，以预测在图像中包含伪装对象S的概率，然后将其融合到主分支中以进行分割以提高分段精度。在新建数据集上进行的广泛实验展示了我们网络使用各种完全卷积网络的有效性。 URL.

Superpixel-based Domain-Knowledge Infusion in Computer Vision
Authors Gunjan Chhablani, Abheesht Sharma, Harshit Pandey, Tirtharaj Dash
超像素是图像中的高阶感知像素组，通常携带比原始像素更多的信息。具有固有的关系结构与图像的不同超像素之间的关系。该关系信息可以传达有关图像的某种形式的域信息，例如，代表两只眼睛的超像素的关系在猫图象中。我们对本文的兴趣是构建计算机视觉模型，特别是基于深神经网络DNN的那些融合这些超像素信息。我们提出了一种方法来构建一种混合模型，该模型利用卷积神经网络CNN来处理图像中的空间信息，B图神经网络GNN以处理图像中的关系超像素信息。使用我们称之为混合丢失的通用混合丢失功能来学习所提出的深度模型。我们评估我们在四个流行的图像分类数据集Mnist，Fmnist，CiFar 10和Cifar 100上提出的混合视觉模型的预测性能。此外，我们在三个现实世界分类任务Covid 19 X射线检测，LFW面部识别和Socofing指纹识别。结果表明，通过GNN提供的关系超像素信息可以改善基于标准CNN的视觉系统的性能。

VTNet: Visual Transformer Network for Object Goal Navigation
Authors Heming Du, Xin Yu, Liang Zheng
目标目标导航旨在基于代理的观察来使代理人朝向目标对象。在确定导航行动时设计所观察到的场景的有效视觉表现是关键重要性的重要性。在本文中，我们介绍了一种可视变压器网络VTNet，用于在导航中学习信息性的视觉表现。 VTNET是一种高效的结构，其体现了两个用于视觉表示的关键属性，首先，突出的所有对象实例之间的关系被利用第二，强调对象和图像区域的空间位置，从而可以学习方向导航信号。此外，我们还开发了一种预训练方案，以将视觉表示与导航信号相关联，从而促进导航策略学习。在简而言之，VTNET将其位置提示嵌入对象和区域功能，作为空间感知描述符，然后通过注意操作结合所有编码的描述符以实现导航的信息性表示。考虑到这种视觉表示，代理能够探索视觉观察和导航动作之间的相关性。例如，当视觉表示在激活图的右侧强调时，代理将在左转左转左转。人工环境中的实验AI2托尔证明VTNET在看不见的测试环境中显着优于现有技术的现有方法。

End-to-End Unsupervised Document Image Blind Denoising
Authors Mehrdad J Gangeh, Marcin Plata, Hamid Motahari, Nigel P Duffy
从扫描页面中删除噪声是将光学字符识别OCR系统提交前的重要步骤。最可用的图像去噪方法受到需要的嘈杂清洁页面的位置。但是，这种假设很少在真实设置中满足。此外，没有单一模型可以从文档中清除各种噪声类型。在这里，我们提出了一个统一的端，首次可以有效地消除无监督的深度学习模型，可以有效去除多种类型的噪音，包括盐辣椒噪声，模糊和或褪色的文本，以及来自各种强度的文档的水印。我们证明，所提出的模型显着提高了几个测试数据集上扫描图像的质量和页面的OCR。

Unsupervised learning of text line segmentationby differentiating coarse patterns
Authors Berat Kurar Barakat, Ahmad Droby, Raid Saabni, Jihad El Sana
尽管近期对文本线分割的监督深度学习领域的进步，但无监督的深度学习解决方案开始受到普及。在本文中，我们提出了一种无监督的深度学习方法，将文档图像贴片嵌入到紧凑的欧几里德空间，其中距离对应于粗略文本线模式相似性。一旦生产了该空间，可以使用具有嵌入式特征向量的标准技术轻松实现文本线段。要培训模型，我们将随机对文件映像修补程序提取了邻居修补程序包含与文本线的类似粗略趋势的假设，而如果其中一个旋转，则它们包含不同的文本线的粗略趋势。在此任务上表现良好需要模型来学习识别文本线和其突出部分。我们的方法的好处是零手动标签努力。我们在定性地和定量地对文本线分割数据集的若干变体进行定性和定量评估该方法，以证明其有效性。

Birds of a Feather: Capturing Avian Shape Models from Images
Authors Yufu Wang, Nikos Kolotouros, Kostas Daniilidis, Marc Badger
动物是多样的形状，但由于缺乏3D数据，构建新物种的可变形形状模型并不总是可能的。我们介绍了一种使用该物种的铰接模板和图像来捕获新物种的方法。在这项工作中，我们主要专注于鸟类。虽然鸟类代表了几乎是哺乳动物数量的两倍，但没有准确的形状。为了捕获新颖的物种，我们首先将铰接模板拟合到每个训练样本。通过解开姿势和形状，我们学习一个形状空间，从图像证据中捕获物种和每个物种内的变化。我们学习来自Cub数据集的多种物种的模型，并为下游重建任务提供了有用的特定种类和多种物种形状模型。使用低维嵌入，我们表明我们学习的3D形状空间更好地反映了鸟类之间的系统发育关系而不是学到的感知特征。

Endless Loops: Detecting and Animating Periodic Patterns in Still Images
Authors Tavi Halperin, Hanit Hakim, Orestis Vantzos, Gershon Hochman, Netai Benaim, Lior Sassy, Michael Kupchik, Ofir Bibi, Ohad Fried
我们提出了一种从单个图像产生无缝动画循环的算法。该算法检测周期性结构，例如构建的窗口或楼梯的步骤，并生成沿着用户或自动选择的主动运动方向将结构的每个段映射到相邻段上的非平凡位移矢量字段。使用该位移场与合适的时间和空间平滑一起使用，以翘曲图像并产生连续动画循环的帧。我们的阴剧是在移动设备上的一秒钟内创建的。超过140,000名用户下载了我们的应用程序，并导出了超过350,000个Cinemagraphs。此外，我们进行了两项用户研究，表明用户更喜欢使用更多手动方法和与以前的方法相比创建超现实和结构化阴膜的方法。

Efficient and Robust LiDAR-Based End-to-End Navigation
Authors Zhijian Liu, Alexander Amini, Sibo Zhu, Sertac Karaman, Song Han, Daniela Rus
深度学习已被用于展示从原始感官输入中的自主车辆控制的最终神经网络学习。虽然LIDAR传感器提供可靠的准确信息，但是现有的端端驾驶解决方案主要基于摄像机，因为加工3D数据需要大的内存占用和计算成本。另一方面，增加这些系统的稳健性也是至关重要的，甚至估计模型的不确定性由于基于采样的方法的成本，甚至估计模型的不确定性是非常具有挑战性的。在本文中，我们提出了一种基于高效且强大的LIDAR结束到最终导航框架。我们首先介绍基于稀疏卷积内核优化和硬件感知模型设计的快速LIDARNET。然后，我们提出了杂种证据融合，即直接估计从单个前向通过的预测的不确定性，然后智能地熔化控制预测。我们在全尺度车辆上评估我们的系统，并展示车道稳定以及导航能力。在出现分发事件的情况下，传感器故障，我们的系统显着提高了鲁棒性，并减少了现实世界中的收购数量。

POCFormer: A Lightweight Transformer Architecture for Detection of COVID-19 Using Point of Care Ultrasound
Authors Shehan Perera, Srikar Adhikari, Alper Yilmaz
Covid 19的快速和看似无穷无尽的扩张可以追溯到低效率，测试套件的低效率和短缺，以及时提供准确的结果。一种采用移动超声技术提升的新兴流行技术，允许医疗保健专业人员大规模进行快速筛查。我们介绍了一种基于图像的解决方案，旨在自动化测试过程，该测试过程允许使用或没有培训的医疗专业人员进行快速质量测试，这些专业人员可以应用于农村环境和第三世界国家。我们对快速大规模测试的贡献包括一种新的深度学习架构，能够使用基于图像的Covid 19检测来分析可以实时运行的超声数据并显着提高所通式检测精度的当前状态。

Anchor-based Plain Net for Mobile Image Super-Resolution
Authors Zongcai Du, Jie Liu, Jie Tang, Gangshan Wu
随着现实世界应用的快速发展，提出了对图像超分辨率SR的准确性和效率的更高要求。尽管现有方法取得了显着的成功，但它们的大部分需要大量的计算资源和大量的RAM，因此它们不能很好地应用于移动设备。在本文中，我们的目标是设计8位量化的高效架构，并在移动设备上部署它。首先，通过分解轻量级SR架构，我们对元节点延迟进行实验，这决定了我们可以使用的便携式操作。然后，我们深入地挖掘到什么样的架构是有益的8位量化，并提出基于锚的普通网ABPN。最后，我们采用量化意识到培训策略，以进一步提高性能。我们的模型可以在PSNR方面优于近2dB的8位量化FSRCNN，同时同时满足现实需求。代码是可用的

Covid-19 Detection from Chest X-ray and Patient Metadata using Graph Convolutional Neural Networks
Authors Thosini Bamunu Mudiyanselage, Nipuna Senanayake, Chunyan Ji, Yi Pan, Yanqing Zhang
新型电晕病毒Covid 19由于其通过呼吸传输迅速传播性质，引入了重大挑战。因此，对人工智能AI的巨大需求基于基于的快速疾病诊断方法作为高需求测试的替代，例如聚合酶链式反应PCR。由于资源可用性和快速筛选，胸部X射线CXR图像分析是如此成本有效的造影技术。但是，复杂的深度倾斜DL模型需要的充分和系统的数据收集更加困难，因此最近有利用转移学习来解决这个问题的努力。这些转移学习模型仍然缺乏泛化，并增加训练数据集的偏差，从而对看不见的数据表现不佳。从预训练模型到特定医学成像域的转移特征的相关性有限相关，如X射线和更少数据的过度装备可以是这种情况的原因。在这项工作中，我们提出了一种新颖的图表卷积神经网络GCN，其能够从CXR图像和关于患者的Meta信息识别Covid 19肺炎的生物标记。该方法使用图形表示，利用数据实例和它们的功能之间的重要关系知识，并应用卷积以了解欧几里德域上的传统卷积不可能的图表数据。建议模型的广泛实验结果与正常和三类Covid，正常，其他肺炎分类问题越来越不同的基准转移学习模型，因此克服了上述缺点。

DPN-SENet:A self-attention mechanism neural network for detection and diagnosis of COVID-19 from chest x-ray images
Authors Bo Cheng, Ruhui Xue, Hang Yang, Laili Zhu, Wei Xiang
背景和目标新型的冠状病毒也被称为Covid 19.它开始于2019年底传播，现在已经遍布全球。直到2020年10月，它感染了大约3700万人，并声称了约100万人的生命。我们提出了一个深入的学习模式，可以帮助放射科医生和临床医生使用胸部X光线来诊断Covid 19例，并显示肺炎的诊断特征。方法本研究中的方法是1我们提出了一种数据增强方法来增加数据集的多样性，从而提高了模型的泛化性能。 2我们的深度卷积神经网络模型DPN SE向DPN网络增加了自我注意机制。添加自我注意机制极大地提高了网络的性能。 3使用石灰可解释的库来标记X射线医学图像上的特征区域，帮助医生更快地诊断人们的Covid 19。结果在相同的网络模型下，分别放入培训模型中的数据和不带数据增强。最后，将两个实验结果与不同结构的10个网络模型进行比较，7个网络模型在使用数据增强后改善了它们的效果，平均提高了1的识别精度。我们建议DPN SE网络的准确性和召回率为93和98例Covid与肺炎细菌与病毒性肺炎与正常情况。与原始DPN相比，相应的精度得到改善2。结论我们使用的数据增强方法已经实现了少量数据集的有效结果，表明合理的数据增强方法可以提高识别准确性而不改变样本大小和模型结构。总的来说，所提出的方法和模型可以有效地成为临床放射科医生的非常有用的工具。

Semantic segmentation of multispectral photoacoustic images using deep learning
Authors Janek Gr hl, Melanie Schellenberg, Kris Dreher, Niklas Holzwarth, Minu D. Tizabi, Alexander Seitel, Lena Maier Hein
由于有关多光谱光声测量中包含的组织生理学的宝贵信息，光声成像具有促进医疗保健。该技术的临床翻译需要将高维获得数据转换为临床相关和可解释的信息。在这项工作中，我们介绍了一种基于深度学习的多光谱光声图像的语义分割方法，以促进记录图像的可解释性。手动注释的多光谱光声成像数据用作黄金标准参考注释，并以监督方式启用基于深度学习的分割算法的培训。基于通过实验获取的健康人志愿者数据的验证研究，我们表明，可以使用自动组织分割来创造多光谱光声图像的强大分析和可视化。由于高尺寸信息的直观表示，这种处理算法可以是促进光声成像的临床翻译的有价值手段。

FVC: A New Framework towards Deep Video Compression in Feature Space
Authors Zhihao Hu, Guo Lu, Dong Xu
基于学习的视频压缩在过去几年中吸引了不断的关注。先前的混合编码方法依赖于像素空间操作以减少空间和时间冗余，这可能遭受不准确的运动估计或更少有效的运动补偿。在这项工作中，我们通过执行特征空间中的所有主要操作来提出特征空间视频编码网络FVC，在特征空间中进行运动估计，运动压缩，运动补偿和残差压缩。具体地，在所提出的可变形补偿模块中，我们首先在特征空间中应用运动估计以产生运动信息，即，将通过使用自动编码器样式网络来压缩的偏移图。然后我们通过使用可变形的卷积来执行运动补偿并生成预测特征。之后，从我们可变形补偿模块中压缩来自当前帧的特征和预测特征之间的残差特征。为了更好的帧重建，通过在多帧特征融合模块中使用非本地注意机制，还融合了来自多个先前重建帧的参考功能。综合实验结果表明，所提出的框架在包括HEVC，UVG，VTL和MCL JCV的四个基准数据集中实现了最先进的性能。

Medical Image Segmentation using Squeeze-and-Expansion Transformers
Authors Shaohua Li, Xiuchao Sui, Xiangde Luo, Xinxing Xu, Yong Liu, Rick Siow Mong Goh
医学图像分割对于计算机辅助诊断非常重要。良好的分割要求模型同时查看大图片和细节，即学习包含大脑的图像功能，同时保持高空间分辨率。要接近此目标，最广泛使用的方法U NET和VELIANTS，提取和保险丝多尺度特征。然而，融合功能仍然具有小的有效接收领域，其专注于本地图像提示，限制了它们的性能。在这项工作中，我们提出了一种基于变压器的替代分割框架，即使在高特征分辨率下也具有无限的有效接收领域。 Segtran的核心是一种新型挤压和膨胀变压器，挤压的注意力块正规化变形金刚的自我注意，并且扩展块学习多样化的表示。此外，我们提出了一种用于变压器的新位置编码方案，对图像进行连续性感应偏差。对2D和3D医学图像分割任务进行了实验，在眼底图像避难20挑战中，在结肠镜检查中息肉分段，MRI中的脑肿瘤分割在MRI扫描Brats 19挑战中的脑肿瘤分割。与代表现有方法相比，SEGTRAN始终如一地实现了最高的分割精度，并表现出良好的跨域泛化能力。

Classifying concepts via visual properties
Authors Fausto Giunchiglia, Mayukh Bagchi
我们假设世界上的物质由两种类型的概念，即物质概念和分类概念，前者对视觉感知的仪器，后者基于语言的分类。基于这种区别，我们向建立物质概念的lexico语义层次进行构建的一般方法，其中节点用媒体，例如视频或照片，从中提取物质概念，并且与相应的分类概念相关联。该方法基于Ranganathan S原始刻面方法，对分类物质概念的问题为基础。关键新颖性是层次结构建立利用物质概念的视觉属性，而分类概念的语言定义属性仅用于描述物质概念。通过提供持续的项目的一些亮点来举例说明了该方法的有效性，其目标是构建大规模多媒体多语言概念层次结构。

Heterogeneous Contrastive Learning
Authors Lecheng Zheng, Yada Zhu, Jingrui He, Jinjun Xiong
随着多种高影响应用的大数据的出现，我们往往面临复杂异质性的挑战。新收集的数据通常由多种模式组成，并具有多个标签，从而表现出多种异质性的CO存在。尽管最先进的技术良好地利用足够的标签信息建模复杂的异质性，但是这种标签信息可以在实际应用中获得昂贵，从而使用这些技术导致副最佳性能。通过对比学习的能力来利用丰富的未标记数据来提高性能，提出了一个统一的异构学习框架，它将加权无监督的对比损失和加权监督对比损失相结合，以模型多种类型的异质性。我们还提供了理论分析，表明所提出的加权监督对比损失是来自同一类别的两个样本的互信息的下限，加权无监督的对比损失是隐藏的两个视图的隐藏表示之间的互信息的下限相同的样本。真实世界数据集的实验结果证明了所提出的方法模拟多种类型异质性的效果和效率。

Robust partial Fourier reconstruction for diffusion-weighted imaging using a recurrent convolutional neural network
Authors Fasil Gadjimuradov, Thomas Benkert, Marcel Dominik Nickel, Andreas Maier
目的，开发一种适用于具有非平滑相变的扩散加权DW图像的鲁棒部分傅立叶PF重建算法。

VOILA: Visual-Observation-Only Imitation Learning for Autonomous Navigation
Authors Haresh Karnan, Garrett Warnell, Xuesu Xiao, Peter Stone
虽然对Vision基于视觉的自主移动机器人导航的模仿学习最近在研究界中受到了大量的关注，但现有方法通常需要使用部署平台收集的状态行动演示。但是，如果一个人不能轻易装配他们的平台，以记录这些演示信号或更糟糕的情况，证明者无法访问平台，这一切都是模仿的基于视觉的自主导航，在这种情况下，我们假设了答案是肯定的，从观察观察IFO文献中的模仿最近的想法可以被带走，使得机器人可以学会仅使用演示者收集的自我视频视频，即使在存在的观点错配的情况下也可以使用。为此，我们介绍了一种新的算法，视觉观察只有自主导航Voila的模仿学习，可以成功地从物理上不同的代理收集的单个视频演示中学习导航政策。我们评估了光电型Airsim模拟器中的Voila，并表明Voila不仅成功模仿专家，而且它还学习可以概括为新颖环境的导航政策。此外，我们展示了Voila在现实世界环境中的有效性，通过表明它允许轮式豺狼机器人在使用使用手机摄像机记录的视频中成功模仿环境中的人类行走。

Exploring The Limits Of Data Augmentation For Retinal Vessel Segmentation
Authors Enes Sadi Uysal, M. afak Bilici, B. Selin Zaza, M. Yi it zgen , Onur Boyar
视网膜血管分割对于诊断各种疾病是重要的。视网膜血管分割的研究主要侧重于改善通常基于U NET架构的分割模型。在我们的研究中，我们使用U NET架构，我们依靠沉重的数据增强来实现更好的性能。数据增强的成功依赖于成功解决输入图像的问题。通过分析输入图像并相应地执行增强，我们表明U净模型的性能可以大大提高。报告了使用最广泛使用的视网膜数据集，驱动器。

Generative Adversarial Neural Architecture Search
Authors Seyed Saeed Changiz Rezaei, Fred X. Han, Di Niu, Mohammad Salameh, Keith Mills, Shuo Lian, Wei Lu, Shangling Jui
尽管神经结构神经结构搜索NAS在深度学习应用中，但NAS计划的最优性，再现性和成本仍然很难评估。在本文中，我们提出了具有理论上可提供的收敛保证的生成对抗性NAS NAS，促进神经结构搜索中的稳定性和再现性。受到重要性采样的启发，GA NAS迭代地适合先前发现的顶级架构的发电机，从而越来越关注大搜索空间的重要部分。此外，我们提出了一种有效的对抗性学习方法，其中通过基于由鉴别器提供的奖励来训练发电机，从而能够探索搜索空间而不评估大量架构。广泛的实验表明，GA NAS在三个公共NAS基准的几个案例下击败了最佳发布结果。同时，GA NAS可以处理ad hoc搜索约束和搜索空间。我们表明GA NAS可用于改进其他NAS方法的已优化的基线，包括在原始搜索空间中的想象品准确性或参数数量方面的有效网络和Proxyness。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页