【AI视野·今日CV 计算机视觉论文速览第205期】

本文链接：https://blog.csdn.net/u014636245/article/details/117266632

AI视野·今日CS.CV 计算机视觉论文速览
Tue, 25 May 2021
Totally 85 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Computer Vision Papers

SAT: 2D Semantics Assisted Training for 3D Visual Grounding
Authors Zhengyuan Yang, Songyang Zhang, Liwei Wang, Jiebo Luo
3D视觉接地旨在接地有关3D场景的自然语言描述，通常以3D点云的形式表示到目标对象区域。点云稀疏，嘈杂，与2D图像相比，包含有限的语义信息。这些固有的局限性使得3D视觉接地问题更具挑战性。在这项研究中，我们提出了2D语义辅助训练SAT，它在训练阶段使用2D图像语义来缓解点云语言联合表示学习和协助3D视觉接地。主要思想是学习丰富，清洁的2D对象表示和3D场景中的相应对象或提到的实体之间的辅助对齐。 SAT采用2D对象语义，即对象标签，图像功能和2D几何特征，作为训练中的额外输入，但在推理期间不需要这样的输入。通过在培训中有效利用2D语义，我们的方法可以从37.7到49.2增加NR3D数据集的准确性，这与相同的网络架构和推理输入显着超越了非SAT基线。我们的方法在多个3D视觉接地数据集上的大边缘方面优于现有技术，即10.4在NR3D，9.9上的SR3D上的绝对精度，5.6扫描静电。

luvHarris: A Practical Corner Detector for Event-cameras
Authors Arren Glover, Aiko Dinale, Leandro De Souza Rosa, Simeon Bamford, Chiara Bartolozzi
在过去几年中有许多用于活动摄像机的角度检测方法，因为事件驱动的计算机视觉变得更加可访问。当考虑实际使用随机运动时，本领域的当前状态具有不令人满意的准确度或实时性能，在不受约束的环境中使用直立摄像机进行实际使用随机运动。在本文中，我们提供了另一种执行角落检测的方法，称为Event Harris Luvharris，它采用了高精度的Harris算法，但管理了改进的事件吞吐量。我们的方法具有两个主要贡献，1.一种新的阈值序数事件表面，可去除某些调谐参数，非常适合哈里斯操作，并且非常适合Harris算法，使得每个事件的计算负荷最小化和计算重卷曲仅尽可能快地执行，即仅作为计算资源可用。结果是实用，实时和强大的角探测器，当实时使用高分辨率事件摄像机时，本领域的当前状态的速度超过2.6倍。我们解释了对方法所采取的考虑，将算法与计算性能和检测准确性的当前技术进行比较，并讨论了事件摄像机所提出的方法的有效性。

Attention-guided Temporal Coherent Video Object Matting
Authors Yunke Zhang, Chi Wang, Miaomiao Cui, Peiran Ren, Xuansong Xie, Xian sheng Hua, Hujun Bao, Qixing Huang, Weiwei Xu
本文提出了一种新的基于深度学习的视频对象消光方法，可以实现时间相干的消光结果。其关键组件是一种基于关注的时间聚合模块，可最大化视频消光网络的视频消光网络。该模块沿着特征空间中的时间轴彼此相邻的像素的时间相关性，以防止运动噪声。我们还设计了一种新的损失术语来培养注意力，这夸大地提高了视频消光性能。此外，我们展示了如何通过精细调整具有稀疏用户注释的关键帧的稀疏集的视频对象分割网络的状态来有效解决Trimap生成问题。为方便视频消光和Trimap生成网络培训，我们构建了一个带有80个培训和28个验证前景视频剪辑的大型视频消光数据集，具有地面真理alpha锍。实验结果表明，我们的方法可以为各种视频产生高质量的alpha遮罩，其具有外观变化，闭塞和快速运动。可以找到我们的代码和数据集

Multi-Level Attentive Convoluntional Neural Network for Crowd Counting
Authors Mengxiao Tian, Hao Guo, Chengjiang Long
最近，人群计数得到了越来越多的关注。特别是高密度环境技术已成为重要的研究内容，以及存在极其密集的人群的相关方法并不是最佳的。在本文中，我们提出了一个多级关注卷积神经网络Mlattncnn用于人群计数。我们提取具有在池中应用的多个不同尺度的高电平上下文信息，并使用多级注意模块来丰富不同层的特性，以实现更有效的多尺度特征融合，可以用于生成更准确的密度图扩张的卷曲和1次1卷积。三种可用公共数据集的广泛实验表明，我们的拟议网络达到了对现有技术的表现。

Large-Scale Attribute-Object Compositions
Authors Filip Radenovic, Animesh Sinha, Albert Gordo, Tamara Berg, Dhruv Mahajan
我们研究了学习如何预测来自图像的属性对象组合物的问题，以及其概述从训练数据中缺失的看不见的组合物的概念。据我们所知，这是对这个问题的第一个大规模研究，涉及数十万种成分。我们使用Hasthtags从Instagram训练我们的框架与Instagram的图像嘈杂的弱势监督。我们对数据收集和建模进行仔细设计选择，以处理嘈杂的注释和看不见的组合物。最后，广泛的评估表明，学习撰写分类器优于各个属性和对象预测的晚期融合，尤其是在unseN属性对象对的情况下。

Dynamic region proposal networks for semantic segmentation in automated glaucoma screening
Authors Shivam Shah, Nikhil Kasukurthi, Harshit Pande
通过眼底图像筛选诊断青光眼的诊断可以由光学杯确定到盘直径比CDR，这需要杯子和盘区域的分割。在本文中，我们提出了两种新方法，即基于利息模型的参数共享分支网络PSBN和Weak区域，用于识别光盘和杯边界。与以前的方法不同，所提出的方法训练通过单个神经网络架构结束，并使用动态裁剪而不是手动或传统计算机视觉的裁剪。我们能够实现类似的性能，作为现有技术的状态，具有较少数量的网络参数。我们的实验包括在公开的DRISHTI GS1和RIM一V3数据集中与不同已知方法的比较。对于7.8倍10 6个参数，我们的方法在DRISHTI GS1数据上实现了0.96 0.89的骰子得分为0.96 0.89，而现有技术的现有状态使用19.8倍10 6个参数，以实现0.97 0.89的骰子得分。

Reconstructing Small 3D Objects in front of a Textured Background
Authors Petr Hruby, Tomas Pajdla
我们介绍了一种在纹理背景前移动的小物体的完整三维重建技术。它是来自运动的多体结构的特殊变化，其专门仅仅占用两个对象。在多个静态配置中捕获场景，其中两个对象的相对姿势可以改变。我们单独重建每个静态配置，并通过查找捕获场景S其他配置的多个摄像机姿势来分割本地的点。然后，组合局部分段结果，并且将重建合并到场景的所得模型中。在实验与真实工件的实验中，我们表明我们的方法在从各个方面重建3D物体时具有实际优势。在此设置中，我们的方法优于现有技术。我们将我们的方法整合到最先进的3D重建管道Colmap。

Multi-modal Understanding and Generation for Medical Images and Text via Vision-Language Pre-Training
Authors Jong Hak Moon, Hyungyung Lee, Woncheol Shin, Edward Choi
最近，许多研究表明，在多样化的视觉语言多模态任务上表现出令人印象深刻的性能，例如通过将BERT架构扩展具有多模态预培训目标的BERT架构，如图像标题和视觉问题。在这项工作中，我们探索了一组广泛的多模态表示学习任务，特别是使用放射学图像和非结构化报告。我们提出了医疗视觉语言学习者MEDVILL，采用基于变压器的架构与新的多模式关注掩蔽方案相结合，以最大化视觉语言的泛化性能，了解任务图像报告检索，疾病分类，医学视觉问题，医学答案应答和视力语言生成任务报告。通过严格评估具有两个胸部X射线图像数据集的四个下游任务的所提出的模型模拟CXR并打开I，我们经验证明了Medvill对各种基线的优越下游任务性能，包括特定的特定架构。

Real-time Human Action Recognition Using Locally Aggregated Kinematic-Guided Skeletonlet and Supervised Hashing-by-Analysis Model
Authors Bin Sun, Dehui Kong, Shaofan Wang, Lichun Wang, Baocai Yin
3D动作识别被称为由3D骨架关节组成的动作序列的分类。虽然许多研究工作致力于3D动作识别，但它主要遭受三个问题，高度复杂的阐明，噪音大量且实现效率低。为了解决所有这些问题，我们通过通过分析SHA模型集成具有监督散列的本地聚合的运动引导骨架LAK来提出实时3D动作识别框架。我们首先将骨架线定义为在运动原理中分组的关节偏移的少数组合，然后表示使用LAKS的动作序列，其由去噪相和局部聚集相。去噪阶段通过将其内部的所有特征与相应的前一帧的特征替换它来检测到噪声行动数据，而局部聚合相位将骨架的偏移特征及其集群中心的差值与所有相同序列的偏移功能。最后，使用散列模型结合稀疏表示的SHA模型，旨在促进识别精度，同时保持高效率。 Msraction3D，Utkinectaction3D和Florence3daction Datasets的实验结果表明，所提出的方法在识别准确度和实施效率下占据了现有技术的状态。

LineCounter: Learning Handwritten Text Line Segmentation by Counting
Authors Deng Li, Yue Wu, Yicong Zhou
手写文本线段分割HTLS是一个低级但重要的任务，但对于手写文本识别等许多更高级别的文档处理任务。它通常在深度学习中的语义分割或物体检测方面配制。然而，两种配方都有严重的缺点。前者需要重型后处理分裂合并相邻段，而后者可能在密集或弯曲的文本上失败。在本文中，我们提出了一种新的线路计数的HTL，其涉及在每个像素位置计算从顶部的文本线的数量。该配方有助于学习结束到结束HTLS解决方案，该解决方案直接预测给定文档图像的每个像素线号。此外，我们提出了一个深度神经网络DNN模型线索，以通过线路计数配方执行HTL。我们在三个公共数据集ICDAR2013 HSC，命中MW和VML AHTE上进行了广泛的实验，证明了LINECounter优于最先进的HTLS方法。源代码可用

WSSOD: A New Pipeline for Weakly- and Semi-Supervised Object Detection
Authors Shijie Fang, Yuhang Cao, Xinjiang Wang, Kai Chen, Dahua Lin, Wayne Zhang
对象检测的性能在很大程度上取决于大的注释数据集的可用性。为了减轻注释成本，研究界已经探索了许多方法来利用未标记或弱标记的数据。然而，到目前为止，这种努力已经达到了有限的成功。在这项工作中，我们通过务实的立场重新审视问题，试图通过共同利用完全和弱助的数据来探索检测性能和注释成本之间的新平衡。具体地，我们提出了一种弱和半监督的对象检测框架WSSOD，其涉及两级学习过程。首先在关节数据集上训练代理检测器，然后用于预测弱写图像上的伪边界框。在统一的EM配方下还仔细检查了当前和常见半监督管道的基本假设。在本框架之上，引入了弱监督亏损WSL，标签关注和随机伪标签采样RPS策略以放宽这些假设，从而提高检测管道的功效。拟议的框架在Pascal VOC和MSCOCO基准上表现出显着的性能，实现了与完全监督设置中获得的高性能相当，只有三分之一的注释。

What is the State of the Art of Computer Vision-Assisted Cytology? A Systematic Literature Review
Authors Andr Vict ria Matias, Jo o Gustavo Atkinson Amorim, Luiz Antonio Buschetto Macarini, Allan Cerentini, Alexandre Sherlley Casimiro Onofre, Fabiana Botelho de Miranda Onofre, Felipe Perozzo Dalto , Marcelo Ricardo Stemmer, Aldo von Wangenheim
细胞学是一种低成本和非侵入性诊断程序，用于支持广泛的病理学的诊断。计算机视觉技术，通过自动产生考试内容的定量和客观描述，可以帮助最小化误诊的机会，并缩短分析所需的时间。为了确定目前应用于细胞学的计算机视觉技术的艺术状态，我们进行了系统的文献综述。我们分析了过去5年的论文。初始搜索是在2020年9月执行的，导致了431篇文章。申请包含排除标准后，仍然存在157篇论文，我们分析了建立了该研究区域中存在的趋势和问题的图片，突出了计算机视觉方法，染色技术，评估指标以及所使用的数据集和计算机的可用性代码。因此，我们确定分析的作品中最常用的方法是基于深度学习的70篇论文，而作业较少使用经典计算机视觉仅为101篇论文。用于分类和物体检测的最新度量是准确性33篇论文和5篇论文，而用于分割是骰子相似系数38纸。关于染色技术，Papanicolaou是最多的一个130篇论文，其次是H E 20纸和Feulgen 5纸。论文中使用的数据集是公开可用，DTU Herlev数据集是最使用的。我们得出结论，许多类型的污渍仍然缺乏高质量的数据集，并且大多数作品不足以适用于日常临床诊断程序。我们还确定了采用基于深度学习的方法的日益增长的趋势，作为选择方法。

SiamRCR: Reciprocal Classification and Regression for Visual Object Tracking
Authors Jinlong Peng, Zhengkai Jiang, Yueyang Gu, Yang Wu, Yabiao Wang, Ying Tai, Chengjie Wang, Weiyao Lin
最近，基于暹罗网络的跟踪器通过对象分类和边界框回归定位目标。通常，它们选择具有最大分类信心的边界框作为最终预测。由于分类和回归之间的准确性未对准，此策略可能会错过正确的结果。在本文中，我们提出了一种名为SIAMRCR的新型暹罗跟踪算法，解决了这个问题，解决了一个简单，轻盈有效的解决方案。它在分类和回归分支之间构建互易链路，这可以动态地重量每个正样品的损耗。此外，我们添加了本地化分支以预测本地化精度，使其可以在推理期间替换回归辅助链路。这个分支使训练和推论更加一致。广泛的实验结果表明，SIAMRCR的有效性及其在艺术竞争对手的优势上获得10K，LASOT，TrackNet，OTB 2015，VOT 2018和VOT 2019。此外，我们的SIAMRCR在65 FPS上运行，远远超过实时要求。

Towards Compact CNNs via Collaborative Compression
Authors Yuchao Li, Shaohui Lin, Jianzhuang Liu, Qixiang Ye, Mengdi Wang, Fei Chao, Fan Yang, Jincheng Ma, Qi Tian, Rongrong Ji
渠道修剪和张量分解在卷积神经网络压缩中受到广泛的关注。然而，这两种技术传统上以隔离的方式部署，导致追求高压缩率时的显着精度下降。在本文中，我们提出了一种协同压缩CC方案，该方案是通过同时学习模型稀疏性和低排名来压缩通道修剪和张量分解。具体地，我们首先研究网络中每层的压缩敏感性，然后提出将压缩率的决策问题转换为优化问题的全局压缩率优化。之后，我们提出了多步启发式压缩以逐步去除冗余压缩单元，这完全考虑了剩余压缩空间的效果，即，未引用的压缩单元。我们的方法在各种数据集和骨干架构上展示了以前的卓越性能。例如，我们通过在Reset 50上删除48.4参数来达到52.9拖鞋，只有在ImageNet 2012上的前1个精度下降0.56级。

Mapping oil palm density at country scale: An active learning approach
Authors Andr s C. Rodr guez, Stefano D Aronco, Konrad Schindler, Jan D.Wegner
精确的油棕映射对于了解其过去和对环境的影响很重要。我们建议通过估计每像素的树密度来映射和计数油手掌以进行大规模分析。这允许细粒度分析，例如关于不同种植模式。为此，我们提出了一种新的，积极的深度学习方法，以估算来自Sentinel 2卫星图像的大规模油棕密度，并将其应用于马来西亚和印度尼西亚的完整地图。是什么让油棕密度具有挑战性的回归是需要代表性的参考数据，这些数据涵盖了一个大领土的所有相关地理条件。专门用于密度估计，生成参考数据涉及计数各个树。为了保持相关的标签努力，我们提出了一种活跃的学习AL方法，它可以自动选择要标记的最相关的样本。我们的方法依赖于对象的认识模型的估计和样品之间的多样性，使得可以在单一迭代中检索整个相关样本。此外，我们的算法具有线性计算复杂性，并且易于覆盖大区域。我们使用我们的方法来计算10，M个地面采样距离GSD的第一个油棕密度图，所有印度尼西亚和马来西亚以及两年不同的几年，2017年和2019年。地图具有PM 7.3树木的平均绝对误差，从一个独立的验证集中估计。我们还分析了一个国家内不同国家之间的密度变化，并将其与官方估计进行比较。根据我们的估计，印度尼西亚的总共有12亿美元的油手掌，占地1500万公顷，马来西亚的0.5亿油棕榈手覆盖600万公顷。

Human-centric Relation Segmentation: Dataset and Solution
Authors Si Liu, Zitian Wang, Yulu Gao, Lejian Ren, Yue Liao, Guanghui Ren, Bo Li, Shuicheng Yan
愿景和语言理解技术取得了显着的进展，但目前仍然很难处理涉及非常细粒度细节的问题。例如，当机器人被告知将我带到女孩的左手中时，大多数现有方法都会失败，如果女孩分别在她的左手和右手握上一本书。在这项工作中，我们介绍了一个名为人类的关系分割HRS的新任务，作为Hoi Det的细粒度案例。 HRS旨在预测人类和周围实体之间的关系，并确定与像素级掩模的关系相关的人体部位。对于上述示例性案例，我们的HRS任务产生了与书籍的关系三胞胎女孩的形式产生的结果，该书和预订的书籍和精确分割面罩，机器人可以轻松完成抓取任务。相应地，我们在上下文PIC数据集中收集一个新的人，其中包含17,122个高分辨率图像和密集的注释实体分段和关系，包括141个对象类别，23个关系类别和25个语义人物。我们还提出了一个同时匹配和分段SMS框架作为HRS任务的解决方案。我的三个分支的输出融合以产生最终的HRS结果。关于PIC和V COCO数据集的广泛实验表明，所提出的SMS方法优于36个FPS推理速度的基线。

Out-of-Distribution Detection in Dermatology using Input Perturbation and Subset Scanning
Authors Hannah Kim, Girmaw Abebe Tadesse, Celia Cintas, Skyler Speakman, Kush Varshney
深度学习的最新进展导致自动化皮肤病分类的发展突破。当我们在皮肤科空间中观察到这些模型的越来越兴趣时，对解决输入数据分布偏移的鲁棒性等方面至关重要。目前的皮肤病模型可以对来自不同硬件设备和临床环境或未知疾病样本的测试样本进行不正确的推论，这些样本是从训练中出于分配的分配

Face Anonymization by Manipulating Decoupled Identity Representation
Authors Tianxiang Ma, Dongze Li, Wei Wang, Jing Dong
近年来，对人类生物学信息的隐私保护越来越受到关注，其中面对匿名化起着重要作用。我们提出了一种新的方法，可以通过丝毫修改来保护面部图像的身份信息免受泄漏。具体而言，我们从其他面部属性解开身份表示，利用在条件多尺度重建CMR损失和身份损失上培训的生成对抗网络的力量。我们迈出了我们模型的解散能力，并提出了一种有效的身份匿名方法，即匿名标识生成AIG，以达到面对匿名化的目标，同时尽可能地维持与原始图像的相似性。定量和定性结果证明了我们的方法S优势与SOTAS在视觉质量和匿名化成功率上。

Unsupervised Video Summarization with a Convolutional Attentive Adversarial Network
Authors Guoqiang Liang, Yanbing Lv, Shucheng Li, Shizhou Zhang, Yanning Zhang
随着视频数据的爆炸性增长，视频摘要，试图寻求最低帧的镜架子集，同时仍然传达主要故事，已成为最热门的主题之一。如今，受到监督学习技巧的大量成就，特别是在深度学习的出现之后。但是，为大规模视频数据集收集人类注释非常昂贵且难以收集。为了解决这个问题，我们提出了一个卷积的细心对抗网络CAAN，其关键的想法是以无人监督的方式建立一个深厚的摘要。在生成的对抗网络上，我们的整体框架包括发电机和鉴别者。前者预测视频的所有帧的重要性分数，而后者试图将分数加权帧特征区分开于原始帧特征。具体地，发电机采用完全卷积的序列网络来提取视频的全局表示，并基于注意的网络以输出归一化重要评分。要了解参数，我们的客观函数由三个损耗功能组成，可以指导帧级重要评分预测。为了验证这一提出的方法，我们对两台公共基准峰会和TVSUM进行了广泛的实验。结果表明，我们提出的方法对抗其他艺术艺术态度无监督的方法的优势。我们的方法甚至优于一些公布的监督方法。

A Fourier-based Framework for Domain Generalization
Authors Qinwei Xu, Ruipeng Zhang, Ya Zhang, Yanfeng Wang, Qi Tian
当在从训练数据下的不同分布下的测试数据进行评估时，现代深度神经网络遭受性能劣化。域泛化旨在通过学习来自多个源域的可转让知识来解决这个问题，以概括到看不见的目标域。本文介绍了一种基于域泛化的新型傅立叶视角。主要假设是傅立叶阶段信息包含高级语义，不容易受到域移位的影响。为了迫使模型捕获相位信息，我们开发一种名为幅度混合的新型傅里叶的数据增强策略，其在两个图像的幅度频谱之间线性地插值。在原始和增强图像引起的预测之间进一步引入了称为CO教师正则化的双重成型一致性损失。三个基准测试的广泛实验表明，该方法能够实现域泛化的技术性能的状态。

Dynamic Class Queue for Large Scale Face Recognition In the Wild
Authors Bi Li, Teng Xi, Gang Zhang, Haocheng Feng, Junyu Han, Jingtuo Liu, Errui Ding, Wenyu Liu
使用野外大规模面部数据集学习歧视性表示对于现实世界应用至关重要，但它仍然具有挑战性。在许多方面和这项工作中的困难侧重于计算资源限制和长尾类分布。最近，基于分类的具有深度神经网络和精心设计的损失的代表学习已经表现出良好的识别性能。然而，计算和内存成本线性地缩放到训练集中的身份类别，并且学习过程遭受不平衡类。在这项工作中，我们提出了一种动态类队列DCQ来解决这两个问题。具体地，对于训练期间的每次迭代，动态地选择用于识别的类的子集，并且它们的类重量在存储在队列中的飞行上动态生成。由于仅为每次迭代选择类的子集，因此计算要求减少。通过使用没有模型的单个服务器并行，我们在大规模数据集中经验验证，其中10个类足以实现与所有类相似的性能。此外，类重量以几次拍摄的方式动态生成，因此只适用于只有几个情况的尾部类。我们在最大的公共数据集Megaface挑战2 MF2中显示出明确的基准改进，其中有672克的身份，其中88岁以上的情况下不到10个。代码可用

Oriented RepPoints for Aerial Object Detection
Authors Wentong Li, Jianke Zhu
与面向定向的边界框相反，点设定表示具有巨大的潜力，可以捕获具有任意取向，大宽高比和在航拍图像中的密集分布的情况的详细结构。然而，基于传统的点集的方法使用指向点监控的固定位置手工制作，这损害了它们对细粒特征提取的灵活性。为了解决这些限制，在本文中，我们提出了一种新颖的空中物体检测方法，命名为导向的检测点。具体地，我们建议使用一组自适应点来捕获任意定向对象的几何和空间信息，其能够在空间和语义场景中自动安排在对象上。为了促进监督学习，提出了面向的转换函数，将自适应点映射到面向定向框中。此外，我们介绍了有效的质量评估措施，以选择用于训练的点设置样本，这可以选择关于它们对定向对象检测的潜力的代表性项目。此外，我们建议一个空间约束来惩罚地面真相边界框外的异常点。除了重叠的传统评价公制地图外，我们提出了一种新的公制MaoE来测量在先前的面向对象检测的研究中通常被忽略的定向精度。在包括DOTA，HRSC2016和UCAS AOD的三个广泛使用的数据集上的实验证明了我们所提出的方法是有效的。

FineAction: A Fined Video Dataset for Temporal Action Localization
Authors Yi Liu, Limin Wang, Xiao Ma, Yali Wang, Yu Qiao
在现有的基准数据集，Thumos14和ActivityNet上，时间动作本地化技术取得了巨大的成功。但是，仍然存在一些问题，例如动作的来源太单，只有在Thumos14中的体育类别，粗糙的情况，具有不确定的界限，在活动网络和HACS段干扰提案生成和行为预测。要将时间行动本地化到一个新的水平，我们开发FineAction，一个从现有视频数据集和Web视频收集的新型大规模罚款视频数据集。总的来说，此数据集包含139K罚款动作实例，密集地注释了跨越106个动作类别的几乎17K未经监视的视频。 FineAction在与现有的行动定位数据集相比，对行动类别和高质量注释具有更高的行动类别和高质量注释的定义，以减少边界不确定性。我们系统地调查我们的数据集上的时间行动定位的代表性方法，并通过进一步的分析获得一些有趣的结果。实验结果表明，我们的FineAction为持续时间缩短的罚款和多标签实例的行动定位带来了新的挑战。该数据集将于未来公开，我们希望我们的FineAction可以推进临时行动本地化的研究。我们的数据集网站是在

Towards Book Cover Design via Layout Graphs
Authors Wensheng Zhang, Yan Zheng, Taiga Miyazono, Seiichi Uchida, Brian Kenji Iwana
书籍封面是有意设计和提供书籍的介绍。但是，它们通常需要专业技能来设计和生产封面图像。因此，我们提出了一种生成的神经网络，可以基于易于使用的布局图生产书籍封面。布局图包含文本，自然场景对象和纯色空间等对象。使用图形卷积神经网络嵌入了该布局图，然后与掩模提示发生器和边界盒发生器一起使用并使用对象提出发生器填充。接下来，将对象被编译成单个图像，并且使用对手训练，感知训练和重建的组合进行整个网络。最后，使用样式保留网络SRNET将学习的字体样式传输到所需的文本上。使用所提出的方法允许易于控制和独特的书籍封面。

Recent Advances and Trends in Multimodal Deep Learning: A Review
Authors Jabeen Summaira, Xi Li, Amin Muhammad Shoib, Songyuan Li, Jabbar Abdul
深度学习实施了广泛的应用，近年来越来越受欢迎。多模式深度学习的目标是创建可以使用各种方式处理和链接信息的模型。尽管为单峰学习提供了广泛的发展，但它仍然无法涵盖人类学习的所有方面。当各种感官从事信息处理时，多式化学习有助于理解和分析更好。本文侧重于多种类型的模态，即图像，视频，文本，音频，身体手势，面部表情和生理信号。已经提供了对过去和当前基线方法的详细分析，并提供了多模式深度学习应用最近进步的深入研究。提出了各种多模式深度学习应用的细粒度分类，在更深入的情况下阐述了不同的应用。还讨论了这些应用程序中使用的架构和数据集，以及其评估指标。最后，主要问题是为每个领域分开突出显示的，以及可能的未来研究方向。

Taylor saves for later: disentanglement for video prediction using Taylor representation
Authors Ting Pan, Zhuqing Jiang, Jianan Han, Shiping Wen, Aidong Men, Haiying Wang
视频预测是一种具有挑战性的任务，具有气象和机器人系统中的广泛应用前景。现有工程未能缩短短期和长期预测性能，并在视频帧中提取强大的潜在动力学定律。我们向SEQ深度模型提出了两个分支机构的SEQ深度模型，以解散泰勒特征和通过新型复发预测模块Taylorcell和残余模块在视频帧中的残余功能。 Taylorcell可以将视频框架高尺寸特征扩展到有限泰勒系列以描述潜在的法律。在Taylorcell，我们提出了泰勒预测单元TPU和存储器校正单元MCU。 TPU采用第一个输入帧的衍生物信息来预测未来的帧，避免误差累积。 MCU蒸馏所有过去的帧信息以纠正TPU的预测泰勒特色。相应地，残余模块提取与泰勒特征互补的残余功能。在三个通用数据集上移动Mnist，Taxibj，人体3.6，我们的模型优于或达到最先进的模型，消融实验表明了我们在长期预测中的模型的有效性。

High-level camera-LiDAR fusion for 3D object detection with machine learning
Authors Gustavo A. Salazar Gomez, Miguel A. Saavedra Ruiz, Victor A. Romero Cano
本文解决了3D对象检测问题，对自动驾驶等应用至关重要。我们的框架在单眼相机和LIDAR数据的组合中使用机器学习ML管道，以检测移动平台周围的3D空间中的车辆。它使用由ART SOTA 2D对象检测器的状态生成的截图区域提案，将LIDAR点云分段为代表潜在的单个对象的点簇。我们评估古典ML算法作为整体管道的一部分的性能，用于估计围绕移动平台围绕车辆的3D边界盒的参数。我们的结果证明了验证集的高效和准确推断，实现了87.1的整体准确性。

Deep Visual Anomaly detection with Negative Learning
Authors Jin Ha Lee, Marcella Astrid, Muhammad Zaigham Zaheer, Seung Ik Lee
随着基于深度卷积的架构的学习能力的增加，随着时间的推移，已经提出了这些模型的各种应用。在异常检测领域，深度学习的改善为试图自动化数据收集的劳动密集型特征的研究人员开辟了新的探索前景。首先，就数据收集而言，不可能预测在给定环境中可能存在的所有异常。其次，假设我们限制了异常的可能性，因此仍然很难记录所有这些方案，以便培训模型。第三，即使我们设法录制大量的异常数据，也很费力地向像素或甚至帧级别注释这个数据。通过使用仅在普通数据训练的生成模型提出一类分类，各种方法解决了问题。在这些方法中，仅使用正常数据，这是丰富的可用，并且不需要大量的人体输入。但是，这些训练只有正常数据，并且在测试时间，给出作为输入的异常数据，可能经常会产生正常的输出。这是由于生成模型的幻觉特性导致的。接下来，这些系统旨在在训练期间不使用异常示例。在本文中，我们向负面学习ADNL提出异常检测，其利用训练期间与正常数据相比使用非常少量标记的异常数据来增强异常检测的负面学习概念。该思想是利用给定的少量异常实施例限制生成模型的重建能力。这样，网络不仅要学习重建正常数据，还包括远离异常的可能分布的正常分布。

Multi-Type-TD-TSR -- Extracting Tables from Document Images using a Multi-stage Pipeline for Table Detection and Table Structure Recognition: from OCR to Structured Table Representations
Authors Pascal Fischer, Alen Smajic, Alexander Mehler, Giuseppe Abrami
随着全球趋势正在转向数据驱动产业，可以将扫描文档的数字图像转换为机器可读信息的自动化算法的需求快速增长。除了用于应用数据分析工具的数据数字化的机会之外，还对过程的自动化也有大量的改进，前面需要手动检查文件。虽然光学字符识别技术的引入大多解决了将人类可读字符从图像转换为机器可读字符的任务，但在多年来，提取表语义的任务较小。表格的识别包括两个主要任务，即表检测和表结构识别。大多数关于此问题的事先工作都侧重于任一任务，而无需提供结束到端解决方案或者注意对文档图像内的旋转图像或噪声假物等实际应用条件。最近的工作表明，由于缺乏足够大的数据集，使用转移学习耦合的深度学习方法的明确趋势。在本文中，我们提出了一个名为Multi型TD TSR的多级流水线，其为表识别问题提供了一个端到端解决方案。它利用了表检测的艺术深度学习模型的状态，并基于表边框在3种不同类型的表之间进行区分。对于表结构识别，我们使用确定的非数据驱动算法，它适用于所有表类型。我们还提供了两个算法。一个用于非挂牌表，一个用于边界表，这是二手表结构识别算法的基础。我们在ICDAR 2019表结构识别数据集上评估多型TD TSR并实现新技术。

Revisiting 2D Convolutional Neural Networks for Graph-based Applications
Authors Yecheng Lyu, Xinming Huang, Ziming Zhang
图表卷积网络GCNS广泛用于基于图类的应用程序，例如图形分类和分割。然而，由于其不规则输入，当前的GCNS对诸如网络架构的实施的限制。相比之下，卷积神经网络CNN能够从大规模输入数据中提取丰富的功能，但它们不支持一般图输入。为了弥合GCN和CNNS之间的差距，在本文中，我们研究了如何有效和有效地将一般图映射到2D网格的问题，即CNN可以直接应用于，同时尽可能地保留图形拓扑。因此，我们向网格映射方案提出了两种新图形，即EM图保留了网格布局GPGL及其扩展EM分层GPGL H GPGL，用于计算效率。我们将GPGL问题作为整数编程制定，并进一步提出了一种基于惩罚的KAMADA KAWAI方法，在2D图绘制中的众所周知的优化算法，提出了近似且高效的求解器。我们提出了一种新颖的顶点分离惩罚，鼓励图形顶点铺设在网格上而没有任何重叠。随着此图像表示，即使是额外的2D MaxPooling层也有助于PointNet，这是一种基于广泛应用的基于点的神经网络。我们展示了GPGL对一般图表分类的经验成功，基于带有大图的3D点云分割，基于2D CNN，包括VGG16，RENET50和多尺度MAXOUT MSM CNN。

Heuristic Weakly Supervised 3D Human Pose Estimation in Novel Contexts without Any 3D Pose Ground Truth
Authors Shuangjun Liu, Xiaofei Huang, Nihang Fu, Sarah Ostadabbas
单眼3D人类姿势估计从单个RGB图像中收到了过去几年的奇数。然而，具有竞争性能的姿势推理模型需要在其目标域中的3D姿势地理数据或至少已知的姿势前导者进行监督。然而，这些数据要求在许多具有数据收集约束的世界应用程序中可能无法实现。在本文中，我们提出了一个启发式弱监督的解决方案，称为HW HUP，以估计背景中的3D人类姿势，即使对于微调，也可以访问任何基础真理3D数据。 HW HUP从公共3D人类姿势数据集中学习部分姿势前瞻，并用途易于访问目标域的观察到在优化和回归混合循环中迭代估计3D人类姿势和形状。在我们的设计中，作为辅助信息的深度数据被用作训练期间的弱监管，但推断不需要。我们在床上患者和婴儿姿势的数据组上定性地评估HW HUP性能，在那里没有任何目标3D姿势。我们还定量在公开的运动捕获数据集上定量地测试HW HUP性能，而是针对3D地面真理。 HW HUP还能够扩展到其他输入模式，尤其是在不利视觉条件下，例如闭塞或全黑暗。在Human3.6M基准测试中，HW HUP在MPJPE中显示104.1毫米，PA MPJPE中的50.4毫米，可与现有的现有技术，从全面3D姿势监督中受益。

Wisdom for the Crowd: Discoursive Power in Annotation Instructions for Computer Vision
Authors Milagros Miceli, Julian Posada
计算机视觉算法的开发人员将通过业务流程外包公司和众包平台向其中提供注释培训数据的一些劳动力。许多数据注释器位于全球南部，被认为是独立承包商。本文侧重于阿根廷和委内瑞拉注释工人的经验。通过定性方法，我们探索这些工作人员遵循的任务指令中编码的疑问，遵循浏览计算机视觉数据集。我们的初步调查结果表明，注释指示反映了世界观，并通过其劳动力对数据集施加的世界观。此外，我们观察到，为了获利目标驱动任务指令，并且管理器和算法确保了注释是根据请求者命令完成的。这种配置提供了一种商品化的商品劳动，这些劳动力延续了电力不对称，同时加强了社会不平等，并且被迫将它们再现为数据集，然后在计算机视觉系统中重现。

Weakly Supervised Instance Attention for Multisource Fine-Grained Object Recognition
Authors Bulut Aygunes, Ramazan Gokberk Cinbis, Selim Aksoy
利用互补频谱，空间和结构信息的多源图像分析有益于细粒度的对象识别，其旨在将物体对许多类似的子类别中的一个分类。但是，对于涉及相对较小的对象的多源任务，即使是最小的注册错误也可以在分类过程中引入高不确定性。我们从弱监督的学习透视中接近该问题，其中输入图像对应于围绕具有给定类标签的对象存在的较大邻居，其中在附近存在而不知道其确切位置的任何知识。所提出的方法使用单个源深度注意模型，并行分支用于联合本地化和对象的分类，并将该模型扩展到多个源设置，其中假设没有位置不确定性的参考源用于帮助融合多个四种不同级别的概率级别，Logit级，特征级别和像素级别。我们表明，与现有技术相比，各级融合量提供更高的精度，具有最佳的特征级融合方法，导致识别40种不同类型的树木的53精度，相应于最佳提高5.7使用RGB，MultiSpectral和LIDAR数据执行基线。我们还通过在各种参数复杂性设置中评估每个模型来提供深度比较，其中模型容量增加导致默认容量设置的进一步改进6.3。

HOME: Heatmap Output for future Motion Estimation
Authors Thomas Gilles, Stefano Sabatini, Dzmitry Tsishkou, Bogdan Stanciulescu, Fabien Moutarde
在本文中，我们提出了HOME，一种解决运动预测问题的框架，其图像输出代表代理未来位置的概率分布。此方法允许具有经典卷积网络的简单架构，耦合具有代理交互的注意机制，并输出代理可能的未来的不受约束的2D顶视图表示。基于此输出，我们设计了两种方法来对一组有限的代理未来位置进行采样。这些方法允许我们控制多个模式的错过率和最终位移误差之间的优化折衷，而无需重新培训模型的任何部分。我们将我们的方法应用于协会运动预测基准，在线排行榜上实现第一名。

Boosting Crowd Counting with Transformers
Authors Guolei Sun, Yun Liu, Thomas Probst, Danda Pani Paudel, Nikola Popovic, Luc Van Gool
通过将更大的上下文集成到卷积神经网络CNNS中，已经实现了人群计数问题的重大进展。这表明全球场景上下文至关重要，尽管问题看似自然的本质。这可以通过以下事实解释：上下文知识可以适应和改进到给定场景的局部特征提取。在本文中，我们调查了全球背景对人群计数的作用。具体地，纯变压器用于从重叠图像斑块中提取具有全局信息的特征。灵感来自分类，我们将上下文令牌添加到输入序列，以便于与整个变压器层的图像补丁对应的令牌信息交换。由于变形金刚没有明确地模拟经过验证和真正的渠道的互动，我们提出了一种令牌注意力模块TAM，通过上下文令牌通知通过通道明智地重新校准编码特征。除此之外，通过回归令牌模块RTM预测图像的总数据数。广泛的实验表明，我们的方法在包括上海学士学位，UCF QNRF，JHU人群和NWPU等各个数据集中实现了艺术表现的状态。在大规模的JHU人群数据集上，我们的方法分别在MAE和MSE方面提高了之前的26.9和29.9。

COTR: Convolution in Transformer Network for End to End Polyp Detection
Authors Zhiqiang Shen, Chaonan Lin, Shaohua Zheng
目的结直肠癌CRC是全世界癌症死亡率的第二个最常见的原因。结肠镜检查是用于结肠筛选和息肉病变诊断的广泛使用的技术。然而，使用结肠镜检查的手动筛选涉及大量的息肉率，并且是内窥镜师的压倒性负担。计算机辅助诊断CAD用于息肉检测有可能降低人为错误和人类负担。然而，基于对象检测框架的当前息肉检测方法需要许多手工制作的预处理和后处理操作或需要域特定知识的用户指导。

End-to-End Video Object Detection with Spatial-Temporal Transformers
Authors Lu He, Qianyu Zhou, Xiangtai Li, Li Niu, Guangliang Cheng, Xiao Li, Wenxuan Liu, Yunhai Tong, Lizhuang Ma, Liqing Zhang
最近，已经提出了DETR和可变形的DETR来消除对象检测中许多手设计部件的需要，同时以先前的复杂手工制作探测器展示良好的性能。但是，它们对视频对象检测VOD的性能并未熟练。在本文中，我们呈现TransVod，基于空间时间变压器架构的端到端视频对象检测模型。本文的目标是简化VOD的管道，有效地去除对特征聚合的许多手工制作组件的需求，例如光学流量，经常性神经网络，关系网络。此外，从DETR的对象查询设计中受益，我们的方法不需要复杂的后处理方法，如SEQ NMS或Cubelet Rescoring，这使管道简单和清洁。特别地，我们呈现时间变换器以聚合空间对象查询和每个帧的特征存储器。我们的时间变压器由三个组件时间可变形变压器编码器TDTE编码，以编码多帧空间细节，时间查询编码器TQE熔断对象查询，以及时间可变形变压器解码器获得当前帧检测结果。这些设计通过在ImageNet VID数据集上通过一个重要的边缘3 4映射提高强基线可变形Detr。 TransVod在ImageNet Vid的基准上产生了可比的结果性能。我们希望我们的TransVod可以为视频对象检测提供新的视角。代码将公开可用

Skeleton-aware multi-scale heatmap regression for 2D hand pose estimation
Authors Ikram Kourbane, Yakup Genc
现有的基于RGB的2D手姿势估计方法从单个分辨率中学习联合位置，这不适用于不同的手尺寸。为了解决这个问题，我们提出了一种新的基于深度学习的框架，包括两个主要模块。前者提出了一种基于分段的方法来检测手骨架并定位手边界框。第二模块通过多尺度热图回归方法将2D联合位置回归，该方法利用预测的手骨架作为引导模型的约束。此外，我们构建适合手动检测和姿态估计的新数据集。我们定性和定量地验证了我们在两个数据集上的方法。结果表明，所提出的方法优于现有技术，并且即使在杂乱的图像和复杂的姿势中也可以恢复姿势。

A hybrid classification-regression approach for 3D hand pose estimation using graph convolutional networks
Authors Ikram Kourbane, Yakup Genc
手姿势估计是广泛的增强现实和人机交互应用的关键部分。预测来自单个RGB图像的3D手姿势是由于遮挡和深度含糊不清的挑战。基于GCN的图形卷积网络方法利用图形和手关节之间的结构关系相似性，以在关节之间模拟运动依赖性。这些技术使用预定义或全球学习的联合关系，这可能无法捕获姿势依赖约束。为了解决这个问题，我们提出了一个基于GCN的两个阶段基于GCN的框架，这些框架是每个姿势关系约束的。具体地，第一阶段量化2D 3D空间基于其局部性地将关节分类为2D 3D块。该空间依赖信息引导该阶段来估计可靠的2D和3D姿势。第二阶段通过基于GCN的模块进一步改善了3D估计，该模块使用适配的最近邻算法来确定联合关系。广泛的实验表明，我们的多阶段GCN方法产生了一种有效的模型，可以在两个公共数据集上产生精确的2D 3D手姿势并优于最先进的技术。

VS-Net: Voting with Segmentation for Visual Localization
Authors Zhaoyang Huang, Han Zhou, Yijin Li, Bangbang Yang, Yan Xu, Xiaowei Zhou, Hujun Bao, Guofeng Zhang, Hongsheng Li
视觉本地化在机器人和计算机愿景中具有重要意义。最近，基于场景坐标回归的方法在小静态场景中显示了视觉本地化的良好性能。然而，它仍然估计来自许多劣等场景坐标的相机姿势。为了解决这个问题，我们提出了一种新的视觉本地化框架，该框架在查询图像和3D地图之间建立2D到3D对应关系，其中一系列被动场景特定的地标。在地标生成阶段，目标场景的3D表面被分段为镶嵌中心被认为被视为场景特定地标的拼接斑块。为了强化和准确地恢复现场特定的地标，我们提出了用分段网络的投票与网络将像素分段为不同的地标斑块，分段分支并估计每个补丁内的地标位置，其中包含地标位置投票分支。由于场景中的地标数可能达到高达5000，因此具有如此大量类别的分割网络是计算和内存昂贵的跨熵损失。我们提出了一种新的基于原型的基于原型的三态损失，具有硬度挖掘，能够有效地培训具有大量标签的语义分段网络。我们提出的VS网络在多个公共基准上进行了广泛测试，并且可以倾向于艺术视觉本地化方法的卓越状态。代码和模型可在HREF中使用

Weakly-supervised Cross-view 3D Human Pose Estimation
Authors Guoliang Hua, Wenhao Li, Qian Zhang, Runwei Ding, Hong Liu
虽然单眼3D人类姿势估计方法取得了重大进展，但由于固有的深度模糊性，它远未解决。相反，利用多视图信息是实现绝对3D人类姿势估计的实用方法。在本文中，我们提出了一种简单但有效的管道，用于弱监督跨景3D人类姿势估计。仅通过使用两个相机视图，我们的方法可以以弱监督的方式实现最新的现有性能，不需要3D地面真相，但只需要2D注释。具体而言，我们的方法包含两个步骤三角测量和细化。首先，考虑到可以通过任何经典的2D检测方法获得的2D关键点，在两个视图上执行三角测量，以将2D关键点升到粗略的3D姿势。然后，一种新颖的跨视图U形图卷积网络CV UGCN，可以探索空间配置和跨视图相关性，用于改进粗略的3D姿势。特别是，通过弱监督学习实现了细化进展，其中执行几何和结构意识一致性检查。我们在标准基准数据集，Human3.6M上评估我们的方法。基准数据集上每个关节位置误差的平均值为27.4毫米，这优于最佳状态，显着的27.4 mm与30.2毫米。

CMUA-Watermark: A Cross-Model Universal Adversarial Watermark for Combating Deepfakes
Authors Hao Huang, Yongtao Wang, Zhaoyu Chen, Yuheng Li, Zhi Tang, Wei Chu, Jingdong Chen, Weisi Lin, Kai Kuang Ma
Deepfakes的恶意应用I.，技术可以生成目标面或面部属性对我们的社会构成了巨大的威胁。 DeepFake模型产生的假多媒体内容可能会损害声誉，甚至威胁着冒充的人的财产。幸运的是，对抗性水印可用于打击DeepFake模型，导致它们产生扭曲的图像。现有方法需要每个面部图像的单独训练过程，以产生针对特定的深型模型的对抗水印，这是极其低效的。为了解决这个问题，我们提出了一种对DeepFake模型的普遍对抗攻击方法，产生跨模型通用对抗水印CMUA水印，可以保护来自多个DeepFake模型的数千个面部图像。具体地，我们首先通过攻击多个DeepFake模型并迭代地将来自这些模型的梯度组合起来的横跨模型通用攻击管道。然后我们介绍一种基于批处理的方法来缓解不同面部图像产生的对抗性水印冲突。最后，我们设计了一种更合理和综合的评估方法，用于评估对抗水印的有效性。实验结果表明，所提出的CMUA水印可以有效地扭曲了DeepFake模型产生的假面部图像，并成功地保护了真实场景中的Deepfakes的面部图像。

FCCDN: Feature Constraint Network for VHR Image Change Detection
Authors Pan Chen, Danfeng Hong, Zhengchao Chen, Xuan Yang, Baipeng Li, Bing Zhang
变更检测是识别BI临时CO注册图像的像素明显差异的过程。对地球观察具有重要意义。最近，随着深度学习DL的出现，基于深度卷积神经网络的CNNS的方法已经显示了它们在变化检测领域的功率和可行性。但是，仍然缺乏对改变特征学习的有效监督。在这项工作中，提出了一种特征约束改变检测网络FCCDN。我们在BI时态特征提取和特征融合中约束特征。更具体地，我们提出了一种用于改变检测任务的双编码器解码器网络骨干网。在骨干的中心，我们设计非本地特征金字塔网络以提取和保险丝多尺度功能。以强大的方式熔断BI时间特征，我们构建了基于密集的基于连接的功能融合模块。此外，提出了一种自我监督的基于学习的战略来限制特征学习。基于FCCDN，我们在两个建筑变革检测数据集Levir CD和WHU上实现了最先进的性能。在Levir CD数据集上，我们实现了0.8569的IOU，F1得分为0.9229。在WHU数据集上，我们实现了0.8820和F1得分为0.9373。此外，我们首次实现准确的BI时间语义细分结果的获取，而无需使用语义分割标签。对于改变检测至关重要，因为它节省了标签的成本。

Coarse to Fine Multi-Resolution Temporal Convolutional Network
Authors Dipika Singhania, Rahul Rahaman, Angela Yao
时间卷积网络TCN是用于时间视频分段的常用架构。然而，TCNS往往遭受过分分割误差，并且需要额外的细化模块以确保平滑度和时间一致性。在这项工作中，我们提出了一种新的时间编码器解码器来解决序列碎片的问题。特别地，解码器跟随粗糙到精细结构，具有多个时间分辨率的隐式集合。该合奏产生更加准确，更好地校准的更精确的分割，绕过需要额外的细化模块。此外，我们通过多分辨率的功能增强策略提升我们的培训，以促进不同时间决议的鲁棒性。最后，为了支持我们的建筑和鼓励进一步的序列一致性，我们提出了一种惩罚视频级别的错误分类的行动损失。实验表明，我们独立的架构，与我们的小说功能增强战略和新损失相同，优于三个时间视频分段基准的最新状态。

Exploring Robustness of Unsupervised Domain Adaptation in Semantic Segmentation
Authors Jinyu Yang, Chunyuan Li, Weizhi An, Hehuan Ma, Yuzhi Guo, Yu Rong, Peilin Zhao, Junzhou Huang
最近的研究暗示，深度神经网络容易受到对抗的例子，具有轻微但故意扰动的输入被网络不正确地分类。此类漏洞使某些安全相关应用程序的风险变得风险，例如，自主车中的语义分割，并触发了对模型可靠性的巨大问题。我们首次全面评估现有UDA方法的稳健性，并提出了一种强大的UDA方法。它植根于两种观察中，我在语义分割中的UDA方法的稳健性仍未开发，这在该领域和II上提出了安全问题，虽然常用的自我监督，但旋转和拼图效益于分类和识别等图像任务，但它们无法求助提供可能学会分割任务的歧视性表现的关键监督信号。这些观察结果激励我们提出对抗的自我监督UDA或essuda，以通过输出空间的对比损失来最大化清洁图像与其对抗示例之间的协议。关于常用基准的广泛实证研究表明，菊属抗对抗性攻击。

Adapted Human Pose: Monocular 3D Human Pose Estimation with Zero Real 3D Pose Data
Authors Shuangjun Liu, Naveen Sehgal, Sarah Ostadabbas
推理模型的最终目标是在现实生活中具有鲁棒和功能。但是，培训与测试数据域间隙通常会对模型性能产生负面影响。这个问题对于单目一致的3D人类姿势估计问题尤为重要，其中3D人类数据通常在受控的实验室设置中收集。在本文中，我们专注于通过呈现我们改进的人类姿势AHUP方法来缓解领域转变的负面影响，该方法解决了外观和姿势空间中的适应性问题。 AHUP围绕实际假设构建，在实际应用中，来自目标域的数据可能无法访问或只能获取有限的信息。我们说明了两个场景中AHUP的3D姿势估计性能。首先，当源和目标数据在外观和姿势空间中有显着不同时，我们从零真实3D人类数据中学习合成3D人类数据，并显示具有完全访问的最先进的第3D姿势估计模型的可比性性能真正的3D人类姿势基准训练。其次，当源和目标数据集主要在姿势空间中不同时，其中可以应用AHUP方法以进一步提高当在与其训练数据集不同的数据集上测试时的现有技术的状态的性能。

Stereo Matching Based on Visual Sensitive Information
Authors Hewei Wang, Muhammad Salman Pathan, Soumyabrata Dev
计算机愿景领域是许多学者中讨论最多的主题之一，而立体声匹配是其最重要的子字段。在视差映射被转换为深度图之后，它可以应用于许多智能字段。在本文中，通过使用来自Middrbury DataSet的标准图像提出了一种基于视觉敏感信息的立体声匹配算法。针对传统立体声匹配算法的限制，关于成本窗口，提出了一种基于动态窗口的成本聚合算法，并且通过使用左和右一致性检测来优化视差图像以进一步降低误差匹配率。实验结果表明，与经典人口普查算法相比，所提出的算法可以有效地提高图像的立体声匹配效果，从精度提供显着提高。所提出的模型代码，数据集和实验结果可在

Texture synthesis via projection onto multiscale, multilayer statistics
Authors Jieqian He, Matthew Hirn
我们为基于多尺度的多层特征提取器提供了一种新模型。在模型中，纹理由来自不同层，尺度和方向的Relu小波系数计算的一组统计信息表示。通过迭代投影算法匹配目标统计来合成新图像。我们解释我们模型中使用的不同类型的预定小波滤波器的必要性以及多层结构进行图像合成的优点。我们通过生成高质量纹理样本并向纹理图像的深度表示深入了解我们模型的力量。

GOO: A Dataset for Gaze Object Prediction in Retail Environments
Authors Henri Tomas, Marcus Reyes, Raimarc Dionido, Mark Ty, Jonric Mirando, Joel Casimiro, Rowel Atienza, Richard Guinto
人类所做的最基本和信息的最基本和信息之一是看物体。然而，对当前作品的调查显示，现有的凝视相关数据集仅注释所研究的像素，而不是感兴趣的特定对象的边界。这种缺乏对象注释提供了进一步推进凝视估计研究的机会。为此，我们提出了一个挑战的新任务，称为凝视对象预测，其中目标是预测针对对象凝视的人的边界框。要在此任务上培训和评估凝视网络，我们介绍了对象Goo DataSet上的凝视。 Goo由一大集合图像Goo合成组成，补充了一个较小的真正的图像粘性子集的人们，真实的人们看着零售环境中的物体。我们的工作通过重新实施和评估凝视的任务和域适应的艺术模型的所选状态，在Goo上建立了广泛的基线。代码可在github上获得。

PLM: Partial Label Masking for Imbalanced Multi-label Classification
Authors Kevin Duarte, Yogesh S. Rawat, Mubarak Shah
在具有长尾标签分布的现实世界数据集上培训的神经网络被偏向频繁的类，并且在不频繁的课程上表现不佳。从地面真实分布进一步偏离每个类偏斜网络输出概率的正和阴性样本的不平衡。我们提出了一种方法，部分标签掩蔽PLM，其在训练期间利用该比率。通过在损耗计算期间随机掩蔽标签，该方法将对每个类的比率进行平衡，从而提高了少数群体类别的召回并改善了频繁等级的精度。通过最小化预测和地面真实性分布之间的KL发散来自适应地估计该比率。虽然解决数据不平衡的大多数现有方法主要集中在单个标签分类上，但对多标签案件没有概括，但这项工作提出了一种解决多标签分类的长尾数据不平衡问题的一般方法。 PLM是通用的，它可以应用于大多数客观函数，它可以与其他级别不平衡的其他策略一起使用。与Multi标签多方师和MSCOCO和MSCOCO的现有方法相比，我们的方法具有很强的性能，以及单标签的CIFAR 10和CIFAR 100图像分类数据集。

PAL: Intelligence Augmentation using Egocentric Visual Context Detection
Authors Mina Khan, Pattie Maes
EGoCentric Visual Context检测可以支持智能增强应用程序。我们创建了一个可穿戴系统，称为PAL，可穿戴，个性化和隐私，保留Enocentric Visual Context Discollet检测。 PAL具有带相机，心率传感器，设备深度学习的可穿戴设备，以及音频输入输出。 PAL还具有用于个性化上下文标记的移动Web应用程序。我们用于通用物体和面部检测的设备深度学习模型，低拍摄定制面和上下文识别，例如刷牙等活动，以及自定义上下文聚类，例如，室内位置。在野外背景下，模型在1000次图像中有超过80个精度，我们测试了PLAT进行了行为改变的智能增强应用。我们使PAL是开放的资源，以使用个性化和隐私保留Enocentric Visual Contexts的个性化和隐私来进一步支持智能增强。

Automated Knee X-ray Report Generation
Authors Aydan Gasimova, Giovanni Montana, Daniel Rueckert
为了培训预测模型的目的，收集手动注释的图像在医学领域比自然图像更具挑战性，因为它需要具有合格放射科医师的专业知识。因此，我们建议利用过去的放射学考试，具体而言，膝盖X射线检查并制定能够学习图像和报告之间的对应关系的框架，因此能够为由任意数组成的给定X射线检查生成诊断报告图像视图。我们展示了在培训语言生成模型时，在培训语言生成模型时，在培训语言生成模型时，如何使用它们是有条件输入的汇总的汇总的。

Soccer Player Tracking in Low Quality Video
Authors Eloi Martins, Jos Henrique Brito
在本文中，我们提出了一种能够跟踪不同类型的视频质量的多个足球运动员的系统。与大多数艺术艺术足球运动员跟踪系统相比，主要目标是在低质量的视频中执行有效跟踪的能力。我们改编了对任务的艺术多个对象跟踪。为了做到这一适应，我们创建了一个检测和跟踪数据集，用于3个不同的视频质量。我们系统的结果是其高性能的结论。

ADNet: Attention-guided Deformable Convolutional Network for High Dynamic Range Imaging
Authors Zhen Liu, Wenjie Lin, Xinpeng Li, Qing Rao, Ting Jiang, Mingyan Han, Haoqiang Fan, Jian Sun, Shuaicheng Liu
在本文中，我们提出了一种注意力导向可变形卷积网络，用于手持式多帧高动态范围HDR成像，即ADNET。该问题包括如何正确处理饱和度和噪声的两个棘手挑战以及如何解决由对象运动或相机抖动引起的未对准。为了解决前者，我们采用空间注意模块来自适应地选择各种曝光低动态范围LDR图像的最合适的区域进行融合。对于后者，我们建议使用金字塔，级联和可变形PCD对齐模块将伽马校正的图像对准。该提议的ADNET显示了与先前方法相比的最新性能，实现了39.4471的PSNR L和NTIRE 2021多帧HDR挑战中的37.659的PSNR MU。

Towards Automatic Recognition of Pure & Mixed Stones using Intraoperative Endoscopic Digital Images
Authors Vincent Estrade, Michel Daudon, Emmanuel Richard, Jean Christophe Bernhard, Franck Bladou, Gregoire Robert, Baudouin Denis de Senneville
目的利用临床环境中获取的术中数字内窥镜图像评估自动计算机辅助识别纯和混合泌尿石的形态特征。本单中心研究中的材料和方法，经验丰富的泌尿科医师术中并潜在检查遇到的所有肾结石的表面和部分。收集草酸钙金刚石，二水合物COD IIB和尿酸UA IIIB形态标准并分类以产生注释数据集。培训深度卷积神经网络CNN以预测纯净和混合石的组成。为了解释深度神经网络模型的预测，绘制了粗略定位热图以确定网络识别的关键区域。结果本研究分别包括347和236个石材和石材截面的观察。使用表面图像的纯IIIB UA获得最高灵敏度。最常遇到的形态学是使用表面和截面图像的91和94型正确预测的纯IA COM的类型。在混合型IA COM IIB COD中，IA COM预计在使用表面图像，70例中的80例中的84例中，两者在65例中预测。关于混合IA COMIIB UA石头，IA COM预计在使用部分图像，IIIB uA在69例中的案件中的91例，以及74例中的74例。结论这项初步研究表明，深度卷积神经网络是有前途识别内窥镜图像中术中的内窥镜图像的肾结石组合物。可以区分纯净和混合的石材组合物。在临床环境中收集，深度CNN分析的表面和截面图像提供了有关计算机辅助诊断的石材形态的有价值信息。

Video-based Person Re-identification without Bells and Whistles
Authors Chih Ting Liu, Jun Cheng Chen, Chu Song Chen, Shao Yi Chien
基于视频的人物RE识别RE ID旨在将视频TOARKLET与裁剪视频框架匹配，用于识别不同的摄像机下的行人。然而，由于随过时的方法产生的不完美检测和跟踪结果，存在严重的空间和时间未对准。为了解决这个问题，我们介绍了一个简单的RE检测和链接DL模块，通过应用基于深度学习的检测和跟踪在裁剪的轨迹上，可以有效地减少那些意外噪声。此外，我们介绍一种称为粗轴上关注网络CF Aan的改进模型。基于典型的非本地网络，我们用三个1 d位置敏感轴向关节替换非本地模块，除了我们提出的粗糙结构。与发达的CF AAN相比，与原始非本地操作相比，我们不仅可以显着降低计算成本，而且在大规模火星数据集上的地图中，在秩1和86.5中获得最新的艺术性能91.3。同时，通过简单地采用DL模块进行数据对齐，令我们突触，几个基线模型可以通过本领域的当前状态实现更好或比较的结果。此外，我们发现不仅针对Tracklet的身份标签的错误，还发现MARS的测试数据的评估协议。我们希望我们的工作可以帮助社区进一步开发不变的表示，没有空间和时间对齐和数据集噪声。代码，纠正的标签，评估协议和对齐数据将可用

Semi-Supervised Few-Shot Classification with Deep Invertible Hybrid Models
Authors Yusuke Ohtsubo, Tetsu Matsukawa, Einoshin Suzuki
在本文中，我们提出了一种深度可逆的混合模型，其在半自动阶段融合的歧视和生成学习集成了半监督的少数拍摄分类。可以将来自图像数据的新物种分类的各种任务建模为半监督的少量拍摄分类，它假设标记和未标记的训练示例和目标类的小型支持集。预测每个类的一些支持示例的目标类使得学习任务难以满足现有的半监督分类方法，包括自主，它估计未标记的训练示例的类标签，以学习培训类的分类器。为了有效利用未标记的培训例子，我们采用了综合函数的综合可能性，这与深神经网络相结合而不是参数耦合先前，另一个流行的综合学习方法。在我们所提出的模型中，歧视性和生成模型分别是原型网络，其在各种射击学习中表现出优异的性能，并将流量正常化成为与其他三种主要方法不同的深度可逆性模型，即其他三种主要方法，即VAE，GAN和自回归模型。我们的主要原创性在于我们在潜在的空间水平上集成了这些组件，这有效地防止过度装备。使用Mini ImageNet和VGG面部数据集的实验表明，我们的方法优于基于Selftaining的原型网络。

Revisiting Knowledge Distillation for Object Detection
Authors Amin Banitalebi Dehkordi
对象检测蒸馏的现有解决方案依赖于教师模型和地面真理标签的可用性。我们提出了一种新的视角来放松这种约束。在我们的框架中，一名学生首次培训了老师生成的伪标签，然后使用标记数据进行微调，如果有的话。广泛的实验表明了对现有物体检测蒸馏算法的改进。此外，在本框架中解耦老师和地面真相蒸馏提供了有趣的属性，如1使用未标记的数据，进一步提高学生的性能，2组合不同架构的多个教师模型，即使具有不同的对象类别，以及3减少了需求对于只有20个Coco标签的标记数据，此方法可实现与在整个标签上培训的模型相同的性能。此外，这种方法的乘积是域适应的潜在用法。我们通过大量实验验证这些属性。

Searching Collaborative Agents for Multi-plane Localization in 3D Ultrasound
Authors Xin Yang, Yuhao Huang, Ruobing Huang, Haoran Dou, Rui Li, Jikuan Qian, Xiaoqiong Huang, Wenlong Shi, Chaoyu Chen, Yuanji Zhang, Haixia Wang, Yi Xiong, Dong Ni
3D超声波由于其2D美国未包含的富含空间和诊断信息，我们已经变得普遍。此外，3D我们可以在一次拍摄中包含多个标准平面SPS。因此，在3D中自动定位SPS具有可能提高用户独立性和扫描效率的潜力。然而，由于图像质量低，巨大的搜索空间和大的解剖学变异性，3D我们的手动SP定位是具有挑战性的。在这项工作中，我们提出了一种新型多功能钢筋学习MARL框架，同时本地化3D US中的多个SPS。我们的贡献是四倍。首先，我们的提出方法是一般的，它可以在不同具有挑战性的美国数据集中准确定位多个SPS。其次，我们用基于经常性的神经网络RNN的协作模块装备了MARL系统，可以加强代理之间的通信，并有效地学习平面之间的空间关系。第三，我们探索通过神经结构搜索NAS自动设计代理和协作模块的网络架构。最后，我们相信我们是第一个在骨盆美国卷中实现自动SP定位的人，并注意我们的方法可以处理正常和异常的子宫情况。我们提出的方法广泛验证了子宫和胎儿大脑的两个具有挑战性的数据集，实现了7.03度为1.59mm和9.75度的平均定位精度。实验结果表明，我们的重量级Marl模型比现有方法的准确性更高。

HPNet: Deep Primitive Segmentation Using Hybrid Representations
Authors Siming Yan, Zhenpei Yang, Chongyang Ma, Haibin Huang, Etienne Vouga, Qixing Huang
本文介绍了HPNET，一种新的深度学习方法，用于将表示为点云的3D形状分割为原始贴片。深度原始分割的关键正在学习一个功能表示，可以分开不同的基元点。与利用单个特征表示不同，HPNET利用组合一个学习语义描述符的混合表示，这是从预测的几何参数导出的两个光谱描述符，以及编码尖锐边缘的邻接矩阵。此外，HPNET而不是仅仅立即连接描述符，而不是通过学习组合权重结合混合表示。此加权模块构建在输入功能的熵上。从平均移位聚类模块获得输出基元分割。基准数据集ANSI和ABCPARTS的实验结果表明，HPNET从基线方法产生了显着的性能。

Embracing New Techniques in Deep Learning for Estimating Image Memorability
Authors Coen D. Needell, Wilma A. Bainbridge
各种工作表明，图像的令人难忘性在人们中一致，因此可以被视为图像的内在特性。使用计算机视觉模型，我们可以对人们记住或忘记做出具体的预测。虽然年龄较大的工作现在已经过时的深度学习架构来预测图像令人难忘，但该领域的创新已经给了我们适用于这个问题的新技术。在这里，我们提出并评估了五个替代的深度学习模型，从过去五年开始开发了该领域的开发，这主要是引入剩余神经网络，旨在允许模型在令人难忘的估计过程中使用语义信息。使用组合的数据集进行了本领域的先前状态测试，以便在类别内和跨类别预测中进行优化。我们的研究结果表明，关键的令人难忘网络夸大了其概括性，并在其培训集上被过度使用。我们的新模型优于此前的模型，导致我们得出结论，残差网络在令人难忘的回归中占据了更简单的卷积神经网络。我们将我们的新状态艺术模型随时可供研究界可用，允许内存研究人员在更广泛的图像上对难忘性进行预测。

Puck localization and multi-task event recognition in broadcast hockey videos
Authors Kanav Vats, Mehrnaz Fani, David A. Clausi, John Zelek
冰球本地化是冰上曲棍球视频分析中的一个重要问题，用于分析游戏，确定游戏位置，评估冰球占有。由于冰球的尺寸小，因此由于球员和板引起的高褶皱速度和闭塞而导致的冰球大小，运动模糊过多。在本文中，我们在广播曲棍球视频中介绍和实施冰球本地化网络。该网络利用播放注释利用Expert NHL播放，并使用时间上下文来定位冰球。通过将播放器位置与在播放器位置绘制的高斯基于空间热图编码的播放器位置编码播放器位置，通过注意机制结合到网络中。由于溜冰场和冰球位置的事件发生相关，因此通过使用事件识别头扩充戳式定位网络并通过多任务学习培训网络来执行事件识别。实验结果表明，网络能够在测试集上用73.1的AUC定位冰球。冰球位置可以在每秒5帧的720p广播视频中推断出来。还证明了用冰球位置的多项任务学习提高了事件识别准确性。

BCNet: Searching for Network Width with Bilaterally Coupled Network
Authors Xiu Su, Shan You, Fei Wang, Chen Qian, Changshui Zhang, Chang Xu
搜索更紧凑的网络宽度最近是在硬件约束下部署卷积神经网络CNN的频道修剪的有效方式。为了满足搜索，通常利用一个拍摄的超值以有效地评估性能WRT不同的网络宽度。然而，目前的方法主要遵循单方面增强的UA原则，以评估每个宽度，从而诱导超网中的频道的培训不公平。在本文中，我们介绍了一个名为双边耦合网络BCNet的新超网关来解决此问题。在BCNET中，每个通道都有相当训练并负责相同的网络宽度，因此可以更准确地评估每个网络宽度。此外，我们利用了用于培训BCNet的随机互补策略，并提出了一种先前的初始群体采样方法来提高进化搜索的性能。基准CiFar 10和ImageNet数据集的广泛实验表明我们的方法可以通过其他基线方法实现最新的艺术状态或竞争性能。此外，我们的方法将通过改进网络宽度来进一步提高NAS模型的性能。例如，通过相同的拖鞋预算，我们获得的有效网络B0实现了77.36前1个在ImageNet数据集中的精度，超越了原始设置的性能0.48。

SmartPatch: Improving Handwritten Word Imitation with Patch Discriminators
Authors Alexander Mattick, Martin Mayr, Mathias Seuret, Andreas Maier, Vincent Christlein
由于最近的生成的对策网络已经允许在不同域中产生的生成图像的现实主义中的大量突飞，而不是其中的最少是手写的文本生成。现实看的手写文本的生成很重要，因为它可以用于手写文本识别HTR系统或人机交互中的数据增强。我们提出SmartPatch，通过使用定制的解决方案增加培训反馈来减轻笔级伪像来增加最新技术的新技术。我们将众所周知的补丁丢失与从并行训练的手写文本识别系统和单词的单独字符收集的信息组合。这导致了更加增强的本地鉴别者，并导致更现实和更高质量的手写词。

Design to automate the detection and counting of Tuberculosis(TB) bacilli
Authors Dinesh Jackson Samuel, Rajesh Kanna Baskaran
结核病是一种传染病，是全球死亡原因之一。结核病的一般诊断方法包括微观检查，结核病皮肤测试，培养方法，酶联免疫吸附测定ELISA和电子鼻系统。世界卫生组织为早期诊断结核时，建议标准微观检查。在显微镜下，技术人员检查痰液中的视野，痰液涂片在任何Tb Bacilli的存在，并计数每FOV的Tb Bacilli的数量报告严重程度。这种过程是经验丰富的员工的浓度增加，以检查单个痰涂片。熟练技术人员在高流行国家的考试需求可能导致过载，疲劳和减少显微镜的质量。因此，提出了一种计算机辅助系统，并设计用于检测结核病肉桂杆菌，以协助敏感性和特异性增加的病理学家。检测和计数Tb Bacilli数量的手动努力大大最小化。该系统以100倍放大率从传统显微镜获得Ziehl Neelsen染色的显微镜图像，并将数据传递给检测系统。最初使用RGB阈值和Sauvola S自适应阈值算法进行Tb Bacilli的分割。为了消除来自粗级分割的非Tb杆菌，使用面积，周边，凸壳，长轴长度和偏心率的形状描述符仅提取Tb Bacilli特征。最后，使用生成的边界框计算TB Bacilli以报告严重程度。

DDR-Net: Dividing and Downsampling Mixed Network for Diffeomorphic Image Registration
Authors Ankita Joshi, Yi Hong
深扩散晶体注册面临着高维图像的重大挑战，特别是在记忆范围内。现有方法是下面的原始图像，或近似潜在的转换，或降低模型大小。近似或模型容量不足期间的信息损失是对高维图像的登记精度的障碍，例如3D医学卷。在本文中，我们提出了分割和下采样混合登记网络DDR网络，这是一种普通架构，其在多个尺度处保留大多数图像信息。 DDR NET通过卸下输入来利用全局上下文，并利用输入图像的分割块中的本地详细信息。该设计通过融合全局和本地信息，使网络输入大小及其内存成本降低了DDR Net在最终变形字段中获得粗级和精细级别对齐。我们在三个公共数据集中评估DDR网络，即OASIS，IBSR18和3DIRCADB 01，实验结果表明我们的方法优于现有的方法。

Brain tumour segmentation using a triplanar ensemble of U-Nets
Authors Vaanathi Sundaresan, Ludovica Griffanti, Mark Jenkinson
胶质瘤在其外观和脑MR图像上的外观和位置方面具有广泛的变化，这使得强大的肿瘤分割具有高度挑战性，即使在手动分割中也能导致高帧税率变化。在这项工作中，我们提出了一个Triplanar集合网络，具有独立的肿瘤核心预测模块，用于这些肿瘤和子区域的精确分割。在评估我们对米奇脑肿瘤分割的方法上，对于肿瘤子区域，我们为增强肿瘤等和肿瘤核心Tc实现了0.77的骰子相似度系数。在整个肿瘤WT区域的情况下，我们达到了0.89的骰子值，这与来自Brats 17 19的顶部排名方法相提并论。我们的方法达到了与我们的方法排名等于第5个最高值的评价评分第十位在Brats 20挑战中，平均骰子值分别在Brats 20看不见的测试数据集上0.81,0.89和0.84 On ET，WT和TC区域。

Coarse-to-Fine for Sim-to-Real: Sub-Millimetre Precision Across the Workspace
Authors Eugene Valassakis, Norman Di Palo, Edward Johns
通过深入学习培训机器人操纵的控制政策，SIM与实际转移可以帮助满足大数据要求。在本文中，当任务需要高精度控制时，研究零拍摄SIM的问题，具有亚毫米误差容差和全工作空间泛化。我们的框架涉及粗略到精细控制器，其中轨迹最初以姿势估计基于姿势估计的经典运动规划，并转换到映射图像到动作的终端控制器，并在具有域随机化的仿真中训练。通过这种方式，我们实现了精确的控制，同时还在工作空间中概念控制器，并将基于视觉的一般性和稳健性延伸，结束到终端控制。真实世界在一系列不同的任务的实验表明，通过利用两全其美的佼佼者，我们的框架显着优于纯粹的运动规划方法，纯粹的学习方法。此外，我们回答了一系列关于精确SIM的最佳实践的问题，例如，图像传感器模态和图像特征表示如何执行。

Generation of COVID-19 Chest CT Scan Images using Generative Adversarial Networks
Authors Prerak Mann, Sahaj Jain, Saurabh Mittal, Aruna Bhat
SARS COV 2，也称为Covid 19或Coronavirus，是一种由新型冠状病毒感染的病毒传染病，并且一直在全球迅速蔓延。测试和隔离人们减少传播是非常重要的，从这里开始，需要快速有效地完成此操作。根据一些研究，胸部CT优于RT PCR实验室测试，即当前标准，诊断Covid 19患者。因此，计算机视觉研究人员已经开发了各种深度学习系统，可以在一定程度上正确使用胸部CT扫描来预测Covid 19。这些系统的准确性受到限制，因为CNNS卷积神经网络的深度学习神经网络需要大量大量的训练数据，以便产生良好的质量结果。由于疾病相对近期且更多的焦点已经在CXR胸部X射线图像上，可用的胸部CT扫描图像数据集要较少。我们通过利用GAN提出一种方法，以产生正面和负Covid 19患者的合成胸CT图像。使用预先构建的预测模型，我们得出结论，所生成的图像中的大约40个被正确预测为Covid 19正。由此生成的数据集可用于训练基于CNN的分类器，该分类器可以帮助更高的准确度在患者中确定CoVID 19。

A self-supervised learning strategy for postoperative brain cavity segmentation simulating resections
Authors Fernando P rez Garc a, Reuben Dorent, Michele Rizzi, Francesco Cardinale, Valerio Frazzini, Vincent Navarro, Caroline Essert, Ir ne Ollivier, Tom Vercauteren, Rachel Sparks, John S. Duncan, S bastien Ourselin
精确分割脑切除腔RCS术后分析和确定后续治疗。卷积神经网络CNN是艺术图像分割技术的状态，但需要大的注释数据集进行训练。 3D医学图像的注释是耗时的，需要高度训练的评级，并且可能遭受高帧帧变异性。自我监督的学习策略可以利用未标记的培训数据。

Pulmonary embolism identification in computerized tomography pulmonary angiography scans with deep learning technologies in COVID-19 patients
Authors Chairi Kiourt, Georgios Feretzakis, Konstantinos Dalamarinis, Dimitris Kalles, Georgios Pantos, Ioannis Papadopoulos, Spyros Kouris, George Ioannakis, Evangelos Loupelis, Aikaterini Sakagianni
这项工作的主要目的是利用艺术状态的深层学习方法，用于鉴定CTPA扫描CTPA扫描19名患者，提供了对其性能的初步评估，最终提供了一种快速的轨道原型解决方案系统。我们通过转移学习方法采用并评估了一些最受欢迎的卷积神经网络架构，努力将良好的模型精度与快速训练相结合。此外，我们利用了一个最受欢迎的一个阶段对象检测模型之一，以通过对象检测肺栓塞区域的物体检测来定位。这两种方法的模型都在原始的CTPA扫描数据集上培训，其中我们的注释总共有1,465个边界盒的673个CTPA扫描图像，突出了肺栓塞的兴趣区。我们通过在肺栓塞分类中实现91种验证精度来简要评估艺术图像分类模型的某些状态。此外，我们在50 iou阈值下的肺栓塞定位的物体检测模型中平均实现了约68的精度。对于两种方法，我们通过源代码向未来的研究提供整个培训管道。在这项研究中，我们向CTPA扫描图像中的肺栓塞鉴定的一些最准确和快速的深入学习模型，通过Covid 19感染的患者进行分类和定位对象检测方法。我们为研究界提供了快速轨道解决方案系统该地区结合了分类和物体检测模型，以提高识别肺栓塞的精度。

Smart mobile microscopy: towards fully-automated digitization
Authors A. Kornilova, I. Kirilenko, D. Iarosh, V. Kutuev, M. Strutovsky
移动显微镜是一种新形成的领域，它从光学显微镜能力和扩展，功能和越来越多的移动设备计算资源的组合中出现。尽管创建了一个成功合并显微镜的系统，但经常检查多个计算机视觉方法和移动设备，但是由此产生的实现仍然需要有合格的操作者来控制样本数字化。在本文中，我们解决了超越这一限制的任务，并呈现智能移动显微镜概念，旨在自动数字化关于样本最有价值的视觉信息。我们通过组合自动显微镜设置控制和经典技术来执行这一点，例如自动聚焦，在焦滤波中，并焦点堆叠适应和优化作为移动跨平台库的一部分。

AirNet: Neural Network Transmission over the Air
Authors Mikolaj Jankowski, Deniz Gunduz, Krystian Mikolajczyk
许多新兴边缘应用的最先进性能是由深神经网络DNN实现的。通常，这些DNN是位置和时刻敏感，并且特定DNN的参数必须快速有效地从边缘服务器传送到边缘设备，以执行时间敏感的推理任务。我们介绍了Airnet，一种新颖的训练和模拟传输方法，允许高效的DNN无线传送。我们首先用噪声注射训练DNN来对抗无线信道噪声。我们还采用修剪来减少传输所需的信道带宽，并从更大的模型执行知识蒸馏，以实现令人满意的性能，尽管扰动。我们表明，与相同带宽和功率约束下的数字替代方案相比，Airnet实现了明显更高的测试精度。它还具有通道质量的优雅劣化，这减少了准确信道估计的要求。

Post-Training Sparsity-Aware Quantization
Authors Gil Shomron, Freddy Gabbay, Samer Kurzum, Uri Weiser
量化是在深神经网络DNN中使用的技术，以提高执行性能和硬件效率。统一的训练训练量化PTQ方法很常见，因为它们可以有效地在硬件中实现，并且不需要广泛的硬件资源或培训集。使用均匀PTQ将FP32模型映射到INT8产生具有可忽略的精度降解的模型，但是，由于量化噪声的增加，降低8位以下的精度降低了8位。在本文中，我们提出了一种稀疏感知量化SPARQ方法，其中非结构化和动态激活稀疏性在不同的表示粒度下利用。例如，通过动态检查8位值的比特并选择4位的窗口来使用例如使用4比特的窗口来使用4位量化，同时首先跳过零值位。此外，除了通过激活来定量激活，而不是将激活量为4位，我们专注于8对激活并检查两个中的一个等于零。如果一个等于零，则第二可以使用其他S 4位预算如果两个都不等于零，则每个都被动态地量化为4位，如上所述。 SPARQ通过广泛使用的硬件架构和实用的硬件实现实现了轻微的精度下降，2倍加速。代码可用

FBI-Denoiser: Fast Blind Image Denoiser for Poisson-Gaussian Noise
Authors Jaeseok Byun, Sungmin Cha, Taesup Moon
我们考虑宠物高斯噪声挑战盲目的盲目问题，其中没有有关清洁图像或噪声水平参数的额外信息。特别是，当只有单一嘈杂的图像可用于训练脱落器时，现有方法的去噪性能并不令人满意。最近，提出了盲目Pixelive仿射图像DeNoiser BP助攻并显着提高了上述设置中的性能，直到利用附加信息的欺诈者竞争的程度。然而，由于噪声水平估计过程的低效率和它使用的盲点网络BSN架构的效率低，BP助手严重遭受了缓慢的推理时间。为此，我们提出了快速盲目的图像Denoiser FBI Denoiser，用于泊松高斯噪声，这包括两个神经网络模型1 PGE网，估计泊松高斯噪声参数比传统方法和2个FBI网更快地实现更高效的FBI网在参数和推理速度的数量方面，用于PIXELWIEW仿射DENOISER的BSN。因此，我们表明我们的FBI Denoiser仅基于单一嘈杂图像盲目培训，可以在与BP AIDE相比，在几个真实世界嘈杂的图像基准数据集中实现最新的若干真实世界嘈杂的图像基准数据集。我们的方法的官方代码可用

SSCAN: A Spatial-spectral Cross Attention Network for Hyperspectral Image Denoising
Authors Zhiqiang Wang, Zhenfeng Shao, Xiao Huang, Jiaming Wang, Tao Lu, Sihang Zhang
由于它们能够提供的丰富的光谱信息，HSISPectral型图像HSIS已广泛用于各种应用中。在所有HSI处理任务中，HSI去噪是一个重要的步骤。最近，基于深度学习的图像去噪方法取得了很大的进步并取得了良好的表现。然而，现有方法倾向于忽略相邻光谱带之间的相关性，导致诸如光谱失真的问题和在去噪结果中的模糊边缘。在这项研究中，我们提出了一种新颖的HSI去噪网络，被称为SSCAN，这些网络结合了组卷积和注意力模块。具体而言，我们使用一组空间注意模块的群卷积来促进功能提取，通过指导模型注意乐队明智的重要特征。我们提出了一种光谱空间注意力块SSAB以利用高光谱图像中的空间和光谱信息以有效的方式利用。此外，我们采用跳过连接采用剩余学习操作，以确保培训稳定性。实验结果表明，所提出的SSCAN优于若干艺术术语的若干状态。

Deep Learning Traversability Estimator for Mobile Robots in Unstructured Environments
Authors Marco Visca, Sampo Kuutti, Roger Powell, Yang Gao, Saber Fallah
地形推动性分析在确保非结构化环境中安全机器人导航方面发挥了重要作用。然而，实时限制频繁限制在线测试的准确性，特别是在现实机器人地形交互对模型复杂的情况下。在这方面，我们提出了一个深入的学习框架，训练了最后从海拔地图和轨迹到最终时尚，以估算失败事件的发生。通过OpenSimplex算法生成的合成贴图，首先在仿真中进行培训并测试网络。通过能够在计算时间的30处保留超过94次召回的原始模拟器来说明深度学习框架的预测性能。最后，在智利阿塔卡马沙漠的火星罗孚试验期间，在寻求者联盟收集的实际高度地图上转移和测试网络。我们表明，应用程序独立的预训练模型的转移和微调验证的性能比几乎可用的真实数据唯一的训练。

Orthogonal Ensemble Networks for Biomedical Image Segmentation
Authors Agostina J. Larrazabal, C sar Mart nez, Jose Dolz, Enzo Ferrante
尽管基于深度学习的令人惊讶的是基于视觉任务的方法，但是已知它们产生错误的预测，这可能对关键决策过程有害。合奏学习表明，不仅提高了个别模型的性能，而且通过平均独立预测，还降低了它们的错误稳定。在这种情况下，模型多样性已成为关键因素，这促进了融合到不同功能解决方案的各个模型。在这项工作中，我们介绍了正交集合网络OEN，这是一种通过正交约束明确实施模型分集的新框架。该方法基于以下假设，即诱导整体组成部分之间的正交性将增加整体模型多样性。我们求助于一个新的一对正交性约束，可用于规范顺序集合训练过程，导致改进的预测性能和更好的校准模型输出。我们在MR图像中将拟议脑病变分割任务脑肿瘤和白质强强度分割的提出框架基准。实验结果表明，我们的方法产生了更强大且校准的集合模型，可以在生物医学图像分割的背景下处理具有挑战性的任务。

MIASSR: An Approach for Medical Image Arbitrary Scale Super-Resolution
Authors Jin Zhu, Chuan Tan, Junwei Yang, Guang Yang, Pietro Lio
单图像超分辨率SISR旨在获得从一个低分辨率图像的高分辨率输出。目前，基于深度学习的SISR方法已经广泛讨论了医学图像处理，因为它们的潜力可以实现高质量，高空间分辨率图像而没有额外扫描的成本。但是，大多数现有方法都是针对规模特定的SR任务设计，并且无法通过放大尺度概括。在本文中，我们提出了一种用于医学图像任意规模超级分辨率MiSSR的方法，其中我们将Meta学习与生成的对抗网络GAN进行超级解析医学图像，以在1,4中以任何放大量表的缩放。与单模模态磁共振先生MR脑图像OASIS大脑和多模态MR脑图像BRATS相比，MISSR达到了可比的保真性能和最小的模型尺寸的最佳感知品质。我们还采用转移学习，使MISSR能够解决新医疗方式的SR任务，例如心脏MR图像ACDC和胸部计算机断层扫描图像COVID CT。我们工作的源代码也是公开的。因此，MISSR有可能成为临床图像分析任务中的新基础前后处理步骤，例如重建，图像质量增强和分段。

Denoising Noisy Neural Networks: A Bayesian Approach with Compensation
Authors Yulin Shao, Soung Chang Liew, Deniz Gunduz
嘈杂的神经网络Noisynns在存在噪声时参考NNS的推论和训练。噪声是固有的，在大多数通信和存储系统中因此，诺萨斯人在许多新的应用中出现，包括联合边缘学习，其中无线设备通过噪声无线信道协作训练NN，或者当NNS实现存储在模拟存储介质中时。本文研究了Noisynns的根本问题如何从嘈杂的观察或表现形式估计未受污染的NN重量。虽然所有先前的作品都依赖于最大似然ML估计，以最大化估计的NN重量的似然函数，但本文表明ML估计器通常是次优。为了克服传统ML估计器的次优，我们提出了一种文本MMSE PB估计器，以最小化具有群体补偿器和偏置补偿器的补偿均方误差MSE。我们的方法适用于1个嘈杂推断中产生的Noisynn，其中噪声仅在推理阶段在已经培训的NN权重和2个嘈杂的训练中引入，其中在训练过程中引入了噪声。在CIFAR 10和SST 2数据集上具有不同NN架构的大型实验验证了在用于代位于Noisynn的ML估计器上验证了文本MMSE PB估计器的显着性能。对于嘈杂的推断，嘈杂的Resnet34型号为156型，14.7对于嘈杂的训练嘈杂的BERT模型，平均收益高达18.1 dB的嘈杂resnet18模型。

Post-Radiotherapy PET Image Outcome Prediction by Deep Learning under Biological Model Guidance: A Feasibility Study of Oropharyngeal Cancer Application
Authors Hangjie Ji, Kyle Lafata, Yvonne Mowery, David Brizel, Andrea L. Bertozzi, Fang Fang Yin, Chunhao Wang
本文开发了一种基于预辐射图像和放射治疗剂量信息的辐射FDG PET图像结果预测的生物学引导的深度学习方法。基于经典反应扩散机制，使用局部微分方程提出了一种新的生物学模型，其将空间辐射剂量分布作为患者特异性处理信息变量。设计并培训了基于7层编码器解码器基于卷积的神经网络CNN，以学习所提出的生物模型。因此，该模型可以通过从Pre放射治疗图像状态到后放射治疗状态的可能时间序列转变产生后辐射FDG PET图像结果预测。所提出的方法是使用64个口咽患者开发的，前后20Gy交付2Gy每日分数的成对FDG宠物研究。在两个分支深度学习执行中，所提出的CNN在与一个分支中的配对FDG PET图像和空间剂量分布中学习生物模型中的特定术语，并且生物模型在另一个分支中产生第20Gy FDG PET图像预测。所提出的方法成功地生成了20Gy FDG PET图像结果预测生物模型组分的分解例。产生时间序列FDG宠物图像预测以证明疾病反应渲染的可行性。发达的生物学引导的深度学习方法实现了20Gy FDG PET图像结果预测与地面真理结果良好。通过分解生物学建模组件，可以在适应性放射治疗决策中使用结果图像预测，以优化未来最佳结果的个性化计划。

Automatic calibration of time of flight based non-line-of-sight reconstruction
Authors Subhash Chandra Sadhu, Abhishek Singh, Tomohiro Maeda, Tristan Swedish, Ryan Kim, Lagnojita Sinha, Ramesh Raskar
基于飞行的非视线的时间是NLOS成像方法需要精确地校准可见场景上的照明和探测器位置，以产生合理的结果。如果此校准误差足够高，则重建可能完全失败，而不会对用户进行任何指示。在这项工作中，我们突出了将自动校准构建成NLOS重建的必要性，以处理MIS校准。我们提出了一种关于两者，隐藏的场景ALBEDO和虚拟照明和探测器位置可分辨的NLOS测量的前向模型。只有平均平方错误损失和没有正常化，我们的模型通过使用梯度下降最小化测量残留来实现校准参数的联合重建和恢复。我们展示了我们的方法能够使用模拟和实际数据产生强大的重建，其中应用校准错误导致其他最终的算法失败。

High Throughput Soybean Pod-Counting with In-Field Robotic Data Collection and Machine-Vision Based Data Analysis
Authors Michael McGuire, Chinmay Soman, Brian Diers, Girish Chowdhary
我们报告了具有小型移动机器人和机器视觉算法的现场大豆POD计数的高吞吐量的有希望的结果。我们的研究结果表明，基于机器视觉的大豆POD计数与大豆产量强烈相关。虽然POD计数与大豆产量有很强的相关性，但POD计数是极其劳动密集型的，并且难以自动化。我们的结果确定，配备有视觉传感器的自治机器人可以在成熟时自主收集大豆数据。机器视觉算法可用于估算跨实验单元eus种植的大型多样性面板的POD计数，或者在高吞吐量，自动化的方式中的绘图。我们在自动化豆荚计数和大豆产量之间报告了0.67的相关性。在2020年生长季节期间，由伊利诺伊州大豆育种计划维护的1463个单行地块组成的实验中收集了数据。我们还报告了自动化POD计数和手动POD之间的0.88之间的相关性，并且在较小的16个图中计数较小的数据集。

Hyper-Convolution Networks for Biomedical Image Segmentation
Authors Tianyu Ma, Adrian V. Dalca, Mert R. Sabuncu
卷积操作是在计算机视觉中广泛使用的神经网络架构的中央积木。卷积内核的大小决定了卷积神经网络CNN的表现力，以及可读参数的数量。增加捕获丰富像素关系的网络容量需要增加学习参数的数量，通常导致过度装备和或缺乏鲁棒性。在本文中，我们提出了一个强大的新颖构建块，即超卷积，它隐含地代表卷积内核作为内核坐标的函数。超卷绕使能够解耦内核大小，从而从学习参数的数量来解耦内核大小。在我们的实验中，专注于挑战生物医学图像分割任务，我们展示了用超圆波的定期卷积导致更有效的架构，从而实现了提高的准确性。我们的分析还表明，所学到的超综合都是自然的，可以提供更好的泛化性能。我们认为，在解决计算机视觉任务的未来神经网络架构中，超卷叠可以是一个强大的构建块。

Prostate Gland Segmentation in Histology Images via Residual and Multi-Resolution U-Net
Authors Julio Silva Rodr guez, Elena Pay Bosch, Gabriel Garc a, Adri n Colomer, Valery Naranjo
前列腺癌是全球最普遍的癌症之一。降低其死亡率的关键因素之一是基于早期检测。该任务的计算机辅助诊断系统基于组织学图像中的腺结构分析。因此，准确的腺体检测和分割对于成功预测至关重要。这项工作的方法论是基于U净卷积神经网络架构的前列腺分段，该架构修改了残差和多分辨率块，使用数据增强技术训练。在测试子集中的残余配置优于现有技术的先前状态在图像级别比较中，达到0.77的平均骰子索引。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页