【AI视野·今日CV 计算机视觉论文速览第204期】Mon, 24 May 2021_driving-signal aware full-body avatars-CSDN博客

本文链接：https://blog.csdn.net/u014636245/article/details/117224818

AI视野·今日CS.CV 计算机视觉论文速览
Mon, 24 May 2021
Totally 65 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Computer Vision Papers

Intriguing Properties of Vision Transformers
Authors Muzammal Naseer, Kanchana Ranasinghe, Salman Khan, Munawar Hayat, Fahad Shahbaz Khan, Ming Hsuan Yang
视觉变压器Vit在各种机器视觉问题上表现出令人印象深刻的性能。这些模型基于多头自我注意机制，可以灵活地参加一系列图像修补程序以编码上下文提示。一个重要问题是在给定贴片上参加图像宽的上下文的这种灵活性是如何促进处理自然图像中的滋扰，例如，严重的闭塞，域移位，空间置换，对抗和天然扰动。我们通过广泛的一组实验来系统地研究了这个问题，包括三个Vit家族和与高性能卷积神经网络CNN的比较。我们展示和分析以下vit的有趣性质，变压器对严重的闭塞，扰动和域移位是高度稳健的，例如，即使在图像内容的随机堵塞80之后，也要在想象中保持高达60个顶部1精度。 b对闭塞的强劲性能不是由于朝向当地纹理的偏差，与CNN相比，VITS对纹理的偏置显着偏差。当受过适当训练以编码基于形状的特征时，VITS展示与人类视觉系统相当的形状识别能力，以前在文献中无与伦比。 C使用VIT来编码形状表示导致无需像素级别监控的准确语义分段的有趣后果。 D OFF从单个VIT模型中的架子功能可以组合以创建功能集合，从而在传统和少量射击学习范式中的一系列分类数据集中的高精度率。我们显示VITS的有效特征是由于自我注意机制可以实现灵活和动态的接受领域。

Towards Realization of Augmented Intelligence in Dermatology: Advances and Future Directions
Authors Roxana Daneshjou, Carrie Kovarik, Justin M Ko
使用深度学习的人工智能AI算法具有前进的皮肤病图像的分类，但这些算法主要应用于硅片，并且在临床上没有验证。大多数皮肤病学AI算法执行二进制分类任务。恶性与良性病变，但此任务不代表皮肤科医生诊断范围。美国皮肤病学院关于增强情报的工作队发表了一个职位陈述，强调临床验证创造人类计算机协同作用的重要性，被称为增强智力AUI。刘等人最近的纸张，一种深深的学习系统，用于皮肤病的鉴别诊断是AI在皮肤科中的显着进步，使其更接近临床影响。但是，必须在该算法集成到临床工作流程之前必须解决重要问题。这些问题包括准确且公平的模型开发，定义和评估适当的临床结果，以及现实世界的一体化。

Graph Convolutional Networks in Feature Space for Image Deblurring and Super-resolution
Authors Boyan Xu, Hujun Yin
图表卷积网络GCNS在处理非欧几里德结构数据方面取得了巨大成功。它们的成功直接属于拟合图形结构，有效地与社交媒体和知识数据库中的数据。对于图像处理应用，尚未完全探索图形结构和GCN的使用。在本文中，我们提出了一种新颖的编码器解码器网络，通过将特征映射转换为预先生成的图的顶点以合成构造图形结构数据来添加图形卷积。通过这样做，我们将Graph Laplacian正则化图形应用于特征映射，使其更具结构化。实验表明，它显着提高了图像恢复任务的性能，包括去孔和超级分辨率。我们认为它在更多应用程序中为GCN的方法开辟了机会。

Driving-Signal Aware Full-Body Avatars
Authors Timur Bagautdinov, Chenglei Wu, Tomas Simon, Fabian Prada, Takaaki Shiratori, Shih En Wei, Weipeng Xu, Yaser Sheikh, Jason Saragih
我们提出了一种基于学习的建设驾驶信号感知全身头像的方法。我们的模型是有条件的变形自动阳极，可以用不完全驱动信号（例如人类姿势和面部键点）的动画，并产生人类几何形状的高质量表示，并观察依赖性外观。我们的方法背后的核心直观是通过解开驱动信号和剩余的生成因子，可以实现更好的驾驶性和泛化，这些因素在动画期间不可用。为此，我们通过引入专门捕获剩余信息的潜在空间来明确地解释驱动信号中的信息缺陷，从而实现了全身动画期间所需的缺失因子的归档，同时保持忠于驱动信号。我们还提出了一种可学习的局部压缩，用于促进更好的泛化，并有助于最小化通常在真实数据集中发现的全球机会相关性的影响。对于给定的驱动信号，所得到的变分模型产生了缺失因素的紧凑的不确定性空间，其允许最适合于特定应用的归纳策略。我们展示了我们对虚线矩形全身动画挑战性问题的效果，利用从环境中的最小传感器获取并安装在VR耳机上的驱动信号。

Compositional Fine-Grained Low-Shot Learning
Authors Dat Huynh, Ehsan Elhamifar
我们开发了一种新颖的组成生成模型，用于零和少量学习，以识别有少数或没有培训样本的细粒度课程。我们的主要观察是为细粒度课程产生整体特征，无法捕获类之间的小属性差异。因此，我们提出了一个特征构成框架，用于从训练样本中提取属性特征，并将它们结合起来构建稀有和看不见的课程的细粒度特征。特征组合物允许我们不仅选择性地从相关的训练样本中选择地构成每个类的特征，而且还通过改变用于组合物的样品来获得组成特征之间的多样性。此外，除了为类构建整体特征，我们使用我们的属性功能来形成能够捕获群体的细粒度的细节的密集表示。我们提出了一种培训方案，它使用判别模型来构建随后用于训练模型本身的功能。因此，我们直接在组合的特征上培训歧视模型，而不学习单独的生成模型。我们在深入，AWA2，幼崽和太阳的四个流行数据集上进行实验，表明了我们方法的有效性。

Compressing Deep CNNs using Basis Representation and Spectral Fine-tuning
Authors Muhammad Tayyab, Fahad Ahmad Khan, Abhijit Mahalanobis
我们提出了一种用于压缩使用基滤波器的深卷积神经网络CNN的高效和直接的方法，以表示卷积层，并在基础空间中优化压缩网络的性能。具体地，CNN的任何空间卷积层可以由两个连续的卷积层代替，第一是一组三维正式基础滤波器，然后是一层一维滤波器，其表示基太空的原始空间滤波器。我们共同精细调整基础和过滤器表示，直接减轻由于截断而导致的任何性能损失。通过将其应用于几个众所周知的深的CNN架构和用于图像分类和对象检测的数据集来证明所提出的方法的一般性。我们还在Xavier Jetson AGX处理器上提供了不同压缩级别的执行时间和电源使用。

LAPAR: Linearly-Assembled Pixel-Adaptive Regression Network for Single Image Super-Resolution and Beyond
Authors Wenbo Li, Kun Zhou, Lu Qi, Nianjuan Jiang, Jiangbo Lu, Jiaya Jia
单个图像超分辨率SISR处理将低分辨率LR图像上采样为高分辨率HR版本的基本问题。最近几年目睹了深入学习方法推动的令人印象深刻的进步。然而，现有方法面临的一个危急挑战是打击深度模型复杂性的甜蜜点，并产生SISR质量。本文通过提出线性组装的像素自适应回归网络LAPAR来解决这种疼痛点，其将直接LR投射到HR映射学习到多个预定义滤波器基础的字典中的线性系数回归任务。这种参数表示使我们的模型高度轻巧且易于优化，同时在SISR基准上实现最新的状态。此外，基于同样的想法，延长了Lapar以解决其他恢复任务，例如图像去噪和JPEG图像去块，再次产生强烈的性能。代码可用

High Fidelity Fingerprint Generation: Quality, Uniqueness, and Privacy
Authors Keivan Bahmani, Richard Plesh, Peter Johnson, Stephanie Schuckers, Timothy Swyka
在这项工作中，我们利用基于渐进的生长生长的生长对抗网络，用于开发Clarkson指纹发生器CFG。我们证明CFG能够产生现实，高保真，512次以512次像素，完全，普通印象指纹。我们的结果表明，CFG生成的指纹是独特的，多样化的，并且在细节配置和质量方面类似于培训数据集，同时没有揭示培训数据的潜在身份。我们使预训练的CFG模型和公开发布的合成生成的数据集

Generalisable and distinctive 3D local deep descriptors for point cloud registration
Authors Fabio Poiesi, Davide Boscaini
有效的3D描述符应该不变地到不同的几何变换，例如比例和旋转，在闭塞和杂波的情况下重复，并且当用不同的传感器捕获数据时，在不同的情况下在不同的上下文中最长。我们提出了一种简单但有效的方法来学习可用于注册在不同传感器中不同上下文中捕获的点云的光纤和独特的3D本地描述符。点云补丁被提取，通过点置换不变深神经网络对其本地参考帧进行分化为刻度和旋转不变的紧凑描述符。我们的描述符可以通过本地和随机采样点有效地拓展传感器模式。我们在使用RGBD传感器和激光扫描仪重建的几个室内和室外数据集中使用替代手工制作和深度学习的描述符进行评估和比较我们的描述符。我们的描述符在泛化方面，在概括方面优于大量的描述符，并且在培训和测试在同一方案中执行培训和测试的基准也是最新的描述。

3D Human Pose Regression using Graph Convolutional Network
Authors Soubarna Banik, Alejandro Mendoza Gracia, Alois Knoll
3D人类姿势估计是一项艰巨的任务，因为诸如遮挡身体部位和暧昧的姿势等挑战。图表卷积网络以邻接矩阵的形式编码人骨架的结构信息，这对于更好的姿态预测是有益的。我们提出了一个名为Posegraphnet的一个图标卷积网络，用于从2D姿势的3D人类姿势回归。我们的网络使用特定于邻居组的自适应邻接矩阵和内核。我们评估我们在Human3.6M数据集上的模型，该数据集是3D姿态估计的标准数据集。我们的型号的性能接近现有技术，但参数较少。该模型学习没有物理连接的关节之间有趣的邻接关系，但行为地相似。

An Efficient Training Approach for Very Large Scale Face Recognition
Authors Kai Wang, Shuo Wang, Zhipeng Zhou, Xiaobo Wang, Xiaojiang Peng, Baigui Sun, Hao Li, Yang You
由于超大规模和良好的数据集，面部识别在深度学习时代取得了重大进展。但是，对超大型数据集的培训是耗时的，并且占用了很多硬件资源。因此，如何设计适当的培训方法是非常关键和不可或缺的。训练超大型数据集的计算和硬件成本主要集中在完全连接的FC层而不是卷积层上。为此，我们提出了一种用于超大型面部数据集的新颖训练方法，称为更快的脸部分类F 2 C.在F 2 C中，我们首先定义一个Gallery Net和探测网，用于生成身份中心，并分别提取面部识别的面部特征。 Gallery Net具有与探针网相同的结构，并从探针网继承具有移动平均范例的探针网的参数。之后，为了减少FC层的训练时间和硬件资源占用，我们提出了存储来自图库网络的功能的动态类池，并计算每个迷你批量中的正样品中的内部产品的内部产品登录。。动态类池可以被视为FC层的替代品，其尺寸远小于FC，这是动态类池可以大大降低时间和资源成本的原因。对于否定样本，其身份不会出现在动态类池中，我们最大限度地减少负样本和动态类池之间的余弦相似之处。然后，为了提高动态类池S参数的更新效率和速度，我们设计了包括基于身份的双加载器和基于实例的加载器。双加载器通过实例和标识从给定数据集中加载图像以生成批量进行培训。

Hierarchical Consistency Regularized Mean Teacher for Semi-supervised 3D Left Atrium Segmentation
Authors Shumeng Li, Ziyuan Zhao, Kaixin Xu, Zeng Zeng, Cuntai Guan
深入学习在3D左侧庭的MR图像上取得了有希望的细分表现。但是，用于分割任务的注释昂贵，昂贵且难以获得。在本文中，我们介绍了一种用于3D左心房分割的新型分层一致性正规均线均值框架。在每次迭代中，学生模型由多规模的深度监督和分层一致性正则化并发优化。广泛的实验表明，与完全注释相比，我们的方法达到了竞争性能，表现出艺术半监督分割方法的其他状态。

Behind the leaves -- Estimation of occluded grapevine berries with conditional generative adversarial networks
Authors Jana Kierdorf, Immanuel Weber, Anna Kicherer, Laura Zabawa, Lukas Drees, Ribana Roscher
由于全球葡萄酒市场的竞争增加，对葡萄栽培的准确收益率估算变得越来越重要。估计收获的最有希望的方法之一是浆果计数，因为它可以不破坏性地接近，其过程可以自动化。在本文中，我们提出了一种解决叶片遮挡浆果的挑战，以获得更准确的浆果浆果，使得能够更好地估计收获。我们使用生成的对抗网络，一种基于深度学习的方法，可以在叶子后面产生可能的场景，从而利用具有非闭塞浆果的图像的学习模式。我们的实验表明，应用我们的方法后的浆果数量更接近手动计数的参考。相反，施加对浆果计数的因素，我们的方法可以通过直接涉及可见浆果的外观更好地适应局部条件。此外，我们表明我们的方法可以通过添加新浆果来识别图像中的哪些区域，而无需明确要求隐藏区域的信息。

Analysis of voxel-based 3D object detection methods efficiency for real-time embedded systems
Authors Illia Oleksiienko, Alexandros Iosifidis
实时检测3D场景中的对象是自主代理需要执行以实现其周围环境的任务之一。虽然近期基于深度学习的解决方案实现了令人满意的性能，但它们的高计算成本使其在现实生活中的应用程序的应用，其中需要在嵌入式平台上执行计算。在本文中，我们分析了基于两个流行的Voxel的3D对象检测方法的效率，其基于两个方面的高性能和速度之间的良好折衷，它们检测位于距代理的大距离的物体及其在实际操作的能力之间的能力及其操作能力嵌入式平台上的时间配备了高性能GPU。我们的实验表明，由于在大距离的输入点云的稀疏性，这些方法主要是由于输入点云的稀疏而检测到远处的小物体。此外，与场景中所有对象的培训相比，近对象培训的模型实现了类似或更好的性能。这意味着模型从近对象中学习对象外观表示。我们的调查结果表明，现有方法的相当一部分的计算集中在现场的位置，该场景不与成功检测有关。这意味着该方法可以通过限制在对象附近的操作时实现40 60的速度，同时不会在性能下牺牲很多。

Sharing Pain: Using Domain Transfer Between Pain Types for Recognition of Sparse Pain Expressions in Horses
Authors Sofia Broom , Katrina Ask, Maheen Rashid, Pia Haubro Andersen, Hedvig Kjellstr m
矫形疾病是马匹中安乐死的常见原因，通常可以通过早期的检测来避免这种情况。这些条件往往会产生不同程度的微妙，但长期痛苦。训练视觉疼痛识别方法具有描绘这种疼痛的视频数据是挑战性的，因为由此产生的疼痛行为也是微妙的，稀疏地出现和变化，使得甚至是专家人类贴标者的挑战，为数据提供准确的基础事实。我们展示了从马匹数据集的传输特征，其中具有急性伤害疼痛，其中标签不那么模糊，可以帮助学习识别更复杂的整形外观疼痛。此外，我们为该问题提供了人类专家基线，以及对各种领域转移方法的广泛实证研究以及由疼痛识别方法检测到训练在整形外科数据集中的急性疼痛的内容。最后，这伴随着围绕现实世界动物行为数据集所带来的挑战以及如何为类似的细粒度行动识别任务建立最佳实践的讨论。我们的代码可供选择

Multi-Task, Multi-Domain Deep Segmentation with Shared Representations and Contrastive Regularization for Sparse Pediatric Datasets
Authors Arnaud Boutillon, Pierre Henri Conze, Christelle Pons, Val rie Burdin, Bhushan Borotikar
磁共振MR图像的自动分割对于临床实践中儿科肌肉骨骼系统的形态学评估至关重要。然而，由于限制的分组儿科数据，各个分割模型的准确性和泛化性能受到限制。因此，我们建议在多个任务和多域学习框架中培训从解剖学的不同部分引起的多个数据集进行分段模型。这种方法允许克服儿科数据的固有稀缺，同时受益于更强大的共享表示。所提出的分割网络包括共享卷积滤波器，构成各个数据集统计和域特定分割层的域特定批量归一化参数。此外，通过促进域内相似性并施加嵌入式空间中的域间边距，集成了监督的对比规范化以进一步改善泛化能力。我们评估我们对踝部和肩关节的两个小儿成像数据集的贡献，用于骨骼分割。结果表明，所提出的模型优于现有技术的态度。

Extremely Lightweight Quantization Robust Real-Time Single-Image Super Resolution for Mobile Devices
Authors Mustafa Ayazoglu
单图像超分辨率SISR是一种经典的计算机视觉问题，已经研究过几十年。随着最近深入学习方法的成功，近期SISR的工作会使解决方案具有深入学习方法，实现最新的艺术结果。然而，最先进的SISR方法包含数百万个参数和层，这限制了它们的实际应用。在本文中，我们提出了一种硬件突触海豚NPU限制意识，极轻量化稳健的实时超分辨率网络XLSR。所提出的模型S构建块受到用于图像分类的根模块的启发。我们成功将根模块应用于SISR问题，更重要的是使模型UINT8量化强大我们在网络的最后一层使用剪切refu，并在重建质量和运行时实现了很大的平衡。此外，虽然所提出的网络包含比VDSR在DIV2K验证集上的vdsr超过VDSR的参数较少。该网络通过赢得移动AI 2021实时单图像超分辨率挑战证明了自己。

Joint Triplet Autoencoder for Histopathological Colon Cancer Nuclei Retrieval
Authors Satya Rajendra Singh, Shiv Ram Dubey, Shruthi MS, Sairathan Ventrapragada, Saivamshi Salla Dasharatha
深度学习表明了视觉任务的表现良好。图像检索是从用于查询图像的数据库中提取视觉上类似图像的任务。执行特征匹配以对图像进行排序。过去派出了各种手设计功能以代表图像。如今，正在利用深度学习的力量来从生物医学图像分析领域中的数据自动特征学习。 AutoEncoder和Siamese网络是两个深度学习模型，用于学习潜在空间，即，功能或嵌入。 AutoEncoder基于从潜在空间的重建重建图像。暹罗网络利用三联网来学习帧内相似性和跨异性的异化。此外，AutoEncoder是无人监督的，而暹罗网络是监督的。我们通过促进AutoEncoder框架中的Triplet学习，提出了一个联合三联族自动化器网络JTANET。执行暹罗网络的联合监督学习，无监督自动化器学习。此外，AutoEncoder的编码器网络与暹罗网络共享并称为SiamCoder网络。通过使用训练的赛车网络来提取该特征以进行检索目的。通过组织病理学常规结肠癌数据集进行实验。我们已经观察到使用拟议的JTANET模型对来自AutoEncoder和暹罗模型的拟议的JTANET模型进行组织病理学图像中的结肠癌核检索。

Multi-color balance for color constancy
Authors Teruaki Akazawa, Yuma Kinoshita, Hitoshi Kiya
在本文中，我们提出了一种用于色彩恒定的新型多色平衡调整。所提出的方法称为N色平衡，允许我们在相应的地面真理颜色的基础上完全正确地正确校正N个目标颜色，而是纠正除N颜色以外的颜色。相比之下，虽然白色平衡可以完全调整白色，但在白色平衡框架中不考虑白色的颜色。在实验中，证明了所提出的多色平衡以优于包括Bradford S模型的传统白色和多色平衡调整。

Omni-supervised Point Cloud Segmentation via Gradual Receptive Field Component Reasoning
Authors Jingyu Gong, Jiachen Xu, Xin Tan, Haichuan Song, Yanyun Qu, Yuan Xie, Lizhuang Ma
神经网络中的隐藏功能通常无法学习3D分段的信息表示，因为仅在输出预测上给出了监控，而这可以通过OMNI级别监控来解决中间层。在本文中，我们通过所提出的逐渐接收领域分量推理RFCR将第一OMNI规模监控方法提出点云分割，其中目标接收场分量代码RFCC被设计为在编码器中的隐藏单元的接收单元中记录类别。然后，目标RFCC将监控解码器以逐渐以粗略类别推理的RFCC逐渐推断，并且最终获得语义标签。由于许多隐藏的功能具有微小幅度的非活动状态并对RFCC预测进行了微小的贡献，因此我们提出了一种具有离心电位的特征致密化，以获得更明确的功能，并且它实际上是相当于通过特征的熵正则化。更具活跃的功能可以进一步释放我们的Omni监督方法的潜力。我们将我们的方法嵌入四个主要的骨干网上，并在三个具有挑战性的基准测试中进行测试。我们的方法可以在所有三个数据集中显着改善骨干网。具体而言，我们的方法为S3DIS以及语义3D带来了新的最新状态，并在基于点的所有点的方法中排列了SCANNet基准中的第1位。代码将公开提供

DAVOS: Semi-Supervised Video Object Segmentation via Adversarial Domain Adaptation
Authors Jinshuo Zhang, Zhicheng Wang, Songyan Zhang, Gang Wei
域移位始终是视频对象分段VOS中的主要问题之一，其中型号在在不熟悉的数据集上测试时的变性。最近，许多在线方法通过微调通常缺乏的测试数据的注释来缩小训练数据源域和测试数据目标域之间的性能差距。在本文中，我们提出了一种新的方法，通过首先向VOS任务引入对抗域适应来解决域名，对源域的监督培训和目标领域无监督培训。通过融合卷积层的外观和运动特征，并通过向运动分支添加监控，我们的模型在Davis2016上实现了最新的艺术表现，82.6在监督培训后的平均IO次成绩。同时，我们的对抗域适应策略显着提高了在FBMS59和YouTube对象上应用训练模型的性能，而无需利用额外的注释。

Multimodal Remote Sensing Benchmark Datasets for Land Cover Classification with A Shared and Specific Feature Learning Model
Authors Danfeng Hong, Jingliang Hu, Jing Yao, Jocelyn Chanussot, Xiao Xiang Zhu
由于从不同传感器获得的遥感RS数据很大程度上和公开地获得，多式联数据处理和分析技术已经在RS和地球科学群落中越来越兴趣。然而，由于在成像传感器，分辨率和内容方面不同的方式之间的差距，将互补信息嵌入到一致，紧凑，准确和歧视性的表现，在很大程度上仍然挑战。为此，我们提出了一个共享和特定的特征学习S2FL模型。 S2FL能够将多峰RS数据分解成模态共享和模态特定组件，使得能够更有效地实现多模态的信息混合，特别是对于异构数据源。此外，为了更好地评估多模式基线和新提出的S2FL模型，三个多模式RS基准数据集，即HOUSTON2013高光谱和多光谱数据，柏林高光谱和合成孔径雷达SAR数据，Augsburg高光谱，SAR和数字表面模型DSM数据，是发布并用于土地覆盖分类。在三个数据集上进行的广泛实验证明了我们的S2FL模型在与先前提出的最先进的基线的陆地覆盖分类任务中的优势和进步。此外，本文中使用的基线代码和数据集将可自由地提供

Aligning Visual Prototypes with BERT Embeddings for Few-Shot Learning
Authors Kun Yan, Zied Bouraoui, Ping Wang, Shoaib Jameel, Steven Schockaert
很少有镜头学习FSL是学习以少量训练示例识别以前看不见的图像类别的任务。这是一个具有挑战性的任务，因为可用的例子可能不足以明确确定哪些视觉特征是所考虑的类别最特征。为了缓解此问题，我们提出了一种另外考虑图像类的名称的方法。在以前的工作中已经探讨了类名的使用，但我们的方法在两个关键方面不同。首先，虽然以前的工作旨在直接从Word Embeddings预测视觉原型，但我们发现可以通过单独处理视觉和基于文本的原型来获得更好的结果。其次，我们提出了一种使用BERT语言模型来学习类名称嵌入式的简单策略，我们发现我们发现它基本上优于以前的工作中使用的手套向量。我们此外，我们提出了一种处理这些载体的高度维度的策略，其灵感来自于对齐十字舌闭合的模型。我们在Miniimagenet，Cub和Tieredimagenet上提供实验，表明我们的方法一直在基于公制的FSL中提高了最新技术。

Pyramid Fusion Dark Channel Prior for Single Image Dehazing
Authors Qiyuan Liang, Bin Zhu, Chong Wah Ngo
本文提出了金字塔融合暗信道以先前的PF DCP进行单幅图像去吸附。基于众所周知的黑暗信道之前的DCP，我们通过在多尺度图像的金字塔处采用DCP算法来引入简单但有效的方法PF DCP，以减轻补丁尺寸选择的问题。在这种情况下，我们通过融合在每个级别的传输映射来获得最终传输地图，以恢复高质量的雾度自由图像。驻留SORS的实验表明，PF DCP不仅优于传统的基于先前的方法，还具有较大的余量，而且还实现了艺术深度学习方法的可比性甚至更好的结果。此外，视觉质量也大大提高，颜色扭曲和晕圈伪影少得多。

Combining Transformer Generators with Convolutional Discriminators
Authors Ricard Durall, Stanislav Frolov, Andreas Dengel, Janis Keuper
变压器模型最近吸引了计算机视觉研究人员的许多兴趣，此后已成功用于传统上与卷积神经网络的几个问题。同时，使用生成的对抗性网络GAN的图像合成在过去几年中大大提高。最近提出的转发是第一个使用基于变压器的架构的GaN，并且与卷积的GANS相比，达到竞争力的结果。然而，由于变压器是数据饥饿的架构，因此转发需要数据增强，训练期间的辅助超分辨率任务，以及在引导自我注意机制之前的掩模。在本文中，我们研究了基于变压器的发电机和卷积鉴别器的组合，并成功消除了上述所需设计选择的需要。我们通过开展众所周知的CNN鉴别器的基准来评估我们的方法，消除基于变压器的发电机的大小，并表明将两个体系结构元素组合成混合模型导致更好的结果。此外，我们研究了所生成的图像的频谱特性，并观察我们的模型保留了基于注意的发电机的益处。

Rotation invariant CNN using scattering transform for image classification
Authors Rosemberg Rodriguez Salas LIGM , Eva Dokladalova LIGM , Petr Dokl dal CMM
深度卷积神经网络精度受输入数据的旋转受到严重影响。在本文中，我们提出了一种卷积预测器，其不变于输入中的旋转。该架构能够预测没有角度注释数据的角度方向。此外，预测器将输入的随机旋转连续地映射到预测的圆形空间。为此目的，我们使用带有一系列3D卷积的散射变换网络中存在的Roto转换属性。我们通过用直立和随机旋转的样品培训来验证结果。这允许在自动RE定向的字段上进一步应用此工作，如随机定向数据集的自动重新定位。

Act Like a Radiologist: Towards Reliable Multi-view Correspondence Reasoning for Mammogram Mass Detection
Authors Yuhang Liu, Fandong Zhang, Chaoqi Chen, Siwen Wang, Yizhou Wang, Yizhou Yu
乳房X线照片质量检测对于诊断和预防临床实践中的乳腺癌至关重要。多视图乳房X光图像的互补效果提供了有关乳房解剖现有结构的有价值的信息，并且在数字乳房X线摄影解释中具有重要意义。然而，与能够利用基于多种乳房X线图的自然推理能力来识别群众的放射科医师，如何赋予现有的对象检测模型具有多视图推理的能力对于临床诊断的决策，但仍然是探索的边界。在本文中，我们提出了一个解剖学意识的图形卷积网络AGN，其针对乳房X光检查量身定制，赋予了多视图推理能力的现有检测方法。拟议的AGN由三个步骤组成。首先，我们介绍了一款二角形图卷积网络BGN，以模拟同侧视图的内在几何和语义关系。其次，考虑到在临床实践中广泛采用双边视图的视觉不对称，以协助乳房病变的诊断，我们提出了一个成立图卷积网络IGG以模拟双边观点的结构相似之处。最后，基于所构造的图，多视图信息有理由地通过节点传播，其通过多视图推理能力提供从检查视图中学到的特征。两个标准基准的实验表明，AGN显着超出了最先进的性能。可视化结果表明，AGN为临床诊断提供可解释的视觉提示。

GSSF: A Generative Sequence Similarity Function based on a Seq2Seq model for clustering online handwritten mathematical answers
Authors Huy Quang Ung, Cuong Tuan Nguyen, Hung Tuan Nguyen, Masaki Nakagawa
对于计算机辅助标记进行描述性数学问题，本文介绍了在线手写数学表达式Onhmes的聚类，帮助人类标记以有效可靠地标记它们。我们提出了一种基于序列序列ONHME识别器来计算两个ONHME的相似性得分的生成序列相似函数。每个Onhme由基于相似性的表示SBR向量表示。 SBR矩阵被输入到K表示群集ONHMES算法。实验是在答案数据集DSECE和200个问题中的每个问题和综合模式的答案数据集DSEC组合和最多为122个学生答案的综合模式，最多适用于15个问题。对于纯度约0.916和0.915，分别为DSCE和NIER CBT的标记成本约为0.916和0.915的最佳聚类结果。我们的方法目前优于以前的群集HMES方法。

Global Context for improving recognition of Online Handwritten Mathematical Expressions
Authors Cuong Tuan Nguyen, Thanh Nghia Truong, Hung Tuan Nguyen, Masaki Nakagawa
本文为在线手写数学表达式HMES中的符号分割，符号识别和关系分类的所有三个子组织的时间分类方法。分类模型由来自HME的符号关系树SRT表示的多个符号和空间关系训练。该方法从深度双向长期短期内存网络的全局背景中的益处，它通过连接主人时间分类丢失直接从网上手写中学习时间分类。为了识别在线HME，构建了一种带有上下文语法的符号级解析树，其中从时间分类结果获得符号和空间关系。我们在两个最新的Crohme数据集中展示了所提出的方法的有效性。

ViPNAS: Efficient Video Pose Estimation via Neural Architecture Search
Authors Lumin Xu, Yingda Guan, Sheng Jin, Wentao Liu, Chen Qian, Ping Luo, Wanli Ouyang, Xiaogang Wang
人类姿势估计近年来取得了重大进展。然而，最近的大部分方法都侧重于使用复杂模型提高准确性，并忽略实时效率。为了在准确性和效率之间取得更好的折断，我们提出了一种新的神经结构搜索NAS方法，被称为VIPNA，以便在空间和时间级别中搜索快速在线视频姿势估计。在空间级别，我们仔细设计了五个不同尺寸的搜索空间，包括网络深度，宽度，内核大小，组号和注意。在时间级别，我们从一系列时间特征融合中搜索，以优化多个视频帧的总准确性和速度。据我们所知，我们是第一个寻找视频中的时间特征融合和自动计算分配的首先。广泛的实验证明了我们对挑战Coco2017和Posetrack2018数据集的方法的有效性。我们发现的模型家庭，vipnas和t vipnas，与前一个现有技术相比，实时达到明显更高的推理速度CPU，而不牺牲精度。

Safety Metrics for Semantic Segmentation in Autonomous Driving
Authors Chih Hong Cheng, Alois Knoll, Hsuan Cheng Liao
在自动驾驶的背景下，广泛研究了深度神经网络的安全相关度量，用于图像分类和对象检测。在本文中，我们进一步考虑了专门用于语义细分的安全意识的正确性和鲁棒性度量。我们提案的新颖性是移动超越像素级别指标，给出两个具有阶级的诸如作为类的n个像素的图像，所设计的指标应该根据作为阶级的像素的聚类或发生的位置，反映了不同的安全级别关键性。在自主驾驶数据集上评估的结果展示了我们提出的方法的有效性和实用性。

Visual representation of negation: Real world data analysis on comic image design
Authors Yuri Sato, Koji Mineshima, Kazuhiro Ueda
有一个广泛的视图，即视觉表示，例如，照片和插图没有描绘否定，例如，可以由火车不来的句子表达的否定。这种观点是通过分析漫画漫画插图的真实世界视觉陈述来验证挑战。在使用图像标题任务的实验中，我们给了人们漫画插图，并要求他们解释他们可以从中读取的内容。收集的数据表明，一些漫画插图可以描绘否定，而无需任何序列多面板或传统设备特殊符号的辅助。这种类型的漫画插图进行了进一步的实验，将图像分类为含有否定的图像和不包含否定的人。虽然这种图像分类很容易对人类来说，但数据驱动的机器很难，即，深度学习模型CNN，实现相同的高性能。鉴于调查结果，我们争论一些漫画插图唤起了背景知识，因此可以描绘与纯粹视觉元素的否定。

A Novel 3D-UNet Deep Learning Framework Based on High-Dimensional Bilateral Grid for Edge Consistent Single Image Depth Estimation
Authors Mansi Sharma, Abheesht Sharma, Kadvekar Rohit Tushar, Avinash Panneer
预测平滑和边缘一致深度图的任务对于单个图像深度估计是众所周知的。本文提出了一种新颖的双边网格基于网格的3D卷积神经网络，称为3DBG UNET，通过用磁头和Infers的场景尖锐的几何布局编码紧凑的3D双边网格来参数化高维特征空间。此外，引入了另一个新颖的3DBGES UNET模型，其集成了3DBG UNET给出单个颜色视图的准确深度图。 3DBGES UNET通过启动网络边缘突出图和通过利用语义分割而获得的空间对象S边界映射和使用RESET骨干网进行培训的空间对象S边界映射来连接3DBG UNET几何图。这两种型号都是特别注意的，以明确地解释边缘或分钟细节。在深度边缘处保留急剧的不连续性对于许多应用是至关重要的应用，例如AR视频或遮挡的虚拟对象的逼真集成3D显示应用。所提出的深度预测网络在定性和定量评估中实现了最新性能的状态。挑战NYUV2深度数据。代码和相应的预训练权重将公开可用。

Backdoor Attacks on Self-Supervised Learning
Authors Aniruddha Saha, Ajinkya Tejankar, Soroush Abbasi Koohpayegani, Hamed Pirsiavash
大规模未标记的数据允许在自我监督的学习方法中允许进展，了解丰富的视觉表现。最先进的自我监督用于学习图像MoCo和Byol的陈述的方法使用不同的增强的电感偏差。图像的随机作物应该产生类似的嵌入品。我们表明，此类方法容易受到后门攻击，攻击者通过添加攻击者已知到图像的小触发器来忽视未标记数据的一部分。在清洁测试图像上的模型性能良好，但攻击者可以通过在测试时间显示触发来操纵模型的决定。在监督学习和我们所知的最佳学习中，已经过度研究了后门攻击，我们是第一个研究他们为自我监督学习的学习。由于未标记的数据很大，因此在自我监督的学习中，后门攻击更实用，因此，避免有毒数据存在的数据是令人望而却步的。我们展示在我们的目标攻击中，攻击者可以通过在测试时间触发来为目标类别产生许多误报。我们还提出了一种知识蒸馏的防御算法，该算法成功地中和攻击。我们的代码可在此处提供

IDEAL: Independent Domain Embedding Augmentation Learning
Authors Zhiyuan Chen, Guang Yao, Wennan Ma, Lin Xu
许多努力都致力于在高级深度度量学习DML损失目标中设计采样，挖掘和加权策略。但是，很少关注低水平但基本的数据转换。在本文中，我们开发了一种新颖的机制，独立域嵌入增强学习理想方法。它可以同时学习由预定义数据转换生成的多个域的多个独立嵌入空间。我们的理想与现有的DML技术正交，可以与先前的DML方法无缝结合，以提高性能。视觉检索任务的经验结果证明了所提出的方法的优越性。例如，理想提高了大型利润率，84.5右前程87.1在召回1上的65.8右前臂69.5的大型利润率。我们具有MS损失的理想也实现了三个图像检索基准测试的新状态，即EMPH CUP，EMPH CUB 200和EMPH SOP。它优于最近的DML方法，例如圆损和XBM，显着。我们方法的源代码和预训练模型将在Emph URL上使用

Guidance and Teaching Network for Video Salient Object Detection
Authors Ge Peng Ji, Xiao Wang, Yu Cheng Chou, Yuming Fang, Shouyuan Yang, Rong Zhu, Ge Gao
由于挖掘空间时间线索的困难，视频突出物体检测VSOD的现有方法是了解复杂和嘈杂的场景，并且通常在推断突出的对象中失败。为了减轻这种缺点，我们提出了一个简单但有效的架构，称为指导和教学网络GTNet，分别独立地蒸发了有效的空间和时间线索，分别具有隐含的指导和明确教学，在特征和决策水平上进行了明确的教学。具体而言，我们将时间调制器引入临时调制器，以将来自运动的桥接特征覆盖到外观分支，该外观分支能够融合协作的跨模型特征，并且B利用运动引导掩模在特征聚合期间使用运动引导掩模传播显式线索。这种新颖的学习策略通过将复杂的空间时间线索解耦并在不同方式上映射信息性提示来实现令人满意的结果。关于三个具有挑战性的基准测试的广泛实验表明，该方法可以在单个Titan XP GPU上以28 FPS运行，并竞争地对抗14个切削刃基线。

EMface: Detecting Hard Faces by Exploring Receptive Field Pyraminds
Authors Leilei Cao, Yao Xiao, Lin Xu
规模变异是面部检测中最具挑战性问题之一。现代脸部探测器采用特征金字塔来处理规模变异。但是，它可能会破坏不同尺度的面孔的功能一致性。在本文中，我们提出了一个简单但有效的方法，命名为接受场金字塔RFP方法，以提高特征金字塔的表示能力。它可以基于检测到的面的变化尺度自适应地学习每个特征图中的不同接收领域。两面检测基准数据集的经验结果，即更广泛的面部和UFDD，证明我们的提出方法可以显着加速推理率，同时实现最新性能的状态。我们的方法的源代码可用于URL

Direct Simultaneous Multi-Image Registration
Authors Zhehua Mao, Liang Zhao, Shoudong Huang, Yiting Fan, Alex Pui Wai Lee
本文介绍了一种新颖的算法，其以同时的方式寄存一系列单一模态3D图像，命名为直接同时注册DSR。该算法基于图像的强度直接优化本地帧的全局姿势，而无需从图像中提取特征。为了获得最佳结果，开始使用制定直接束调整DBA问题，该DBA问题共同优化本地框架的姿势参数和全景图像的强度。通过在迭代过程中从全景图像证明姿势的独立性，提出了DSR，并证明能够产生与DBA相同的最佳姿势，但不优化全景图像的强度。所提出的DSR方法特别适用于单型模态注册，并且在不可用的不同特征的情况下，例如经细胞眼科超声心动图TEE图像。所提出的方法通过模拟和体内3D T恤图像进行验证。结果表明，在准确性方面，所提出的方法优于传统的顺序登记方法，并且获得的结果可以在体内图像中产生良好的对准。

An interpretable object detection based model for the diagnosis of neonatal lung diseases using Ultrasound images
Authors Rodina Bassiouny 1 , Adel Mohamed 2 , Karthi Umapathy 1 , Naimul Khan 1 1 Ryerson University, Toronto, Canada, 2 Mount Sinai Hospital, University of Toronto, Toronto, Canada
在过去的几十年中，肺超声波LU越来越多地用于诊断和监测新生儿的不同肺病。它是一种非侵入性工具，可以快速床头旁检查，同时最小地处理新生儿。获取LUS扫描很容易，但了解涉及每种呼吸系统疾病的伪影是挑战性的。在不同呼吸系统疾病中发现的混合工件模式可能会限制操作员的可读性。虽然机器学习ML，尤其是深度学习可以帮助自动分析，但只需将超声图像送到ML模型以进行诊断，不足以获得医疗专业人员的信任。该算法应该输出操作员熟悉的LUS功能。因此，在本文中，我们提出了一种独特的方法来提取七种有意义的LUS功能，可以容易地与特定病理肺状况正常胸膜，不规则的胸膜，厚的胸膜，allines，聚结B线，单独的B线和整合。这些伪影可能导致早期预测婴儿发育后期呼吸窘迫症状。基于单级别的基于物体的物体检测模型更快地训练了RCNN FRCNN的较低后肺超声波视频，以检测这些LUS特征，该特征进一步与四种常见的新生儿疾病相关联。我们的结果表明，FRCNN超越单级型号，如RetinAnet，可以成功地检测上述LUS功能，平均平均精度为86.4。而不是从图像的完全自动诊断没有任何可解释性，而是检测这种LUS功能将诊断的最终控制诊断为临床医生，这可能导致更可靠的智能系统。

An Optical physics inspired CNN approach for intrinsic image decomposition
Authors Harshana Weligampola, Gihan Jayatilaka, Suren Sritharan, Parakrama Ekanayake, Roshan Ragel, Vijitha Herath, Roshan Godaliyadda
内在图像分解是生成图像的成分的打开问题。从单个图像产生反射率和阴影是一个具体的任务，特别是当没有地面真相时。使用单个图像缺乏将图像分解成反射率和阴影的无监督学习方法。我们提出了一种能够使用从图像导出的基于物理学的参数的神经网络架构。通过实验结果，我们表明，所提出的方法优于现有的基于深度学习的IID技术和B衍生参数显着提高了功效。我们得出结论，仔细分析了结果数值和示例图像，显示了几个改进的途径。

Opening Deep Neural Networks with Generative Models
Authors Marcos Vendramini, Hugo Oliveira, Alexei Machado, Jefersson A. dos Santos
通常培训图像分类方法以考虑预定义的已知类别的预测。然而，现实世界问题可能不允许完全了解输入和标签空间，使得识别危害对深度视觉学习的故障。开放式识别方法的特点是正确识别已知和未知类的输入。在此上下文中，我们提出了Gemos简单和即插即用的开放式识别模块，可以附加到预磨料的深度神经网络以进行视觉识别。 GEMOS框架对具有用于开放式识别的生成模型的Pre培训的卷积神经网络，以提取每个样本的开放组分数，允许在对象识别任务中进行故障识别。我们对该提出的方法进行了彻底的评估，与最新的开放式算法相比，找到了Gemos，要么从更复杂和昂贵的模型中均无致密地区分。

Robust Unsupervised Multi-Object Tracking in Noisy Environments
Authors C. H. Huck Yang, Mohit Chhabra, Y. C. Liu, Quan Kong, Tomoaki Yoshinaga, Tomokazu Murakam
相机运动和不可预测的环境条件，如灰尘和风诱导噪声进入视频饲料。我们观察到流行的无监督的MOT方法取决于无噪声条件。我们表明，添加了少量人工随机噪声导致基准度量上的模型性能急剧下降。我们通过引入强大的无监督多目标跟踪MOT模型ATTU网来解决此问题。所提出的单个头部注意力模型有助于通过在不同段尺度上学习视觉表示来限制噪声的负面影响。 ATTU网显示了更好的无监督MOT跟踪性能，从基于变分推理的最佳艺术基线。我们在Mnist和Atari游戏视频基准中评估我们的方法。我们还提供了两个扩展的视频数据集，包括复杂的视觉模式，包括Kuzushiji字符和时尚图像，以验证所提出的方法的有效性。

VLM: Task-agnostic Video-Language Model Pre-training for Video Understanding
Authors Hu Xu, Gargi Ghosh, Po Yao Huang, Prahal Arora, Masoumeh Aminzadeh, Christoph Feichtenhofer, Florian Metze, Luke Zettlemoyer
我们提出了一种简化的任务不可知的多模态预训练方法，可以接受视频或文本输入，或者两者都可以用于各种最终任务。现有的预培训是通过采用需要两个模式的单个跨模型编码器来完成特定的任务，这限制了他们对检索式最终任务或更复杂的多任务学习，以两个单峰编码器来限制早期跨模型融合。相反，我们介绍了新的预先预防掩蔽方案，更好地跨多种方式混合。通过强制文本的掩码来预测最接近的视频嵌入，同时也保持可分离性。有时需要单峰预测，而无需使用所有输入。实验结果表明，比任何先前的方法都在更广泛的任务中表现出强烈的性能，通常优于特定的任务预训练。

Pseudo Pixel-level Labeling for Images with Evolving Content
Authors Sara Mousavi, Zhenning Yang, Kelley Cross, Dawnie Steadman, Audris Mockus
用于语义分割的注释图像需要强烈的体力劳动，并且是一种耗时和昂贵的任务，特别是对于稀缺专家的域，例如法医人类学。我们利用描绘人类分解数据中的衰变过程的图像的不断变化的性质，以设计一个简单但有效的伪像素级标签生成技术，以减少手动注释这种图像的努力量。我们首先识别具有最小变化的图像序列，最适合使用无监督方法共享相同或类似的注释。在每个序列中给定一个用户注释图像，我们通过用基于领域的伪标签生成技术的状态产生的注释来将注释传播到序列中的剩余图像。为了评估我们伪像素级标签的质量，我们在使用伪标签方法和最先进方法的状态标记的图像上使用VGG和RESET BACKBONE列出两个语义分段模型。结果表明，使用我们的伪标签而不是使用现有技术的现实方法生成的那些在训练过程中提高了VGG和基于Reset的语义分段模型的平均IOU和频率加权IOU 3.36,2.58,10.39和12.91分别。

Going Deeper through the Gleason Scoring Scale: An Automatic end-to-end System for Histology Prostate Grading and Cribriform Pattern Detection
Authors Julio Silva Rodr guez, Adri n Colomer, Mar a A. Sales, Rafael Molina, Valery Naranjo
Gleason评分系统是前列腺癌的主要诊断和预后工具。近年来，随着数字化装置的发展，使用计算机视觉技术进行活组织检查的分析。然而，据作者所知，文献中尚未研究算法的发展，以自动检测属于Gleason 4级的单个Cribriform模式。本文提出的工作的目的是开发一个基于深度学习的系统，能够在每日分析前列腺活检时支持病理学家。这项工作的方法论核心是一种基于卷积神经网络的补丁设计模型，能够确定癌症图案的存在。特别是，我们从划伤中训练一个简单的自我设计架构。通过再培训网络中的最后一个卷积层的滤波器的一组滤波器来检测地区图案。从重建的预测图中，我们计算组织中的每个GLEASE等级的百分比，以馈送多层的Perceptron，该方法提供了一种活组织检查水平分数。我们的SICAPv2数据库由182个注释的整个幻灯片图像组成，我们获得了一个COHEN S二次κBAPPA在试验组中为0.77的贴片水平Glason分级与从头开始训练的拟议架构进行分级。我们的结果优于前面的文献中报告的。此外，该模型在基于患者的四组交叉验证中达到了患者的艺术架构的微调状态水平。在Cribriform模式检测任务中，我们在ROC曲线下获得了0.82的区域。关于活检Glason评分，在测试子集中实现了0.81的二次Cohen S Kappa。浅CNN架构从刮擦胜过现有技术的现有状态，用于Gleason等级分类。

Elliptical Ordinal Embedding
Authors A ssatou Diallo, Johannes F rnkranz
序数嵌入旨在从表单项目j的一组约束找到对象的低维表示，而不是项目k。通常，每个对象被映射到低维度量空间中的点向量上。我们认为映射到密度而不是点向量提供一些有趣的优势，包括对表示本身的不确定性及其空间中相对位置的固有反映。实际上，在本文中，我们建议将每个对象嵌入高斯分布。我们调查这些嵌入的能力捕获数据的底层结构，同时满足约束，并探索表示的属性。综合性和现实世界数据集的实验展示了我们方法的优势。此外，我们说明了建模不确定性的优点，这丰富了对空间中映射对象的视觉感知。

Distinguishing artefacts: evaluating the saturation point of convolutional neural networks
Authors Ric Real, James Gopsill, David Jones, Chris Snider, Ben Hicks
在上班现有工作表明，卷积神经网络CNNS在代理计算机辅助设计CAD模型上培训，能够从照片中检测和分类现实世界的人工制品。其在设计中支持数字和物理资产的孪生的应用，包括从模型存储库，信息搜索检索和识别领域中的零件几何的快速提取，以进行维护，修复和录制。已依赖于培训数据集大小和类别的分类任务中的CNNS在分类任务中的性能。在先前作品使用相对小的代理模型数据集100型号的情况下，问题仍然是CNN在越来越大的模型存储库中区分模型之间的能力。本文介绍了一种从在线CAD模型存储库生成合成图像数据集的方法，并进一步调查了在综合数据上培训的架子CNN架构的容量，以将模型分类为类大小增加。策划和加工1,000种CAD模型以产生大规模代理数据集，以10次电路，30次电路，60次电路和120条电路度和120条电路度和120条电路度为特色。该研究结果证明了计算机视觉算法在最多200的模型存储库中对人工制品进行分类的能力，超出这一点，观察到CNN的性能显着恶化，这限制了其当前对数字人工制品的自动孪晶的能力。虽然，在前5个结果中更常见的匹配结果显示了代理模型的大型存储库上的信息搜索和检索的潜力。

ReduNet: A White-box Deep Network from the Principle of Maximizing Rate Reduction
Authors Kwan Ho Ryan Chan, Yaodong Yu, Chong You, Haozhi Qi, John Wright, Yi Ma
这项工作试图提供一种合理的理论框架，旨在从数据压缩和鉴别表现的原则解释现代深度卷积网络。我们表明，对于高维多类数据，最佳线性判别表示最大化整个数据集之间的编码率差和所有子集的平均值。我们表明，用于优化速率降低目标的基本迭代梯度上升方案自然地导致了一个名为Redunet的多层深网络，分享了现代深网络的共同特征。深层架构，线性和非线性运算符，甚至网络的参数均通过转发传播通过层明确地构造层，而不是通过反向传播学习。如此获得的白盒网络的所有组件都具有精确的优化，统计和几何解释。此外，当我们强制执行分类时，所派生网络的所有线性运算符自然地变为多通道卷积，以严格换档不变。导出还表明，在光谱域中构建和学习，这种深度卷积网络明显更有效。我们的初步模拟和实验清楚地验证了速率降低目标和相关的Redunet的有效性。所有代码和数据都可用

WeGleNet: A Weakly-Supervised Convolutional Neural Network for the Semantic Segmentation of Gleason Grades in Prostate Histology Images
Authors Julio Silva Rodr guez, Adri n Colomer, Valery Naranjo
前列腺癌是影响全世界男性的主要疾病之一。 Gleason评分系统是前列腺癌的主要诊断工具。这是通过专业病理学家进行的前列腺活检中的癌检结果的视觉分析获得，以及在组合得分中的主要GLEASE级的聚集。计算机辅助诊断系统允许减少病理学家的工作量并提高客观性。最近，文献中已经努力开发旨在直接估计全球标签的活检核心水平全球格林赛评分的算法。然而，这些算法不会覆盖Gleason模式的准确定位到组织中。在这项工作中，我们提出了一种基于深度学习的系统，能够在训练期间仅使用全球水平的Glason评分来检测前列腺组织中的局部癌症模式。这项工作的方法论核心是提出的弱监督训练有素的卷积神经网络，基于特征提取模块，全局聚合和训练模型损耗估计的背景类的切片后基于多类分段层。我们获得了0.67的Cohen S二次κK，用于验证队列中癌症模式的像素水平预测。我们比较了在测试队列中的艺术架构的监督状态对Gleason成绩的语义分割模型性能。我们获得了0.61的像素级K，并且在与完全监督的方法相同的水平时，宏平均为0.58的F1分数。关于核心水平gleason评分的估计，我们在模型和两个不同的病理学家之间获得了0.76和0.67的k。 WebGlenet能够与完全监督的方法类似地执行Gleason等级的语义分割，而无需像素级注释。

Self-learning for weakly supervised Gleason grading of local patterns
Authors Julio Silva Rodr guez, Adri n Colomer, Jose Dolz, Valery Naranjo
前列腺癌是影响全世界男性的主要疾病之一。诊断和预后的黄金标准是Gleason分级系统。在这个过程中，病理学家在高耗时和主观任务中手动分析显微镜下的前列腺组织学幻灯片。在过去几年中，计算机辅助诊断CAD系统已成为一个有前途的工具，可以支持日常临床实践中的病理学家。尽管如此，这些系统通常使用繁琐且容易出现组织中GLEASE等级的误差像素级注释。为了减轻手动像素明智标签的需要，在文献中呈现出少数作品。由此激励，我们提出了一种基于自学CNN的新型弱监督的深度学习模型，该模型仅利用培训期间Gigapixel整个幻灯片图像的全球Gleason评分，以准确地执行斑块水平模式和活组织检查水平评分。为了评估所提出的方法的性能，我们对三种不同的外部数据集进行了大量实验，用于修补水平Gleason分级，以及全球级群预测的两个不同测试集。我们经验证明，我们的方法优于其监督对对应于其大幅度的贴片水平Glason分级的监督，以及全球活检水平评分的最新方法。特别是，与完全监督补丁水平Gleason分级任务的完全监督相比，拟议模型对Cohen S二次κP评分的平均改善近18分。

Sheaves as a Framework for Understanding and Interpreting Model Fit
Authors Henry Kvinge, Brett Jefferson, Cliff Joslyn, Emilie Purvine
随着数据的规模和复杂性的增长，寻找辅助解释和分析的框架变得至关重要。当数据来自具有广泛结构的复杂系统时，这尤其如此，但必须从外围源绘制。在本文中，我们争辩说，在这种情况下，滑轮可以提供自然框架，以分析统计模型在本地层面上的统计模型如何适应，即在相关数据点对所有数据上的全局级别上的子集。我们提出的基于章程的方法是适当的，足以在一系列应用中有用，从分析传感器网络以了解深度学习模型的特征空间。

Error Resilient Collaborative Intelligence via Low-Rank Tensor Completion
Authors Lior Bragilevsky, Ivan V. Baji
在将人工智能AI带到边缘的比赛中，协作智能作为一种有希望的方式，可以在基于深神经网络DNNS运行应用程序的边缘设备上的计算负荷。通常，深度模型在某个层中分离为边缘和云子模型。边缘子模型产生的深色特征张量被传输到云，其中剩余的计算密集型工作负载由云子模型执行。边缘和云之间的通信信道是不完美的，这将导致在云侧接收的深度特征张量中丢失数据。在这项研究中，我们研究了四个低级张量完成方法的有效性在恢复深度特征张量中的缺失数据中。我们考虑稀疏张量，例如VGG16模型生产的稀疏张量，以及不稀疏的张量，例如由Resnet34模型生产的浓度。我们研究了复杂性受累和无约束情景的张量完成效果。

Data-driven Weight Initialization with Sylvester Solvers
Authors Debasmit Das, Yash Bhalgat, Fatih Porikli
在这项工作中，我们提出了一种数据驱动方案来初始化深神经网络的参数。这与传统方法相比，通过从转换的标准分布中采样随机初始化参数。此类方法不使用培训数据来产生更明智的初始化。我们的方法使用顺序层明智的方法，其中使用其输入激活初始化每层。初始化作为优化问题，我们最小化输入激活的编码和解码损失的组合，这进一步受用户定义的潜像来限制。然后将优化问题重组到众所周知的Sylvester方程中，这具有快速且有效的梯度自由解决方案。与随机初始化方法相比，我们的数据驱动方法达到了促进性能，两者都在训练开始之前，训练结束后。我们表明我们的提出方法在很少的镜头和微调设置中特别有效。我们在分析时间复杂性和不同潜在守则对识别性能的影响分析的分析。

Correlated Input-Dependent Label Noise in Large-Scale Image Classification
Authors Mark Collier, Basil Mustafa, Efi Kokiopoulou, Rodolphe Jenatton, Jesse Berent
大规模图像分类数据集通常包含嘈杂的标签。我们采取了原则性的概率方法来建模依赖性输入，也称为异镜，在这些数据集中的标记噪声。我们在神经网络分类器的最终隐藏层上放置多变量的正常分布潜变量。这种潜在变量的协方差矩阵，模拟了由于标签噪声引起的炼体不确定性。我们展示了学习的协方差结构在语义上类似和CO发生的类之间捕获了已知的标签噪声来源。与标准神经网络训练和其他基线相比，我们显着提高了Imagenet ILSVRC 2012 79.3 2.6的准确性，Imagenet 21k 47.0 1.1和JFT 64.7 1.6。我们在WebVision 1.0上设置了新的最新状态，其中76.6前1个精度。这些数据集的范围从超过1米到超过300M的训练示例，并且从1K类到超过21K的课程。我们的方法很易于使用，我们提供了一个实现，该实现是深度分类器中最终完全连接图层的替代品。

AC-CovidNet: Attention Guided Contrastive CNN for Recognition of Covid-19 in Chest X-Ray Images
Authors Anirudh Ambati, Shiv Ram Dubey
Covid 19 Global Pandemy仍然摧毁了世界各地的医疗保健系统。在许多国家，第二波非常严重。迫切需要经济和快速的检测，以及诊断来控制大流行。目前，Covid 19测试昂贵且耗时。胸部X射线CXR测试可以是最快，可扩展和非侵入性的方法。现有方法由于Covid 19提供的有限CXR样品而受到影响。因此，通过该领域的开源工作的限制启发，我们提出了在CXR图像中进行了Covid 19检测的引导引导的对比CNN架构AC CovidNet。拟议的方法在对比损失的帮助下了解稳健和歧视特征。此外，所提出的方法对受感染的地区更加重要，这是注意力机制的指导。我们在公开可用的Covid 19数据集中计算所提出的方法的敏感性。观察到，即使使用有限的培训数据，所提出的AC Covidnet展示了非常有希望的性能。它可以解决研究人员面临的CXR Covid 19数据集的瓶颈。本文使用的代码将在URL上公开发布

An Interpretable Approach to Automated Severity Scoring in Pelvic Trauma
Authors Anna Zapaishchykova, David Dreizin, Zhaoshuo Li, Jie Ying Wu, Shahrooz Faghih Roohi, Mathias Unberath
骨盆环中断来自钝性损伤机制，通常在多系统创伤患者中发现。基于全身CT的创伤受害者在创伤骨折严重程度，经常使用瓷砖AO OTA分类。由于繁忙的创伤中心产生的全身创伤CTS大量，瓷砖分类的自动化方法将提供大量的价值，即，G.，优先考虑参加创伤放射学家的读取队列。在这种情况下，自动方法应该基于透明过程执行分级，并且基于可解释的特征来使得能够使与人类读取器的交互，并通过从扫描的第一次自动读取的识别提供洞察来实现其工作量。本文介绍了一种自动化且可解释的盆腔创伤决策支持系统，以帮助骨折检测和瓷砖等级分类中的放射科医师。该方法类似地与CT扫描的人体解释类似，并且首先使用基于临床最佳实践来解释的更快的RCNN模型来检测具有高特异性的CT的不同盆腔骨折，然后使用结构因果模型来推断初始瓷砖等级。贝叶斯因果模型最终，然后对物体检测器查询可能已经由于检测器的高度特定操作点而被拒绝的CO发生的裂缝，从而导致检测到的裂缝和相应的最终瓷砖等级的更新列表。我们的方法是透明的，因为它提供了使用物体检测器的查找位置和类型，以及有关重要反事件的信息，可以使系统的推荐使83.3 85.1的AUC为转换旋转不稳定。尽管专为人机团队设计而设计，但我们的方法不会妥协于与之前的黑匣子方法相比的性能。

Helsinki Deblur Challenge 2021: description of photographic data
Authors Markus Juvonen, Samuli Siltanen, Fernando Silva de Moura
为赫尔辛基解阵挑战收集的摄影数据集2021 HDC2021包含由同一目标的两台相同的相机拍摄的一对图像，但具有不同的条件。一台相机始终焦点并产生夏普，低噪音图像，其他相机产生模糊和嘈杂的图像，因为它逐渐越来越多地焦点并且具有更高的ISO设置。尽管使用HDC2021设计和捕获数据集，但它也可用于图像去孔算法的任何测试和基准。数据可用

Random Hash Code Generation for Cancelable Fingerprint Templates using Vector Permutation and Shift-order Process
Authors Sani M. Abdullahi, Sun Shuifa
已取消的生物识别技术已被用于通过生成和使用它们相应的可消化模板来防止生物识别数据的折衷以进行用户身份验证。然而，在各种方案中采用的非可逆距离保持变换方法通常容易受到信息泄漏的影响，因为在变换域中执行匹配。在本文中，我们提出了一种基于矢量置换置换和换档顺序过程的不可处于不可逆转的距离保存方案。首先，在随机置换提取的载体特征之前，使用核化原理分量分析KPCA减少特征载体的尺寸。然后将换档顺序处理应用于所生成的特征，以实现基于不可逆性和战斗相似性的攻击。生成的哈希代码对于不同的安全性和隐私攻击是有弹性的，同时满足主要的撤销性和可用性要求。在FVC2002和FVC2004的6个数据集上进行的实验评估显示了比现有现有技术更好的提出方案的高性能精度。

Anomaly Detection By Autoencoder Based On Weighted Frequency Domain Loss
Authors Masaki Nakanishi, Kazuki Sato, Hideo Terada
在图像异常检测中，AutoEncoders是重建可能包含异常的输入图像并输出没有异常的清洁图像的流行方法。这些基于AutoEncoder的方法通常计算从重建误差的异常分数，输入图像和重建图像之间的差异。另一方面，许多这些方法中重建的准确性不足，因此它导致异常检测的劣化。为了提高重建的准确性，我们考虑在频域中定义损耗函数。通常，我们知道自然图像包含许多低频分量和少量高频分量。因此，为了提高高频分量重建的准确性，我们引入了名为加权频域损耗WFDL的新损耗函数。 WFDL提供更锐利的重建图像，这有助于提高异常检测的准确性。在本文中，我们通过将其与MVTEC AD数据集上的AUROC进行比较，显示了我们的方法S优于传统的AutoEncoder方法。

Endmember-Guided Unmixing Network (EGU-Net): A General Deep Learning Framework for Self-Supervised Hyperspectral Unmixing
Authors Danfeng Hong, Lianru Gao, Jing Yao, Naoto Yokoya, Jocelyn Chanussot, Uta Heiden, Bing Zhang
在过去的几十年中，已经提高了巨大的努力，提高了对高光谱解密的线性或非线性混合模型的性能，但它们同时概括各种光谱变量和提取物物理有意义的endmembers的能力仍然受到限制，因为数据配件的能力差和数据较差重建和对各种光谱变性的敏感性。灵感来自深入学习的强大学习能力，我们试图通过充分考虑从高光谱图像中提取的终点的性质，称为Endmember引导的解密网络EGU网的终点中的特性来开发一个普遍的深度学习方法。除了像架构中的单独的AutoEncoder之外，EGU网是一个两个流暹罗深网络，它通过共享网络参数来校正另一个解密网络的额外网络，并添加光谱有意义的约束，例如非消极的约束并达到一个更准确和可解释的解密解决方案。此外，所产生的一般框架不仅限于像素明智的光谱解密，而且仅适用于与卷积运营商进行空间谱解密的空间信息建模。在三个不同的数据集中进行的实验结果，其具有对应于每种材料的丰富地图的地面真理，证明了EGU网的有效性和优越性，而不是艺术解密算法的状态。该代码将从网站上获得

Improving Generation and Evaluation of Visual Stories via Semantic Consistency
Authors Adyasha Maharana, Darryl Hannan, Mohit Bansal
故事可视化是根据探索的任务，该任务落在了计算机视觉和自然语言处理中的许多重要研究方向。在此任务中，给定组成故事的一系列自然语言标题，代理必须生成对应于标题的一系列图像。事先工作引入了经常性的生成模型，以此任务对图像综合模型表现出来。然而，在视觉质量，连贯性和相关性方面存在改善产生的图像的余地。我们对先前建模方法提出了许多改进，包括1增加了一种使用视频标题来加强故事与生成图像之间的语义对齐的双学习框架，2副本变换机制，用于顺序一致的故事可视化，以及3个集合基于基于的变换器模拟帧之间的复杂交互。我们展示了消融研究，以证明每个技术对单个图像的模型的生成功率以及整个叙述的影响。此外，由于任务的复杂性和生成性，标准评估度量不准确反映性能。因此，我们还提供了对模型的评估度量的探索，其专注于所生成的帧的方面，例如生成的字符的存在质量，与标题的相关性以及所生成的图像的分集。我们还将我们提出的自动化指标与人类评估的相关实验。可用的代码和数据

Evaluating Robustness over High Level Driving Instruction for Autonomous Driving
Authors Florence Carton, David Filliat, Jaonary Rabarisoa, Quoc Cuong Pham
近年来，我们目睹了自主端领域的越来越高的表现，以结束驾驶。特别是，在城市环境中驾驶越来越多的研究，汽车必须遵循高级命令导航。但是，很少有评价是这些药剂在意外情况下反应的能力。具体地，在较差的高级命令的情况下，没有对驾驶代理的稳健性进行评估。我们在这里提出了一种评估方法，即允许评估代理的鲁棒性的基准，并通过其保持安全行为的能力来理解环境的理解，无论指示如何。

Dense Reconstruction of Transparent Objects by Altering Incident Light Paths Through Refraction
Authors Kai Han, Kwan Yee K. Wong, Miaomiao Liu
本文解决了重建透明物体表面形状的问题。此问题的难度起源于透明对象的视点依赖性外观，这很快使为漫射表面定制的重建方法失败。在本文中，我们基于光折射引入了一种固定的视点方法来致密透明物体表面重建。我们展示了一个简单的设置，使我们能够在光线进入物体之前改变入射光路径，通过部分地浸入液体中，通过重建和三角化这种入射光路径来开发用于回收物体表面的方法。我们所提出的方法不需要将光的复杂相互作用模拟通过对象行进，也不是假设对象形状的任何参数形式，也不是沿着光路到所采取的精确折射数和反射。因此，它可以处理具有相对复杂的形状和结构的透明物体，具有未知和不均匀的折射率。我们还表明，对于薄透明对象，可以通过采用单个折射近似来进一步简化所提出的获取设置。合成和实际数据的实验结果表明了我们所提出的方法的可行性和准确性。

Happy Dance, Slow Clap: Using Reaction GIFs to Predict Induced Affect on Twitter
Authors Boaz Shmueli, Soumya Ray, Lun Wei Ku
具有诱导情感标签的数据集是稀缺，但对于许多NLP任务至关重要。我们提出了一种新的自动化方法，用于收集文本以及其诱导的反应标记。该方法利用在线使用反应GIF，其捕获复杂的情感状态。我们展示了如何使用诱导的情感和诱发情感标签增强数据。我们使用我们的方法来创建和发布intervergif，是30k推文的第一个情感数据集。我们为三个新任务提供基线，包括诱导情感的情感预测和多书分类。我们的方法和数据集在情感检测和情感计算中开辟了新的研究机会。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页