【AI视野·今日CV 计算机视觉论文速览第216期】Wed, 9 Jun 2021_mvt: mask vision transformer for facial expression-CSDN博客

本文链接：https://blog.csdn.net/u014636245/article/details/117791898

AI视野·今日CS.CV 计算机视觉论文速览
Wed, 9 Jun 2021
Totally 76 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Computer Vision Papers

Simulated Adversarial Testing of Face Recognition Models
Authors Nataniel Ruiz, Adam Kortylewski, Weichao Qiu, Cihang Xie, Sarah Adel Bargal, Alan Yuille, Stan Sclaroff
大多数机器学习模型都在固定数据集上验证和测试。这可以给出模型的功能和弱点的不完整图片。这种弱点可以在现实世界中的测试时间揭示。在某些关键应用中，此类失败所涉及的风险可能是损失利润，损失甚至寿命损失。为了减轻这个问题，可以使用可解释的参数来利用可解释的参数来控制模拟器以探索语义图像歧管。在这项工作中，我们提出了一个学习如何在普发的方式使用模拟器测试机器学习算法的框架，以便在将模型中部署到临界方案之前在模型中找到缺点。我们在面部识别方案中应用此模型。我们是第一个表明可以使用模拟样本发现在实际数据上培训的模型弱点。使用我们提出的方法，我们可以找到欺骗当代人脸识别模型的对抗性合成面。这证明了这些模型具有不通过常用的验证数据集来衡量的弱点。我们假设这种类型的对手示例不是隔离的，而是通常位于模拟器的潜在空间中的连接部件中。我们提出了一种方法来找到这些对抗性区域，而不是对普发拉利示例文献中发现的典型对抗性点。

Data-Efficient Instance Generation from Instance Discrimination
Authors Ceyuan Yang, Yujun Shen, Yinghao Xu, Bolei Zhou
生成的对抗网络GAN具有显着高级的图像合成，然而，合成质量下降显着施用有限的训练数据。为了提高GaN培训的数据效率，前的工作通常使用数据增强来减轻鉴别者的过度装箱，但仍然使用BI分类的判别者，即Real Vs.假任务。在这项工作中，我们提出了一种基于实例辨别的数据有效的实例生成insgen方法。具体而言，除了将真实域与假域区分，鉴别者需要区分每个单独的图像，无论它来自训练集或从发电机。通过这种方式，鉴别者可以从无限的合成样本中受益进行培训，减轻训练数据不足造成的过度拟合问题。进一步引入了噪声扰动策略以改善其辨别力。同时，从鉴别者的学习实例歧视能力反过来互动以鼓励发电机进行多样化。广泛的实验证明了我们对各种数据集和培训设置的方法的有效性。明显的是，在FFHQ数据集中的2K训练图像的设置上，我们以23.5的FID改善更优于现有技术的状态。

Scaling Vision Transformers
Authors Xiaohua Zhai, Alexander Kolesnikov, Neil Houlsby, Lucas Beyer
基于关注的神经网络，如视觉变压器Vit最近达到了许多计算机视觉基准的最先进结果。 SCALE是一种主要成分，实现了优异的结果，因此，了解模型的缩放属性是有效地设计后代的关键。虽然已经研究了用于缩放变压器语言模型的法律，但是视觉变形金刚缩放的概略是未知的。要解决此问题，我们向上和向下缩放VIT模型和数据，并表征错误率，数据和计算之间的关系。一路上，我们优化vit的架构和培训，减少内存消耗，增加所得模型的准确性。因此，我们成功培训了具有20亿参数的VIT模型，在Imagenet上达到了90.45前1个精度的新技术。例如，该模型在几次拍摄学习中也表现出很好，例如，在Imagenet上获得84.86前1个精度，每级只有10个示例。

DETReg: Unsupervised Pretraining with Region Priors for Object Detection
Authors Amir Bar, Xin Wang, Vadim Kantorov, Colorado J Reed, Roei Herzig, Gal Chechik, Anna Rohrbach, Trevor Darrell, Amir Globerson
无监督的预押售价最近已被证明有利于计算机视觉任务，包括对象检测。然而，以前的自我监督方法不设计用于处理检测定位对象的关键方面。在这里，我们呈现DetReg，一种无监视的预测方法，用于使用区域前导器的变压器检测对象检测。通过对象检测定位和分类的两个任务的动机，我们组合了两个互补信号进行自我监督。对于对象本地化信号，我们使用伪接地真理对象边界框从摘机无监督区域提议方法，选择性搜索，这不需要培训数据，并且可以以高召回速率和非常低的精度检测对象。分类信号来自对象嵌入损耗，鼓励不变对象表示，可以从中推断对象类别。我们展示了如何将这两个信号组合起来从大量未标记数据训练可变形的DETR检测架构。 DetReg改善了竞争基础的竞争基础的性能，并在MS Coco和Pascal VOC等标准基准上的自我监督方法。当培训时，DetReg还优于以前的监督和无监督的基线在低数据制度上，只有1,2,5和10个在Coco上标记数据的标记数据。对于代码和预用模型，请访问项目页面

Chasing Sparsity in Vision Transformers:An End-to-End Exploration
Authors Tianlong Chen, Yu Cheng, Zhe Gan, Lu Yuan, Lei Zhang, Zhangyang Wang
Vision变形金刚vits最近获得了爆炸性的人气，但他们的巨大模式尺寸和培训成本仍然令人生畏。传统的训练训练修剪通常会遭受更高的培训预算。相比之下，本文旨在修剪训练记忆开销和推理复杂性，而不会造成可实现的准确性。我们推出并报告首次综合勘探，采取统一的方法，以便将稀疏从末端整合稀疏。具体而言，而不是培训完整VIT，我们动态提取和培训稀疏的子网，同时粘贴到固定的小参数预算。我们的方法共同优化了模型参数并在整个训练中探讨了连接，以一个稀疏网络为止为最终输出。这种方法无缝地从非结构化到结构稀疏性延伸，所以通过考虑指导修剪并在内部VITS内部增长自我注意。为了额外的效率提升，我们进一步通过插入新颖的学习令牌选择器来探索数据和架构稀疏性，以便自适应地确定当前最重要的补丁。广泛的结果验证了我们提出对想象成的有效性，具有多样化的毒性骨架。例如，在40个结构化的稀疏性，我们的稀疏DEIT基座可以达到0.42的精度增益，33.13和24.70运行时间节省，与其致密的对手相比。也许最令人惊讶的是，我们发现所提出的稀疏CO训练甚至可以提高Vit准确性而不是损害它，使稀疏午餐午餐。例如，我们的稀疏Deit小于5,50个数据，架构，架构，提高了0.28前1个高精度，同时享有49.32拖鞋和4.40次运行时间。

RobustNav: Towards Benchmarking Robustness in Embodied Navigation
Authors Prithvijit Chattopadhyay, Judy Hoffman, Roozbeh Mottaghi, Aniruddha Kembhavi
作为评估所体现的导航代理的稳健性的尝试，我们提出了一种框架，这是一种框架，该框架在暴露于各种各样的视觉影响的RGB输入和影响转换动态损坏的各种视觉上时量化所体现的导航代理的性能。视觉导航中最近的最新努力通常集中在具有类似外观和动力学特征的新型目标环境中。通过RobustNav，我们发现一些标准体现的导航剂在视觉或动态损坏存在下显着低于或失败。我们系统地分析了在损坏行为时出现的特殊性。最后，对于RobustNav中的视觉损坏，我们表明，虽然标准技术提高了鲁棒性，如数据增强和自我监督的适应，提供了一些零射击阻力和导航性能的改进，但仍有很长的路要走恢复失去的性能方面相对于清洁非腐败设置，在这个方向上保证更多的研究。我们的代码可供选择

MViT: Mask Vision Transformer for Facial Expression Recognition in the wild
Authors Hanting Li, Mingzhe Sui, Feng Zhao, Zhengjun Zha, Feng Wu
由于变体的背景，低质量的面部图像和注释器的主观性，面部表情识别FER在野外是计算机视觉中的极其具有挑战性的任务。这些不确定性使神经网络难以在有限的规模数据集上学习强大的功能。此外，网络可以通过上述因素轻松分发并执行不正确的决策。最近，视觉变压器VIT和数据有效的图像变压器Deit在传统的分类任务中提出了重要的性能。自我注意机构使变压器在第一层中获得全局接收领域，这显着提高了特征提取能力。在这项工作中，我们首先提出了一种新颖的纯变压器基于拓扑视觉变压器MVIT，用于野外的FER，由两个模块组成了一个基于变压器的掩模生成网络MGN，用于生成可以过滤输出复杂背景和脸部图像的遮挡的掩模，和一个动态重叠模块，用于在野外的FER数据集中纠正不正确的标签。广泛的实验结果表明，我们的MVIT在RAF DB上的最佳状态具有88.62，FerPlus，具有89.22，分别影响64.57的影响，并在HefalnNet 8上实现了61.40的相当结果。

Low-Rank Subspaces in GANs
Authors Jiapeng Zhu, Ruili Feng, Yujun Shen, Deli Zhao, Zhengjun Zha, Jingren Zhou, Qifeng Chen
已经显示了生成的对抗网络GaN的潜在空间在某些子空间内编码丰富的语义。为了识别这些子空间，研究人员通常分析来自合成数据的集合的统计信息，并且所识别的子空间倾向于全局控制图像属性，即，操纵属性会导致整个图像的变化。相比之下，这项工作引入了低级子空间，使得GaN生成更精确地控制。具体地，给定任意图像和一个感兴趣区域，例如，面部图像的眼睛，我们设法将潜在空间与雅加族矩阵相关联，然后使用低秩分解来发现可转向潜在子空间。我们的方法有三个可区分优势，可以恰当地称为低力。首先，与现有工作中的分析算法相比，我们的雅各比人的低等级分解能够找到属性歧管的低维度表示，使图像编辑更精确和可控。其次，低等级分子自然地产生了空间的属性，使得在其内移动潜在的代码仅影响感兴趣的外部区域。因此，可以通过将属性向量投影到空空间中来简单地实现本地图像编辑，而无需依赖于空间掩模作为现有方法执行。第三，我们的方法可以从一个图像中稳健地与本地区域一起使用，以进行分析，但概括到其他图像，使得在实践中很容易使用。关于艺术技术的广泛实验，包括Stylegan2和Biggan在各种数据集上培训的BAGGan培训，证明了我们的LowRankaN的有效性。

Are VQA Systems RAD? Measuring Robustness to Augmented Data with Focused Interventions
Authors Daniel Rosenberg, Itai Gat, Amir Feder, Roi Reichart
深度学习算法在视觉问题上显示了有前途的结果，在视觉问题上应答VQA任务，但更加谨慎的外观揭示了他们往往不了解他们被喂养的丰富的信号。要了解和更好地衡量VQA系统的泛化功能，我们将其稳健性展望到REFTRACTIBLY增强数据。我们拟议的增强旨在为问题的特定财产进行重点干预，以使答案发生变化。使用这些增强，我们提出了一种新的鲁棒性测量，增强数据RAD的鲁棒性，这测量了原始和增强示例之间模型预测的一致性。通过广泛的实验，我们表明RAD与经典精度措施不同，可以量化何时最先进的系统对反事实不稳定。我们发现大量失败案例，揭示了当前的VQA系统仍然是脆弱的。最后，我们在鲁棒性和泛化之间连接，展示了RAD的预测力，以便在看不见的增强中的性能。

MoCo-Flow: Neural Motion Consensus Flow for Dynamic Humans in Stationary Monocular Cameras
Authors Xuelin Chen, Weiyu Li, Daniel Cohen Or, Niloy J. Mitra, Baoquan Chen
合成静止单眼摄像机的动态人类的新颖观点是一种受欢迎的情景。这是特别有吸引力，因为它不需要静态场景，受控环境或专用硬件。与利用多视图观察来限制建模的技术相比，给定单个固定视点时，在约束和不受影响的情况下建模动态场景的问题更大。在本文中，我们介绍了神经运动共识流动MOCO流量，表示使用4D连续时间变体功能模拟动态场景的表示。所提出的表示通过优化来学习，该优化模拟动态场景，最小化呈现所有观测图像的错误。在我们工作的核心，介绍了一种新的优化制剂，这受到运动流动的正常规则的限制。我们广泛地评估MOCO流量在几个数据集上，这些数据集包含不同复杂性的人为动作，并与我们的方法的几个基线方法和变体进行比较。预先训练的模型，代码和数据将在纸张验收时进行研究目的。

Interpreting Deep Learning based Cerebral Palsy Prediction with Channel Attention
Authors Manli Zhu, Qianhui Men, Edmond S. L. Ho, Howard Leung, Hubert P. H. Shum
早期预测脑瘫是必不可少的，因为它导致早期治疗和监测。由于其与其非线性架构建模复杂数据的能力，深入学习在生物医学工程中显示了有希望的结果。然而，由于其复杂的结构，深度学习模型通常不会被人类解释，使临床医生难以依赖调查结果。在本文中，我们提出了一种用于深度学习模型的渠道注意模块，以预测来自婴儿身体运动的脑瘫，这突出了关键特征即身体关节模型识别重要性，从而指示为什么找到某些诊断结果。为了突出深度网络在建模输入功能中的容量，我们利用原始的关节位置而不是手工制作的功能。我们使用真实世界婴儿移动数据集验证我们的系统。我们所提出的渠道注意力模块能够可视化网络考虑该疾病的重要关节。我们的系统精确达到91.67，抑制了其他最新的艺术深度学习方法。

SDGMNet: Statistic-based Dynamic Gradient Modulation for Local Descriptor Learning
Authors Jiayi Ma, Yuxin Deng
重新扫描的三联损失的修改在局部描述符的学习中取得了重大进展。然而，目前的梯度调制策略主要是静态，因此它们会遭受培训阶段或数据集的变化。在本文中，我们提出了一个名为SDGMNet的动态梯度调制，提高了本地描述符学习的三态损耗。我们的方法的核心是制定具有动态估计的统计特征的调制功能。首先，我们对一般基于三重态的损耗的背部传播进行深度分析，并引入距离测量的含义角度。在此基础上，采用自动聚焦调制来缓和在随机梯度下降优化中的统计上罕见的个体对的影响切断从比例暹罗对的梯度达到最佳功率调节余量的梯度，余量正对。广泛的实验表明，我们的小说描述符超越了在标准基准上的先前最先进的技术，包括补丁验证，匹配和检索任务。

Noise Conditional Flow Model for Learning the Super-Resolution Space
Authors Younggeun Kim, Donghee Son
从根本上，超分辨率是不良问题，因为可以从许多高分辨率图像获得低分辨率图像。最近的超级分辨率研究无法创建各种超级分辨率图像。虽然SRFLOF通过预测给定低分辨率图像的多个高分辨率图像来计算超分辨率的不良构成性质，但是有空间可以提高分集和视觉质量。在本文中，我们提出了超分辨率NCSR的噪声条件流量模型，这通过噪声条件层增加了图像的视觉质量和多样性。要了解更多不同的数据分布，我们将噪声添加到培训数据。但是，由于添加噪声导致低质量图像。我们提出了噪音条件层来克服这种现象。噪声条件层使我们的模型产生比其他作品更高的视觉质量更多样化的图像。此外，我们表明该层可以克服数据分布不匹配，是在归一化流模型中出现的问题。通过这些好处，NCSR以多样性和视觉质量的基线优于基线，而是比传统的GaN的模型实现更好的视觉质量。我们在NTIRE 2021挑战中也会出现表现出色。

On the relation between statistical learning and perceptual distances
Authors Alexander Hepburn, Valero Laparra, Raul Santos Rodriguez, Johannes Ball , Jes s Malo
已经证明了人类视觉系统的行为与自然图像的统计数据相连的许多次数。由于机器学习依赖于训练数据的统计数据，因此在使用感知距离时，上述连接具有有趣的影响，这些距离模仿人类视觉系统的行为作为损耗功能。在本文中，我们的目标是在数据，感知距离和无监督机器学习的概率分布之间解开非琐碎关系。为此，我们表明感知敏感性与其亲密邻域中图像的概率相关。我们还探讨了AutoEncoders诱导的距离之间的关系以及用于训练它们的数据的概率分布，以及这些诱导的距离与人类感知如何相关。最后，我们讨论了为什么感知距离可能不会导致在普通图像处理任务中的标准欧几里德距离中的性能显着提升，除非数据稀缺，感知距离提供正则化。

Asymmetrical Bi-RNN for pedestrian trajectory encoding
Authors Rapha l Rozenberg, Joseph Gesnouin, Fabien Moutarde
行人运动行为涉及各个目标和与其他代理人的社会互动的组合。在本文中，我们介绍了一个名为U RNN的非对称双向经常性神经网络架构作为序列编码器，并评估其与替换各种预测模型的LSTM的相关性。 Trajnet基准测试的实验结果表明，U LSTM变体可以提高关于各种方法和相互作用模块的常见LSTMS序列编码器的每一个可用度量ADE，FDE，碰撞率的更好的结果。

Stochastic Whitening Batch Normalization
Authors Shengdong Zhang, Ehsan Nezhadarya, Homa Fashandi, Jiayi Liu, Darin Graham, Mohak Shah
批量归一化BN是一种用于训练深神经网络DNN的流行技术。 BN使用缩放和移位来规范迷你批次的激活，以加速收敛和改善泛化。最近提出的迭代标准化迭代方法通过使用牛顿方法迭代地改变激活来改善这些性质。然而，由于牛顿的方法在每个训练步骤中独立地初始化白化矩阵，因此在连续步骤之间没有共享信息。在这项工作中，除了每次步骤中，我们在每次步骤中逐渐估计它在以在线方式逐渐估计它，而不是使用我们提出的随机白化批量归一化SWBN算法逐步估计它。我们表明，虽然SWBN提高了DNN的收敛速率和泛化，但其计算开销小于Iternorm。由于所提出的方法的高效率，可以在大多数层的大多数DNN架构中容易地使用它。我们在BN，Iternorm和SWBN层之间提供全面的实验和比较，以展示所提出的技术在传统许多拍摄图像分类中的有效性和少量拍摄分类任务。

Fair Feature Distillation for Visual Recognition
Authors Sangwon Jung, Donggyu Lee, Taeeon Lee, Taesup Moon
公平正成为计算机愿景的越来越重要的问题，特别是在人类相关决策系统中。然而，实现算法公平性，这使模型产生免受保护组的不分性结果，仍然是一个未解决的问题。在本文中，我们设计了一种系统方法，通过特征蒸馏来减少算法偏置，以便被称为MMD的公平蒸馏MFD。虽然蒸馏技术一般被广泛用于提高预测准确性，但据我们所知，没有明确的工作，也试图通过蒸馏来改善公平性。此外，我们对知识蒸馏和公平的影响，我们对我们的MFD提供了理论基。在整个广泛的实验中，我们展示了我们的MFD显着减轻了对特定少数群体的偏差，而不会在合成和现实世界面部数据集的准确性损失。

SynthRef: Generation of Synthetic Referring Expressions for Object Segmentation
Authors Ioannis Kazakos, Carles Ventura, Miriam Bellver, Carina Silberer, Xavier Giro i Nieto
深度学习的最新进展在语言引导视频对象分割等视觉接地任务中提出了重大进展。然而，在注释时间方面收集大型数据集是昂贵的，这代表瓶颈。为此，我们提出了一种新的方法，即Synthref，用于在图像或视频帧中生成针对目标对象的合成引用表达式，并且我们还存在并传播具有用于视频对象分割的合成引用表达式的第一大规模数据集。我们的实验表明，通过利用我们的合成引用表达式培训，可以提高模型在不同数据集上概括的能力，而无需任何额外的注释成本。此外，我们的配方允许其应用于任何对象检测或分段数据集。

CSRNet: Cascaded Selective Resolution Network for Real-time Semantic Segmentation
Authors Jingjing Xiong, Lai Man Po, Wing Yin Yu, Chang Zhou, Pengfei Xian, Weifeng Ou
由于许多实际应用中的需求不断增长，例如自主车辆，机器人等，现有的实时分割方法经常利用特征融合来提高分割精度，因此实时地，由于许多实际应用。然而，它们未能完全考虑不同分辨率的特征信息，并且网络的接收领域相对有限，从而损害了性能。为了解决这个问题，我们提出了一个光级联选择分辨率网络CSRNet，通过多个上下文信息嵌入和增强的特征聚合来提高实时分割的性能。所提出的网络构建了三个阶段分割系统，该系统将特征信息集成到高分辨率到高分辨率，逐步实现特征细化。 CSRNET包含两个关键模块短路金字塔融合模块SPFM和选择分辨率模块SRM。 SPFM是计算上有效的模块，用于结合全局上下文信息，并显着扩大每个阶段的接收场。 SRM旨在熔断具有各种接收字段的多分辨率要素映射，它在特征映射中分配软信道注意，并有助于解决由多尺度对象引起的问题。两个众所周知的数据集上的综合实验表明，所提出的CSRNET有效提高了实时细分的性能。

Multi-frame sequence generator of 4D human body motion
Authors Marsot Mathieu, Wuhrer Stefanie, Franco Jean Sebastien, Durocher Stephane
我们研究了在时间上和空间密集的4D人体运动产生的问题。在一方面，一方面已经广泛地研究了诸如网格表示的致密3D模型的每个时间帧静态拟合问题，其中时间方面被生成模型。另一方面，存在稀疏人体模型存在的时间生成模型，例如基于标记的捕获表示，但没有我们的知识延伸到密集的3D形状。我们建议将该差距与基于生成的自动编码器的框架桥接，它们编码形态，全局运动，包括翻译和旋转，以及作为单个潜空间向量的多帧时间运动。为了评估其泛化和分解能力，我们培训我们的模型对循环运动的循环机车子集，利用它提供了广泛的运动捕获的致密表面模型。我们的结果验证了模型在低错误界限内重建4D人类运动序列的能力，以及表示不同多帧序列和运动类型的潜伏矢量之间的潜在空间插值的有意义。我们还说明了来自初始人体运动帧的未来帧的4D人类运动预测方法的好处，显示了我们模型的有希望的能力，以了解人类运动的现实时空时间特征。我们表明我们的模型允许在空间和时间稀疏数据的数据完成。

Segmentation and ABCD rule extraction for skin tumors classification
Authors Mahammed Messadi, Hocine Cherifi Le2i , Abdelhafid Bessaid
在过去几年中，计算机视觉基于诊断系统已广泛用于多家医院和皮肤科诊所，旨在早期发现恶性黑色素瘤肿瘤，这是最常见的皮肤癌。在这项工作中，我们介绍了一种基于临床诊断中使用的ABCD规则的自动诊断系统，以便歧视恶性皮肤病变性。首先，为了减少小结构的影响，使用基于形态学和快速行进方案的预处理步骤。在第二步中，提出了一种无监督的病变分割方法。应用迭代阈值处理以自动初始化级别设置。由于自动边界的检测是计算机式黑色素瘤识别系统中随后阶段的正确性的重要步骤，我们将其与生长和平均移位算法的准确性进行比较，并讨论这些结果如何影响以下步骤特征提取和最终病变分类。依赖于视觉诊断四个特征不对称A，边界B，彩色C和多样性D被计算并用于构建基于人工神经网络的分类模块，以识别恶性黑色素瘤。该框架已经在320个图像的Dermoscopic数据库16上进行了测试。分类结果显示出越来越大的检测率和减少误率。

An Intelligent Hybrid Model for Identity Document Classification
Authors Nouna Khandan
数字化，即将信息转换为数字格式的过程，可以提供各种机会，例如，生产力，灾难恢复和环保解决方案以及企业的挑战。在这种情况下，主要挑战之一是准确地分类客户每天上传的众多扫描文件，因为客户每天都是通常的业务流程。例如，银行业务的过程例如，申请贷款或BDM出生，死亡和婚姻申请的政府登记处可能涉及上传司机许可证和护照等几个文件。没有许多研究可以解决挑战作为图像分类的应用。虽然有一些研究使用各种方法，但仍然需要更准确的模型。目前的研究提出了一种坚固的融合模型，可以精确地定义身份证件类型。所提出的方法基于两种不同的方法，其中图像是根据其视觉特征和文本特征进行分类的。已经提出了一种基于统计和回归的小型模型来计算基于特征的分类器的置信水平。已经提出了一种模糊的平均融合模型以基于他们的置信度得分将分类器结果组合。拟议的方法已经使用Python实施，并在实验上验证了合成和现实世界数据集。使用接收器操作特征ROC曲线分析评估所提出的模型的性能。

Progressive Spatio-Temporal Bilinear Network with Monte Carlo Dropout for Landmark-based Facial Expression Recognition with Uncertainty Estimation
Authors Negar Heidari, Alexandros Iosifidis
深度神经网络已广泛用于面部表情识别系统中的特征学习。然而，小型数据集和大型课外级别可变性可能导致过度装备。在本文中，我们提出了一种方法，该方法利用局部化面部地标特征来学习用于实时面部表情识别的优化紧凑型网络拓扑。我们的方法采用了一个时空颞叶层作为骨干，以在有效地执行面部表情期间捕获面部地标的运动。此外，蒙特卡洛辍学率利用了捕捉模型的不确定性，这重视分析和治疗不确定的情况。我们的方法的性能是在三个广泛使用的数据集中进行评估，并且它与本领域技术的基于视频状态相当，而其具有更少的复杂性。

Contrastive Representation Learning for Hand Shape Estimation
Authors Christian Zimmermann, Max Argus, Thomas Brox
这项工作提出了通过建立无监督学习最近进步的单眼手形估计的改进。我们扩展了势头对比学习，并贡献了一个结构化的手形象，非常适合我们称之为HANCO的视觉表现学习。我们发现，通过利用高级背景移除技术和多视图信息，可以显着提高通过建立的对比学习方法学到的表示。这些允许我们生成更多样化的实例对，而不是通过基于示例的方法通常使用的增强而获得的成像。我们的方法导致手形估计任务的更合适的表示，并显示了与想象较掠过的基线相比的网格误差的4.7分数和F分数的3.6改善。我们将我们的基准数据集公开提供，鼓励进一步研究这个方向。

A Synchronized Reprojection-based Model for 3D Human Pose Estimation
Authors Yicheng Deng, Cheng Sun, Yongqi Sun, Jiahui Zhu
尽管这一领域已经完成了大量工作，但3D人类姿态估计仍然是一个挑战性问题。通常，大多数方法直接使用神经网络并忽略某些约束，例如，再分断约束和关节角度和骨长约束。本文提出了一种弱监督的3D人姿态估计模型，其同时考虑3D信息以及2D信息，其中用于学习从3D姿势到2D姿势的分布的映射。特别是，我们同步训练重注网络和生成的对抗网络。此外，由典型的运动链空间KCS矩阵的启发，我们提出了一种加权KCS矩阵，其被添加到鉴别器S输入中以施加接合角和骨长约束。人3.6M的实验结果表明，我们的方法优于现有技术的状态约5.1。

HPRNet: Hierarchical Point Regression for Whole-Body Human Pose Estimation
Authors Nermin Samet, Emre Akbas
在本文中，我们为整个身体姿势估算提出了一个新的自下而上的一个阶段方法，我们将指挥为实现此方法的网络的分层回归或短暂的HPRNet。为了处理不同的身体部位之间的尺度方差，我们建立身体部位的分层点表示并共同回归它们。与现有的两个阶段方法不同，我们的方法在恒定的时间内预测整个身体姿势，独立于图像中的人数。在COCO全体数据集上，HPRNET显着优于所有全身部位的键点检测的所有先前的自下而上的方法，即身体，脚，面部和手它也达到了脸部75.4 AP和手50.4 AP关键点检测的最新状态。。代码和型号可用

Demystifying Local Vision Transformer: Sparse Connectivity, Weight Sharing, and Dynamic Weight
Authors Qi Han, Zejia Fan, Qi Dai, Lei Sun, Ming Ming Cheng, Jiaying Liu, Jingdong Wang
视觉变压器Vit达到视觉识别中的最新性能，以及变型，局部视觉变压器，进一步改进。本地视觉变压器，当地关注的主要组件在小型本地窗口中分别执行注意力。我们将本地注意力作为渠道明智的本地连接层，并从两个网络正则化方式分析，稀疏连接和重量共享，以及重量计算。稀疏连接跨通道没有连接，每个位置连接到小本地窗口内的位置。在频道或每组通道内共享一个位置的重量分享一个位置的连接权重。动态权重根据每个图像实例动态预测连接权重。我们指出，当地的关注类似于深度明智的卷积及其动态版本，以稀疏的连接。主要区别在于重量分享深度明智卷积共享连接权重空间位置的核心重量。我们经验地观察到基于深度明智卷积的模型和具有较低计算复杂性的动态变体，与速率或有时略微好于Swin变压器，本地视觉变压器的实例，用于想象群分类，Coco对象检测和ADE语义分割。这些观察结果表明，本地视觉变压器利用了两个正则化形式和动态权重，以增加网络容量。

On the role of feedback in visual processing: a predictive coding perspective
Authors Andrea Alamia, Milad Mozafari, Bhavin Choksi, Rufin VanRullen
脑激发机器学习正在增加越来越多的考虑，特别是在计算机视觉中。几项研究调查了在卷积网络中包含顶部反馈连接，但是，尚不清楚这些连接在功能上有用的情况下以及何时何种。在这里，我们在嘈杂的条件下在对象识别的背景下解决这个问题。我们认为深卷积网络CNNS作为馈送前进视觉处理的模型，通过反馈连接预测反馈来实现用于改造或清洁图像的分类的预测反馈来实现预测编码PC动态。为了直接评估各种实验情况中预测反馈的计算作用，我们优化和解释控制网络的复发动态的超参数。也就是说，我们让优化过程决定顶部下降连接和预测编码动态是否有功能有益。在不同的模型深度和架构3层CNN，RESET18和WEILIGNTETB0和各种类型的噪声CIFAR100 C中，我们发现网络越来越依赖于顶部下调预测随着噪声水平在更深的网络中增加，这种效果在较低的效果中最突出层。此外，与其等效的前向网络相比，实现PC动态的网络的准确性随着时间的推移而显着增加。总而言之，我们的结果提供了与神经科学相关的新颖见解，通过确认感觉系统中反馈连接的计算作用，并通过揭示这些可以提高当前视觉模型的稳健性来实现的机器学习。

On the use of automatically generated synthetic image datasets for benchmarking face recognition
Authors Laurent Colbois, Tiago de Freitas Pereira, S bastien Marcel
大规模面部数据集的可用性是面部识别进展的关键。但是，由于许可问题或版权侵权，某些数据集不再可用，例如，不可用。 MS CELEB 1M。生成对抗网络GAN的最近进步，综合现实面部图像，提供了一种通过合成数据集更换真实数据集的途径，都可以训练和基准面部识别FR系统。本文提出的工作提供了使用合成数据集进行基准测试FR系统的研究。首先，我们介绍了所提出的方法来生成合成数据集，而无需人为干预，通过利用具有多种控制的变化因子的样式触发模型的潜在结构。然后，我们确认我生成的合成标识不是来自GaN S训练数据集的数据科目，该数据集在合成数据集上验证了合成数据集的10K身份II基准测试结果是一个很好的替换，通常提供错误率和系统排名。类似于真实数据集的基准测试。

Grapevine Winter Pruning Automation: On Potential Pruning Points Detection through 2D Plant Modeling using Grapevine Segmentation
Authors Miguel Fernandes, Antonello Scaldaferri, Giuseppe Fiameni, Tao Teng, Matteo Gatti, Stefano Poni, Claudio Semini, Darwin Caldwell, Fei Chen
葡萄藤冬季修剪是一项复杂的任务，需要熟练的工人正确执行它。这项任务的复杂性也是它耗时的原因。考虑到该操作需要完成约800小时的HA才能完成，因此在大型葡萄园中更为至关重要，自动化系统可以帮助加快该过程。为此，本文提出了一种新颖的多学科方法，通过对葡萄图像上执行对象分割来解决这一具有挑战性的任务，用于创建葡萄植物的代表性模型。其次，从该植物表示产生了一组潜在的修剪点。我们将描述用于数据采集和注释的AA方法，葡萄分段的BA神经网络微调，C基于图像处理的方法，用于创建葡萄藤代表模型，从推断的分段和D电位修剪点检测和定位，基于植物模型是葡萄结构的简化。通过这种方法，我们能够识别可以使用进一步选择的罐头上的大量潜在修剪点，以获得最终的实际修剪点。

Learning by Distillation: A Self-Supervised Learning Framework for Optical Flow Estimation
Authors Pengpeng Liu, Michael R. Lyu, Irwin King, Jia Xu
我们呈现蒸馏流，是学习光学流动的知识蒸馏方法。 Distillflow训练多个教师模型和学生模型，其中挑战转换应用于学生模型的输入，以产生幻觉的遮挡以及不太自信的预测。然后，自我监督的学习框架是从教师模型构建自信的预测，作为注释，以指导学生模型，以便为那些不太自信的预测学习光学流。自我监督的学习框架使我们能够有效地学习来自未标记数据的光流，而不仅适用于非遮挡像素，而且还用于封闭像素。 Distillflow在Kitti和Sintel数据集中实现了艺术艺术的无监督学习性能。我们的自我监督的预训练模型还为受监管的微调提供了很好的初始化，这表明替代培训范式与当前监督学习方法相比，高度依赖于综合数据的培训。在撰写本文时，我们的精细调整模型在基准基准的所有单眼方法中排名第一，并且优于Sintel最终基准测试的所有已发布的方法。更重要的是，我们展示了三个方面框架泛化，通信泛化和交叉数据集概述的蒸馏流程的泛化能力。

LipSync3D: Data-Efficient Learning of Personalized 3D Talking Faces from Video using Pose and Lighting Normalization
Authors Avisek Lahiri, Vivek Kwatra, Christian Frueh, John Lewis, Chris Bregler
在本文中，我们展示了一种基于视频的学习框架，用于动画来自音频的个性化3D谈话面。我们介绍了两个培训时间数据常规，可显着提高数据采样效率。首先，我们在归一化空间中隔离并代表面对三维几何，头部姿势和纹理的归一化空间。这将预测问题与3D面形状的回归分解成回归和相应的2D纹理地图集。其次，我们利用面部对称性和近似的皮肤玻璃玻璃术来隔离和去除时空时间照明变化。这些常规化允许简单的网络在新颖的环境照明下生成高保真唇同步视频，同时使用单个扬声器特定视频进行培训。此外，为了稳定时间动态，我们引入了一种自动回归方法，将模型的其上以前的视觉状态引入。人类评级和客观度量标准表明，我们的方法在现实主义，唇部同步和视觉质量分数方面优于现代艺术音频驱动的视频再生基准的现代状态。我们说明了我们框架启用了多个应用程序。

Image2Point: 3D Point-Cloud Understanding with Pretrained 2D ConvNets
Authors Chenfeng Xu, Shijia Yang, Bohan Zhai, Bichen Wu, Xiangyu Yue, Wei Zhan, Peter Vajda, Kurt Keutzer, Masayoshi Tomizuka
3D点云和2D图像是物理世界的不同视觉表示。虽然人类的愿景可以了解两个表示，专为2D图像和3D点云理解而设计的计算机视觉模型是完全不同的。我们的论文通过经验调查这种方法是否有效地调查这两个表示之间的可转换性可能性，如何使转移性能影响，以及如何使其更好地工作。我们发现我们确实可以使用相同的神经网络模型架构来了解图像和点云。此外，我们可以从图像模型转移净化重量，以极少的努力点云模型。具体地，基于图像数据集的2D GROMNET，我们可以通过将图像模型转换为点云模型，通过封闭2D卷积滤波器到3D，然后缠绕其输入，输出和可选的归一化层。转移模型可以在3D点云分类，室内和驾驶场景分割上实现竞争性能，即使跳过广泛的点云模型，可以采用任务特定的架构并使用各种技巧。

White Paper Assistance: A Step Forward Beyond the Shortcut Learning
Authors Xuan Cheng, Tianshu Xie, Xiaomin Wang, Jiali Deng, Minghui Liu, Ming Liu
CNN的有希望的表现经常掩盖需要检查他们是否正在做的事情。我们通过实验表明，即使通过参数化模型仍将通过鲁莽地利用虚假相关性，或所谓的快捷方式来解决数据集。为了解决这种意外的倾向，我们借了打印机测试页的想法，并提出了一种称为白纸援助的新方法。我们所提出的方法涉及白皮书，以检测模型对某些特征模式偏好的程度，并通过强制模型在白纸上进行随机猜测来缓解它。我们展示了在各种架构，数据集和与其他技术的组合中显现的一致的准确性改进。实验还表明了我们对细粒度识别，分类和腐败稳健性的方式的多功能性。

Highly accurate digital traffic recording as a basis for future mobility research: Methods and concepts of the research project HDV-Mess
Authors Laurent Kloeker, Fabian Thomsen, Lutz Eckstein, Philip Trettner, Tim Elsner, Julius Nehring Wirxel, Kersten Schuster, Leif Kobbelt, Michael Hoesch
研究项目HDV混乱旨在目前缺失，但非常重要的部分，以解决在公共道路上的关联和自动驾驶领域的重要挑战。目标是以高精度在各种相关位置录制交通事集，并将真实的交通数据作为当前和未来传感器技术的开发和验证以及自动化驾驶功能的基础。为此目的，有必要为高度准确的交通数据采集开发用于移动模块化系统的移动模块化系统，这使得能够在不同位置处临时安装传感器和通信基础设施。在本文中，我们首先使用移动模块化智能运输系统站展示我们的交通检测概念之前讨论项目目标。然后，我们解释了传感器原始数据的数据处理方法，以精细轨迹，数据通信和数据验证。

On Improving Adversarial Transferability of Vision Transformers
Authors Muzammal Naseer, Kanchana Ranasinghe, Salman Khan, Fahad Shahbaz Khan, Fatih Porikli
视觉变压器VITS通过自我关注的曲线作为斑块的序列，而不是卷积神经网络CNNS。这使得研究Vit模型的对抗特征空间及其可转移性有趣。特别是，我们观察到通过常规对抗攻击发现的对抗性模式，即使对于大型VT模型，也表现出非常低的黑匣子可转移性。但是，我们表明这种现象仅是由于不利用VITS的真实表示潜力的次最优攻击程序。深紫色由多个块组成，具有一致的架构，包括自我关注和馈送前方层，其中每个块能够独立地产生类令牌。仅使用最后一类令牌传统方法配制攻击并不直接利用存储在早期令牌中的辨别信息，从而导致VITS的不良越野转移性。使用Vit模型的组成性质，我们通过引入特定于Vit模型结构的两种新策略来增强现有攻击的可转移性。我自我合奏我们提出一种通过将单VIT模型解剖到网络的集合来找到多种判别途径的方法。这允许在每个VIT块处明确地利用类特定信息。 II令牌改进我们然后建议改进令牌，以进一步提高每种Vit的鉴别能力。我们的令牌细化系统地将类令牌系统置于修补程序令牌中保留的结构信息。当在单视觉变压器中发现的分类器的集合中应用于此类精炼令牌时，对侵害攻击具有显着的可转移性。

Cross-Domain Gradient Discrepancy Minimization for Unsupervised Domain Adaptation
Authors Zhekai Du, Jingjing Li, Hongzu Su, Lei Zhu, Ke Lu
无监督域适应UDA旨在概括从一个良好标记的源域中学习的知识到未标记的目标域。最近，已经引入了具有两个不同分类器BI分类器的对抗域适应，以便UDA有效地对齐不同域之间的分布。以前的BI分级器对抗性学习方法仅关注两个不同分类器的输出之间的相似性。然而，输出的相似性不能保证目标样本的准确性，即，即使两个分类器之间的差异很小，目标样本也可能与错误类别匹配。为了挑战这个问题，在本文中，我们提出了一种跨域梯度差异最小化CGDM方法，该方法明确地最小化了源样本和目标样本所产生的梯度的差异。具体地，梯度给出了目标样本的语义信息的提示，因此它可以用作提高目标样本的准确性的良好监督。为了计算目标样本的梯度信号，我们通过基于聚类的自我监督学习进一步获得目标伪标签。三个广泛使用的UDA数据集的广泛实验表明我们的方法超越了许多以前的艺术状态。代码可用

Few-Shot Action Localization without Knowing Boundaries
Authors Ting Ting Xie, Christos Tzelepis, Fan Fu, Ioannis Patras
学习在长期内容的情况下，杂乱无章和未经监测的视频是一项艰巨的任务，通常在文献中，假设在完全监督的设置中，假设每个类的大量注释的训练样本的可用性，其中已知行动边界或者在弱监督的环境中，只有类标签为每个视频都知道。在本文中，我们进一步逐步，并表明，当目标动作的唯一修剪的示例可在测试时间可用时，可以学习在未经监控的视频中的操作，而仅有大量视频类标签注释有些修剪和一些弱注释的未经监控的注释可用于培训培训和测试期间使用的类之间没有重叠的培训。为此，我们提出了一种网络，该网络学习估计时间相似性矩阵TSMS，该TSMS在修剪或未修剪的视频对与视频成对的视频之间模拟了细粒度相似模式，并使用它们来生成时间类激活映射TCAM用于看到或看不见的类。 TCAM作为暂时的注意机制，以提取未经监测视频的视频级表示，并在时间上定位在测试时间的动作。据我们所知，我们是第一个提出一个弱监督的一个漏洞行动本地化网络，可以在结束时尚培训。在Thumos14和ActivityNET1.2数据集上的实验结果表明，我们的方法实现了对艺术态度的性能相当或更好地进行了完全监督，很少拍摄的学习方法。

Adversarial Semantic Hallucination for Domain Generalized Semantic Segmentation
Authors Gabriel Tjio, Ping Liu, Joey Tianyi Zhou, Rick Siow Mong Goh
当测试和培训数据来自不同域时，卷积神经网络可能表现不佳。虽然可以通过使用目标域数据来对准源域和目标域特征表示来缓解此问题，但由于隐私问题，目标域数据可能不可用。因此，需要概括地概括的方法，而无需在训练期间访问目标域数据。在这项工作中，我们提出了一种普遍的幻觉方法，它结合了一级稳态幻觉模块和语义分割模块。由于分段性能在不同的类中变化，因此我们设计了一个语义条件的幻觉层，以便自适应地体现每个类。类别风格化参数是从源域图像的分割概率图中的语义知识生成的。两个模块都竞争对方，幻觉模块产生越来越困难的风格图像来挑战分割模块。作为响应，分割模块可以提高其性能，因为它在适当的级别难度级别的生成样本训练。关于艺术域适应工作状态的实验，展示了我们所提出的方法在没有针对目标域数据培训时的功效。

Image Deformation Estimation via Multi-Objective Optimization
Authors Takumi Nakane, Xuequan Lu, Haoran Xie, Chao Zhang
通过在图像上操纵控制点格，自由形式变形模型可以表示各种非刚性变形。然而，由于大量参数，由于健身景观的复杂性，将自由形式变形模型直接拟合自由形式变形模型，以进行变形估计的变形图像是具有挑战性的。在本文中，我们将注册任务作为多目标优化问题MOP作为一个多目标优化问题，根据每个控制点彼此重叠的区域。具体地，通过将模板图像划分为若干区域并独立地测量每个区域的相似性，因此通过求解拖把的架子多目标进化算法MoeS，因此可以实现多种目标并且可以通过求解拖把来实现变形估计。另外，通过图像金字塔与控制点网状细分相结合实现粗略策略。具体地，当前图像电平的优化候选解决方案由下一个级别继承，这增加了处理大变形的能力。此外，提出了一个后处理过程以利用Pareto最佳解决方案生成单个输出。合成和现实世界形象的比较实验表明了我们变形估计方法的有效性和有用性。

Conversational Fashion Image Retrieval via Multiturn Natural Language Feedback
Authors Yifei Yuan, Wai Lam
我们通过多归类自然语言反馈研究会话时尚图像检索的任务。最先前的研究是基于单匝设置。 Multiburn会话时尚图像检索的现有模型具有局限性，例如采用传统模型，导致性能无效。我们提出了一种新颖的框架，可以有效处理与多款自然语言反馈文本的会话时尚图像检索。框架的一个特征是它基于与对话历史一起利用编码的参考图像和反馈文本信息的候选图像搜索候选图像。此外，通过相互关注策略利用图像时尚属性信息。由于没有适合于我们任务的多仓设置的现有时装数据集，我们通过现有的单圈数据集上的其他手动注释工作获得了大规模的多卷型数据集。实验表明，我们所提出的模型显着优于现有现有技术的现有技术。

Left Ventricle Contouring in Cardiac Images Based on Deep Reinforcement Learning
Authors Sixing Yin, Yameng Han, Shufang Li
医学图像分割是医学图像分析中计算机辅助诊断的重要任务之一。由于大多数医学图像具有模糊边界和不均匀强度分布的特征，通过现有的分段方法，目标区域内的不连续性和目标边界的不连续性可能导致粗糙甚至错误的边界描绘。本文提出了一种基于代理增强学习的医学图像的新迭代精细交互式分割方法，其侧重于目标分割边界的问题。基于深度加强学习方法，我们以特定顺序绘制目标轮廓的动态过程模拟了绘制目标轮廓的动态过程。在代理和图像之间的连续交互的动态过程中，代理在有限长度范围内按顺序追踪边界点，直到完全绘制目标的轮廓。在此过程中，代理可以通过探索图像中的交互式策略来快速提高分段性能。我们提出的方法简单有效。与此同时，我们在心脏MRI扫描数据集上评估我们的方法。实验结果表明，我们的方法在少数医学图像数据集中对左心室具有更好的分割效果，特别是在分割边界方面，该方法优于现有方法。基于我们所提出的方法，左心室的预测轮廓轨迹的动态生成过程将在线显示

Multi-dataset Pretraining: A Unified Model for Semantic Segmentation
Authors Bowen Shi, Xiaopeng Zhang, Haohang Xu, Wenrui Dai, Junni Zou, Hongkai Xiong, Qi Tian
收集用于语义分割的注释数据是耗时且难以扩展。在本文中，我们首次提出一个统一的框架，称为多数据集预先预测，充分利用不同数据集的分段注释。突出显示是可以有效地重复使用不同域的注释，并始终促进每个特定域的性能。这是通过首先通过所提出的像素预先预测网络来实现多个数据集的原型对比损失，并且无论其分类标签如何，然后按照通常的数据集进行精细调整预制模型。为了更好地模拟来自不同数据集的图像和类之间的关系，我们通过交叉数据集混合扩展像素级嵌入式，并提出一个像素到类稀疏编码策略，该稀疏编码策略明确地模拟了歧管嵌入空间上的像素类相似性。通过这种方式，我们能够提高帧内紧凑性和帧内级别可分离性，以及考虑不同数据集的帧间相似性以获得更好的可转换性。在几个基准上进行的实验表明了其卓越的性能。值得注意的是，MDP始终如一地优于想象力的预磨模型号，相当大的边距，同时仅使用少于10个样品来预先预测。

Harnessing Unrecognizable Faces for Face Recognition
Authors Siqi Deng, Yuanjun Xiong, Meng Wang, Wei Xia, Stefano Soatto
面部识别系统作为检测阶段的级联和识别或验证阶段的常见实现可能导致超出检测器的故障的问题。当探测器成功时，无论识别系统如何如何，它都可以检测到无法识别的面孔。因此，应考虑潜在变量的识别性，因此应考虑到面部识别系统的设计和实现中。我们提出了一种衡量识别的面部图像的识别性，其利用关键的经验观察面部图像的嵌入，由使用大多数可识别的身份训练的深神经网络实现，从而引起远程的分区，从而将无法识别的身份集群聚集在一起。无论导致面部都无法辨认的现象如何，都会发生这种情况，它是光学或运动模糊，部分闭塞，空间量化，照明差。因此，我们使用从这种无法识别的身份的距离作为识别性的衡量标准，并将其包含在所有系统的设计中。我们示出了识别性的核算能力在IJB C协变量验证基准测试基准上的CON 1E 5在远程1E 5中将单位图像面部识别的错误率降低，并且在IJB C基准上的基于识别中将验证误差率降低24。

Fully Transformer Networks for Semantic ImageSegmentation
Authors Sitong Wu, Tianyi Wu, Fangjian Lin, Shengwei Tian, Guodong Guo
由于模拟了长距离依赖性的能力，变压器在各种自然语言处理和计算机视觉任务中表现出令人印象深刻的性能。最近的进展已经表明，将这种变压器与基于CNN的语义图像分割模型相结合非常有前途。但是，目前还没有很好地研究了基于纯变压器的方法可以实现用于图像分割的方法。在这项工作中，我们探索了一种新颖的语义图像分割框架，它是基于编码器解码器的完全变压器网络FTN。具体地，我们首先提出了金字塔组变压器PGT作为逐步学习分层特征的编码器，同时降低了标准视觉变压器VIT的计算复杂性。然后，我们提出了一个特征金字塔变压器FPT到熔断器的语义级别和空间级信息，来自多个级别的PGT编码器进行语义图像分割。令人惊讶的是，这种简单的基线可以实现新的最新状态，结果是多个具有挑战性的语义细分基准，包括帕斯卡背景，Ade20k和Coco的东西。源代码将在发布这项工作时发布。

Design of Low-Artifact Interpolation Kernels by Means of Computer Algebra
Authors Peter Karpov
我们展示了一些用于图像插值的新分段多项式核。通过基于各向异性伪像的大小优化内插质量的量度来构造核。内核设计过程使用MatheMatica计算机代数系统象征性地执行。涉及14个图像质量评估方法的实验评估表明，我们的结果与现有的线性插值者相比，我们的结果比较。

Diverse Part Discovery: Occluded Person Re-identification with Part-Aware Transformer
Authors Yulin Li, Jianfeng He, Tianzhu Zhang, Xiang Liu, Yongdong Zhang, Feng Wu
被遮挡的人重新识别RE ID是一个具有挑战性的任务，因为人们经常被各种障碍或其他人封闭，特别是在人群情景中。为了解决这些问题，我们提出了一种新颖的端部件意识到变压器，通过通过变换器编码器架构通过不同的部分发现，包括基于像素上下文的变压器编码器和基于部分原型的变压器解码器，包括不同的部分发现。建议的PAT模型享有多种优点。首先，据我们所知，这是第一个用于利用变压器编码器解码器架构，以便在统一的深层模型中为遮挡人员重新识别进行变压器编码器解码器架构。其次，仅使用身份标签学习部分原型，我们设计了两个有效的机制，包括零件多样性和部分可辨别性。因此，我们可以以弱监督的方式实现因遮挡人员的多样化部分发现。在封闭的三个任务的六个具有挑战性的基准上进行了广泛的实验结果，部分和全面的RE ID表明我们所提出的PAT对本领域技术的统计数据表现出有利。

Variational AutoEncoder for Reference based Image Super-Resolution
Authors Zhi Song Liu, Wan Chi Siu, Li Wen Wang
在本文中，我们提出了一种通过变分性AutoEncoder Refvae的基于参考的图像超分辨率方法。现有技术的方法主要关注单幅图像超分辨率，不能在大上采样因子上表现良好，例如8次。我们提出了一种基于参考的图像超分辨率，其中任意图像可以作为超分辨率的参考。即使使用随机地图或低分辨率图像本身，所提出的Refvae也可以将知识从参考转移到超级分辨图像。根据不同的参考，所提出的方法可以从隐藏的超分辨率空间生成不同版本的超分辨率图像。除了使用PSNR和SSIM的一些标准评估的不同数据集外，我们还参加了NTIRE2021 SR空间挑战，并提供了我们方法的随机性评估结果。与其他最先进的方法相比，我们的方法实现了更高的多样化。

Salvage of Supervision in Weakly Supervised Detection
Authors Lin Sui, Chen Lin Zhang, Jianxin Wu
弱监督对象检测WSOD最近引起了很多关注。但是，WSOD与完全监督检测之间的方法，性能和速度间隙可防止WSOD应用于现实世界任务中。为了弥合差距，本文提出了一个新的框架，监督SOS的抢救，具有关键的想法，在WSOD弱图像级标签，伪标签和半监督物体检测的力量中，关键的想法是在WSOD中的每一个潜在有用的监控信号。本文表明，每种类型的监控信号都带来了显着的改进，优异地优于现有的WSOD方法，这些方法主要仅使用大型边缘的弱标签。所提出的SOS WSOD方法在VOC2007上实现64.4 M文本AP 50，VOC2012和16.4 M文本AP 50上的61.9 M文本AP 50在MS COCO上，也具有快速推断速度。消融和可视化进一步验证了SOS的有效性。

LocalTrans: A Multiscale Local Transformer Network for Cross-Resolution Homography Estimation
Authors Ruizhi Shao, Gaochang Wu, Yuemei Zhou, Ying Fu, Lu Fang, Yebin Liu
交叉分辨率图像对齐是MultiScale Gigapixel Photography中的一个关键问题，需要使用具有大分辨率差距的图像来估计同住矩阵。现有的深层同性恋方法连接输入图像或特征，忽略它们之间的对应关系的显式制定，这导致交叉分辨率挑战的准确性降低。在本文中，我们考虑交叉分辨率估计作为多模式问题，并提出嵌入在多尺度结构内的本地变压器网络，以明确地学习多模式输入之间的对应关系，即具有不同分辨率的输入图像。所提出的本地变压器专门针对特征中的每个位置采用本地关注图。通过将本地变压器与多尺度结构组合，网络能够有效且准确地捕获长的短程对应。关于MS Coco DataSet和真实捕获的交叉分辨率数据集的实验表明，所提出的网络优于现有的基于艺术特征的现有状态和基于深度学习的同类特征估计方法，并且能够精确地对准10次分辨率间隙的图像。

Semantically Controllable Scene Generation with Guidance of Explicit Knowledge
Authors Wenhao Ding, Bo Li, Kim Ji Eun, Ding Zhao
深度生成型号DGMS在产生现实数据时众所周知。借调数据驱动方法，最近的专业DGM可以满足额外的可控要求，例如嵌入驱动场景中的交通符号，通过在神经元或特征级别中隐含地操纵模式缩写。在本文中，我们介绍了一种新的方法，可以在生成过程中明确地结合域知识短信，以实现语义可控场景生成。我们将我们的知识分为两种类型，以与自然场景的组成一致，其中第一个类型表示对象的属性，第二种类型表示对象之间的关系。然后，我们提出了一种树结构化生成模型来学习复杂的场景表示，其节点和边缘自然对应于两种类型的知识。可以明确地集成知识，以通过对树结构中的节点和边的属性进行语义规则来实现语义可控的场景生成。我们构建一个合成示例，以说明我们在清洁设置中的方法的可控性和解释性。我们进一步将合成示例扩展到现实的自主车辆驾驶环境，并进行广泛的实验，以表明我们的方法有效地识别对满足指定作为明确知识的交通规则的不同状态的抗逆性交通场景。

Affinity Attention Graph Neural Network for Weakly Supervised Semantic Segmentation
Authors Bingfeng Zhang, Jimin Xiao, Jianbo Jiao, Yunchao Wei, Yao Zhao
由于其较低的人类注释成本，弱监督的语义分割是极大的关注。在本文中，我们的目标是解决边界框监督语义分割，即使用边界框注释作为监督训练准确的语义分段模型。为此，我们提出了关注的关注图神经网络A 2 GNN。在以前的做法之后，我们首先产生伪语义意识的种子，然后基于我们的新提出的亲和卷积神经网络CNN形成语义图。然后，构建的图表被输入到我们的2 GNN，其中亲和力的注意层被设计为从软图形边缘获取短距离信息，以将来自自信的种子的语义标签精确地传播到未标记的像素。然而，为了保证种子的精度，我们只采用了2 GNN的有限数量的自信像素种子标签，这可能导致培训的监督不足。为了缓解这个问题，我们进一步引入了新的损失函数和一致性检查机制来利用边界框限制，从而可以包括更可靠的指导以用于模型优化。实验表明，我们的方法在Pascal VOC 2012 Datasets Val 76.5上实现了新的现有技术，测试75.2。更重要的是，我们的方法可以很容易地应用于边界框监督实例分割任务或其他弱监督的语义分割任务，以及普通的艺术状态或普罗特·VOC或Coco DataSet上的所有弱监管任务。我们的源代码将可用

Discriminative Triad Matching and Reconstruction for Weakly Referring Expression Grounding
Authors Mingjie Sun, Jimin Xiao, Eng Gee Lim, Si Liu, John Y. Goulermas
在本文中，我们正在处理弱监督的引用表达接地任务，用于根据查询句子定位图像中的图像中的引用对象，其中图像区域和查询之间的映射在训练阶段不可用。在传统方法中，挑出最佳匹配引用表达式的对象区域，然后从所选区域重建查询句子，其中重建差异用作反向传播的损耗。然而，现有的方法大致进行匹配和重建，因为它们忽略了匹配正确性未知的事实。为了克服这种限制，这里设计了鉴别性三合会作为解决方案的基础，通过该解决方案可以通过该解决方案以非常可扩展的方式转换为一个或多个判别三合会。基于鉴别性三合会，我们进一步提出了三合一匹配和重建模块，这对弱势监督培训进行了重量轻，而且有效，使其比以前的最先进方法更轻且速度快三倍。尽管设计简单和简洁，但我们工作的一个重要优点是其优越的性能。具体地，当在Refcoco 39.21，Refcoco 39.18和Refcocog 43.24数据集上进行评估时，所提出的方法可以分别在Refcoco 39.21，Refcoco 39.18和Refcococ 43.24数据集上进行评估。分别高于前一个的4.17,4.08和7.8。

Subject-Independent Brain-Computer Interface for Decoding High-Level Visual Imagery Tasks
Authors Dae Hyeok Lee, Dong Kyun Han, Sung Jin Kim, Ji Hoon Jeong, Seong Whan Lee
大脑电脑接口BCI用于通过识别人类的状态和意图来实现人类和设备之间的通信。使用脑电图EEG信号的人类和无人机之间的通信是BCI域中最具挑战性的问题之一。特别是，与无人机的控制相比，无人机群的控制方向和形成具有更多优点。 Visual Imagery VI范例是主题视觉上想象特定的对象或场景。对受试者的EEG信号之间的变异性对实际BCI的系统是必不可少的。在本研究中，我们提出了Subepoch Wise特征编码器SEFE通过使用VI数据集来改善主题独立任务中的性能。本研究首次试图展示基于VI的BCI中的受试者泛化的可能性。我们使用休假一个主题横跨验证来评估表演。在包括我们所提出的模块之外，我们获得了更高的性能，而不是排除我们所提出的模块。 SEFE的DeepConvnet在六种不同的解码模型中显示出0.72的最高性能。因此，我们展示了通过使用我们提出的模块来解码主题独立任务中的VI数据集的可行性。

SpaceMeshLab: Spatial Context Memoization and Meshgrid Atrous Convolution Consensus for Semantic Segmentation
Authors Taehun Kim, Jinseong Kim, Daijin Kim
语义分割网络采用从图像分类网络的转移学习，这发生了空间上下文信息的短缺。因此，我们通过保留输入维度并持续使用骨干网相互传播其空间上下文和丰富的语义信息来提出空间上下文丢失垃圾邮件，用于空间上下文的绕过分支。用于语义分割的多尺度上下文信息对于处理给定场景中的目标对象的不同尺寸和形状至关重要。传统的多尺度上下文方案通过多种扩张速率或池化操作采用多个有效的接收领域，而是经常对目标像素遭受未对准问题。为此，我们提出了Meshgrid的卷积共识MetroCon 2，它将多尺度方案带入微量粗糙度的多尺度对象上下文，卷积与散射扩张速率类似的网格格栅。 Spacemeshlab Reset 101垃圾邮件Metrocon 2在Citycapes Test和53.5 Miou达到了82.0 miou，请参见Pascal Context验证集。

Self-Supervised Structure-from-Motion through Tightly-Coupled Depth and Egomotion Networks
Authors Brandon Wagstaff, Valentin Peretroukhin, Jonathan Kelly
最近的文献已经将来自运动SFM的结构制定为自我监督的学习问题，目标是通过观看合成共同学习深度和象征的神经网络模型。这里，我们解决了如何最佳地耦合深度和偶象网络组件的开放问题。为此，我们介绍了几个耦合概念，对现有方法进行了分类，并提出了一种新的紧密耦合方法，利用训练和推理时间的深度和偶像的相互依存。我们的方法使用迭代视图综合来递归更新emomotion网络输入，允许在没有显式权重共享的组件之间传递的上下文信息。通过实质性实验，我们证明我们的方法促进了测试时间的深度和象征预测之间的一致性，提高了新数据的泛化，并导致室内和室外深度和象域评估基准的最先进的准确性。

Task-Generic Hierarchical Human Motion Prior using VAEs
Authors Jiaman Li, Ruben Villegas, Duygu Ceylan, Jimei Yang, Zhengfei Kuang, Hao Li, Yajie Zhao
一种深入的生成模型，描述人类运动可以使广泛的基本计算机视觉和图形任务受益，例如为基于视频的人类姿势估算提供鲁棒性，预测闭塞期间运动捕获系统的完整身体运动，并帮助钥匙帧动画与可粘合的关键帧动画运动。在本文中，我们介绍了一种学习复杂的人类运动的方法，这些方法独立于使用组合的全球和局部潜在的空间，以方便粗糙和细粒度的建模。具体地，我们提出了一种分层运动变形AutoEncoder HM VAE，其由2级分层潜空间组成。虽然全球潜在空间捕获整体全球机身运动，但局部潜在空间可以捕获不同身体部位的精致姿势。我们展示了我们的分层运动变形AutoEncoder在包括视频基人姿势估计的各种任务中的有效性，从部分观察的运动完成，以及来自稀疏键帧的运动合成。尽管如此，我们的模型尚未具体培训任何这些任务，它提供比任务特定替代品的卓越性能。我们通用的人类运动现有模式可以修复人体动画损坏，并从不完全观察中产生完整的运动。

Weakly Supervised Volumetric Image Segmentation with Deformed Templates
Authors Udaranga Wickramasinghe, Pascal Fua
有许多方法可以使用弱监管来培训网络到分段2D图像。相比之下，现有的3D方法依赖于3D图像卷的2D片的子集的完整监督。在本文中，我们提出了一种真正弱弱监督的方法，即我们只需要在目标对象的表面上提供一组稀疏的3D点，这是一项可以快速完成的易于任务。我们使用3D点来使3D模板变形，使其大致匹配目标对象轮廓，并且我们介绍了一种利用粗略模板提供的监控以训练网络来查找准确边界的架构的架构。

Novel View Video Prediction Using a Dual Representation
Authors Sarah Shiraz, Krishna Regmi, Shruti Vyas, Yogesh S. Rawat, Mubarak Shah
我们解决了新颖的视图视频预测问题给定了一组来自单个多个视图的输入视频剪辑，我们的网络能够从新颖视野中预测视频。所提出的方法不需要任何前沿，并且能够将视频从较宽的角度距离预测到较宽的角度距离，与最近的研究相比，预测视点中的小变化的研究相比。此外，我们的方法仅依赖于ONRGB帧来学习用于从新颖的视点生成视频的双表示。双重表示包括依赖于视图和全局表示，其结合了互补细节来实现新颖的视图视频预测。我们展示了我们框架对两个真实世界数据集NTU RGB D和CMU Panoptic的有效性。与最新的新型视图视频预测方法的比较显示了在SSIM，13.6中的PSNR中的26.1和60个INFVD分数的改善，而不使用来自目标视图的显式前沿。

Progressive Multi-scale Fusion Network for RGB-D Salient Object Detection
Authors Guangyu Ren, Yanchu Xie, Tianhong Dai, Tania Stathaki
突出物体检测SOD旨在在给定图像内定位最重要的对象。近年来，在许多愿景任务上申请SOD时取得了很大进展。深度图可以提供额外的空间先前和边界线索以提高性能。将深度信息与标准视觉相机获得的图像数据组合在最近的SOD工作中广泛应用，然而，在次优融合策略中引入深度信息可能对SOD性能产生负面影响。在本文中，我们讨论了所谓的渐进式多尺度融合方法的优点，并提出了一个掩模引导特征聚合模块MGFA。所提出的框架可以有效地结合不同方式的两个特征，而且还可以减轻错误的深度特征的影响，这不可避免地由深度质量的变化引起。我们进一步引入了一个面罩引导的细化模块MGRM，以补充高级语义特征，减少多种熔化的无关功能，导致检测的整体细化。五个具有挑战性的基准测试表明，所提出的方法优于不同评估指标下的技术方法的11个状态。

How to Design a Three-Stage Architecture for Audio-Visual Active Speaker Detection in the Wild
Authors Okan K p kl , Maja Taseska, Gerhard Rigoll
成功的主动扬声器检测需要针对剪辑中的所有扬声器的三级流水线I音频视觉编码，II互通的扬声器关系在参考扬声器和每个帧内的背景扬声器之间建模，以及用于参考扬声器的III时间建模。该管道的每个阶段都在创建的架构的最终表现中起着重要作用。基于一系列受控实验，这项工作提出了几种实用的视觉主动扬声器检测准则。相应地，我们展示了一个名为ASDNet的新架构，它在AVA ActiveSpeaker数据集上实现了一个新的技术状态，其中映射为93.5的距离，距离4.7的较大边距。我们的代码和预用型号是公开的。

Multi-task Transformation Learning for Robust Out-of-Distribution Detection
Authors Sina Mohseni, Arash Vahdat, Jay Yadawa
检测分配OOD样本在开放世界和安全关键应用中起着关键作用，如自主系统和医疗保健。自我监督的代表学习技术例如，对比学习和借口学习非常适合能够识别OOD样本的学习表示。在本文中，我们提出了一种简单的框架，它利用了多任务转换学习，以便培训用于训练的训练的有效表示，以便在几个图像数据集上占据了艺术状态和鲁棒性的术语。我们经验遵守，ood性能取决于数据变换的选择，这本身取决于域训练集。为解决这个问题，我们提出了一种自动选择转换的简单机制，并在不需要任何培训样本的情况下调制它们对表示学习的影响。我们的特征是对现实世界应用的理想的OOD探测器的标准，并展示我们提出的技术对艺术型检测技术的多种状态的功效。

Meta Learning for Knowledge Distillation
Authors Wangchunshu Zhou, Canwen Xu, Julian McAuley
我们为知识蒸馏MEDADISTIL提供了META学习，这是一个简单但有效的替代方案，传统知识蒸馏KD方法，教师模型在训练期间固定。我们显示教师网络可以学会更好地将知识更好地转移到学生网络，即，学习从Meta学习框架中的蒸馏学生网络的性能教学。此外，我们介绍了一个试点更新机制，以改善内部学习者和元学习者在元学习算法中的对齐，这些算法专注于改进的内部学习者。各种基准测试的实验表明，与传统的KD算法相比，Metadistil可以产生显着的改进，并且对不同学生能力和超公共者的选择不太敏感，便于使用KD在不同的任务和模型上。代码可用

Object Based Attention Through Internal Gating
Authors Jordan Lei, Ari S. Benjamin, Konrad P. Kording
基于对象的注意力是视觉系统的关键组成部分，与感知，学习和记忆相关。调谐到参与物体的特征的神经元往往比与未参加物体相关的特征更活跃。在计算神经科学中有一种丰富的这种现象的模型。但是，目前成功匹配生理数据的模型之间存在划分，但只能处理计算机视觉中使用的极其简单的问题和注意力。例如，已知大脑中的注意力取决于顶部下降处理，而深入学习的自我关注并不是。在这里，我们提出了一种基于物体的人工神经网络模型，捕获了注意力既上下和反复出现的方式。我们的注意模型在简单的测试刺激上运作良好，例如使用手写数字图像的那些，以及更复杂的刺激，例如从Coco DataSet绘制的自然图像。我们发现我们的模型复制了神经科学的一系列结果，包括注意不变调整，抑制回报，并注意介导的活动缩放。了解基于对象的注意力既是计算上有趣，计算神经科学的关键问题。

PolypGen: A multi-center polyp detection and segmentation dataset for generalisability assessment
Authors Sharib Ali, Debesh Jha, Noha Ghatwary, Stefano Realdon, Renato Cannizzaro, Osama E. Salem, Dominique Lamarque, Christian Daul, Kim V. Anonsen, Michael A. Riegler, P l Halvorsen, Jens Rittscher, Thomas de Lange, James E. East
结肠中的息肉被广泛称为通过结肠镜检查鉴定的癌症前体，无论是否涉及症状，结直肠癌筛查或对某些疾病的系统监测有关。虽然大多数息肉是良性的，但息肉的数量，尺寸和表面结构与结肠癌的风险紧密相关。由于变性，难以描绘异常，高复发率和结肠的解剖地形，存在高错过的检测率和结肠息肉的不完全除去结肠息肉。过去，已经建立了几种方法来自动化息肉检测和分割。但是，大多数方法的关键问题是它们尚未在大型多中心的内置数据集上严格进行测试。因此，这些方法可能不会概括为不同的群体数据集，因为它们的特定人口和内窥镜监测。在这种程度上，我们已经策划了包含超过300名患者的6种不同中心的数据集。数据集包括单帧和序列数据，具有3446个注释的息肉标签，精确描绘六位高级胃肠科学家验证的息肉界限。为了我们的知识，这是由计算科学家和专家胃肠科学家组成的最全面的检测和像素级分段数据集。此数据集已始于EndoCv2021挑战部分，旨在解决息肉检测和分段中的恒定性。在本文中，我们为我们称为Polypgen的扩展EndoCv2021数据集的数据建设和注释策略，注释质量保证和技术验证提供全面的洞察力。

Computer-Assisted Analysis of Biomedical Images
Authors Leonardo Rundo
如今，由于新颖的传感技术和高吞吐量技术，异质生物医学数据的量越来越多。参考生物医学图像分析，图像采集方式和高通量成像实验的进步正在创造新的挑战。这种巨大的信息集合可以压倒医生在日常决策中所需的分析能力，以及调查复杂的生化系统的生物学家。特别地，定量成像方法通过考虑到射频方法，在预测，预后或治疗响应评估中进行科学和临床相关信息传达。因此，医学和生物学图像的计算分析在放射学和实验室应用中起着关键作用。在这方面，基于先进机器学习和计算智能的框架可以显着提高传统的图像处理和模式识别方法。然而，必须根据生物医学成像数据量身定制传统的人工智能技术以解决有关生物医学成像数据的独特挑战。本文旨在提出用于生物医学图像分析的新型和先进的计算机辅助方法，也是作为临床决策支持系统的开发中的仪器，通过始终牢记发达解决方案的临床可行性。总之，这些研究研究的最终目标是在临床上和生物学上有用的见解，可以引导鉴别诊断和疗法，导致生物医学数据集成的个性化医学。事实上，所提出的计算机辅助生物显影分析方法可以有利于成像生物标志物的定义，以及定量医学和生物学。

NWT: Towards natural audio-to-video generation with representation learning
Authors Rayhane Mama, Marc S. Tyndel, Hashiam Kadhim, Cole Clifford, Ragavan Thurairatnam
在这项工作中，我们介绍了NWT，这是一个对视频模型的表达言论。与使用域特定中间表示的方法，例如姿势关键点，NWT学习其自身的潜在表示，其对音频和视频内容的最小假设。为此，我们提出了一种具有对抗性损失的新型离散变分性自身拓扑，DVAe ADV，其学习我们呼叫Memcodes的新的离散潜在表示。 MEMCODES对实施简单，不需要额外的损失术语，与其他方法相比稳定，并显示出可解释性的证据。要预测Memcode空间，我们使用在音频上调节自回归编码器解码器模型。此外，我们的模型可以控制未在数据中注释的生成视频中的潜在属性。今晚上周从HBO S训练了NWT，今晚与John Oliver一起训练。 NWT始终如一地评分其他方法在平均观点分数MOS上，对整体视频自然，面部自然和表现力以及Lipsync质量的测试。这项工作为广义音频到视频合成设置了强大的基线。样品可用

Generative adversarial network with object detector discriminator for enhanced defect detection on ultrasonic B-scans
Authors Luka Posilovi , Duje Medak, Marko Subasic, Marko Budimir, Sven Loncaric
非破坏性测试是一种用于材料缺陷检测的一组技术。虽然该组成像技术是歧管，但超声成像是使用最多的。分析主要由人类检查员手动分析记录的图像进行。考虑来自此类检查的数据的实际超声检查和法律问题的缺陷数量难以从自动超声图像B扫描分析中获得适当的结果。在本文中，我们提出了一种新的深层学习生成的对抗网络模型，用于产生超声波扫描，与不同位置的缺陷。此外，我们表明生成的B扫描可用于合成数据增强，并且可以提高深度卷积神经对象检测网络的性能。我们的新方法在近4000英国扫描的数据集上展示了超过6000个注释缺陷。实际数据培训时，缺陷检测性能产生平均精度为71。通过训练仅在生成的数据上，结果增加到72.1，并且通过混合产生和实际数据，我们实现了75.7的平均精度。我们认为，合成数据生成可以推广到有限数据集的其他挑战，可用于培训人员。

Provably Robust Detection of Out-of-distribution Data (almost) for free
Authors Alexander Meinke, Julian Bitterwolf, Matthias Hein
在安全关键系统中应用机器学习时，需要对分类器的不确定进行可靠的评估。然而，已知深神经网络被出于分配的数据，即使训练有素对OOD数据而非信心的人仍然可以逆势地操纵，使得分类器再次对操纵样本分配高信心。在本文中，我们提出了一种新颖的方法，我们从第一个原则中使用标准分类器将可证式的ood检测器组合成一个ood的感知分类器。通过这种方式，我们甚至达到了两个世界上最好的两世界的良好稳健的检测，即使对于靠近分配的水样，而不会以预测精度损失，并且接近现有技术的未被操纵的OOD数据的检测性能。此外，由于特定的结构，我们的分类器可否避免标准神经网络的渐近过度限制问题。

EnMcGAN: Adversarial Ensemble Learning for 3D Complete Renal Structures Segmentation
Authors Yuting He, Rongjun Ge, Xiaoming Qi, Guanyu Yang, Yang Chen, Youyong Kong, Huazhong Shu, Jean Louis Coatrieux, Shuo Li
3D完全肾结构在一次推理中分割肾脏，肿瘤，肾动脉和静脉的靶标。一旦成功，它将提供术前计划和腹腔镜部分肾病术LPN的术语和术中指导，在肾癌治疗中发挥关键作用。然而，由于肾脏结构的复杂形状，低对比度和大的解剖变化，3D CRS分段没有成功。在这项研究中，我们首次利用了对抗性集合学习并提出了集合多条件GaN enmcGan的3D CRS分段。它的贡献是三倍。 1灵感来自窗口，我们提出了多个窗口委员会，将CTA图像划分为多个窄窗口，具有不同的窗口中心和宽度，增强了突出边界和软组织的对比度。然后，它在这些狭窄的窗口上构建了一个集成分段模型，融合了分割优势，提高了整个分割质量。 2我们提出了多种条件GaN，其用多种鉴别器配备了分割模型，以鼓励分段结构满足其真实形状条件，从而提高形状特征提取能力。 3我们提出了使用训练有素的鉴别器来评估分段结构的质量的对抗性加权集成模块，并将这些评估分数标准化用于输入图像的集合重量，从而增强了整体结果。 122名患者参加本研究，肾结构的平均骰子系数达到84.6。广泛的实验，肾结构呈现出对肾结构的有前途的结果，揭示了肾癌治疗中强大的分割精度和巨大的临床意义。

Graph-MLP: Node Classification without Message Passing in Graph
Authors Yang Hu, Haoxuan You, Zhecan Wang, Zhicheng Wang, Erjin Zhou, Yue Gao
图表神经网络GNN已经证明其在处理非欧几里德结构数据方面的有效性。基于空间和基于频谱的GNN依赖于邻接矩阵，以在特征聚合期间引导邻居之间的消息。最近的作品主要专注于强大的消息传递模块，但是，在本文中，我们表明没有任何消息传递模块是必要的。相反，我们提出了一种基于纯多层的Perceptron的框架，与监控信号利用图形结构的图解MLP，这足以用于学习鉴别节点表示。在模型级别中，图形MLP仅包括多层的Perceptrons，激活功能和层归一化。在损耗水平中，我们设计了相邻的对比NContrast损耗来弥合GNN和MLP之间的间隙来利用邻接信息。这种设计允许我们的模型面向大规模图数据和损坏的邻接信息时更轻，更强大。广泛的实验证明，即使没有测试阶段的邻接信息，我们的框架仍然可以在图表节点分类任务中对现有技术模型的状态达到相当甚至卓越的性能。

Manifold Topology Divergence: a Framework for Comparing Data Manifolds
Authors Serguei Barannikov, Ilya Trofimov, Grigorii Sotnikov, Ekaterina Trimbach, Alexander Korotin, Alexander Filippov, Evgeny Burnaev
我们开发了一个比较数据歧管的框架，特别是朝向深度生成模型的评估。我们描述了一种新颖的工具，交叉条形码P，Q，即给定高尺寸空间中的一对分布，跟踪多尺度拓扑间隔差异在集中分布的歧管之间。基于交叉条形码，我们介绍了歧管拓扑分解得分MTOP发散，并应用它来评估各个域图像，3D形状，时间序列和不同数据集，时尚Mnist，SVHN，CIFAR10中的深度生成模型的性能。 FFHQ，胸部X射线图像，市场股票数据，ShapEnet。我们证明了MTOP发散准确地检测各种模式下降，内部模式塌陷，模式发明和图像干扰。我们的算法随着环境高尺寸空间的尺寸的增加而基本上线性刻度。它是基于TDA的TDA之一，可以普遍应用于不同尺寸和尺寸的数据集，包括培训视域中最近的最新GAN的数据集。所提出的方法是域名不知式，不依赖于预训练的网络。

FEAR: A Simple Lightweight Method to Rank Architectures
Authors Debadeepta Dey, Shital Shah, Sebastien Bubeck
神经架构搜索NAS中的基本问题是从给定的搜索空间有效地找到高性能的架构。我们提出了一种简单但强大的方法，我们称之为恐惧，在任何搜索空间中排名架构。恐惧利用神经网络是强大的非线性特征提取器的观点。首先，我们将搜索空间中的不同架构培训到相同的训练或验证错误。然后，我们比较每个架构提取的功能的有用性。我们这样做是为了快速训练，保持大部分建筑冻结。这提供了相对性能的快速估计。我们在三个不同数据集上验证了对Natsbench拓扑搜索空间的恐惧，反对竞争基线，并表现出强大的排名相关性，特别是与最近提出的零成本方法相比。在搜索空间中排名高性能架构的恐惧特别优势。当在离散搜索算法的内循环中使用时，如随机搜索，恐惧可以在没有失去精度的情况下将搜索时间减少大约2.4倍。我们另外经验研究非常提出了排名的零成本衡量标准，并发现它们在排名性能下崩溃作为培训所得款项以及忽略数据集的数据不可知的排名分数不会概括不同的数据集。

Generative Flows with Invertible Attentions
Authors Rhea Sanjay Sukthanker, Zhiwu Huang, Suryansh Kumar, Radu Timofte, Luc Van Gool
基于流动的生成模型显示出优异的能力，可以通过一系列可逆的变换明确地学习数据的概率密度函数。然而，在标准化流过上的长距离依赖性仍然被解读。为了填补差距，在本文中，我们介绍了一种用于生成流动模型的两种类型可逆的注意机制。要精确，我们提出了基于地图和缩放的点产品注意力，用于无条件和条件生成流量模型。关键的想法是利用基于拆分的注意机制，以了解每个两个流程特征映射的注意力和输入表示。我们的方法提供了具有贸易雅可碧展法的可逆性模块，可以在基于流动模型的任何位置无缝集成。所提出的注意机制可以模拟全局数据依赖性，导致更全面的流动模型。关于多代任务的评估表明，引入的注意力思想导致有效的流动模型，并对艺术的无条件和条件生成流动方法的状态有利地进行比较。

AutoPtosis
Authors Abdullah Aleem, Manoj Prabhakar Nallabothula, Pete Setabutr, Joelle A. Hallak, Darvin Yi
血管抑制剂，或皮质，因为它更常见的是眼睑的一种状况，其中上眼睑摩擦。目前对角症的诊断涉及麻烦的手动测量，这是耗时和容易出现人的错误。在本文中，我们提出了自身侦录，一种基于人工智能的系统，具有可解释的脑病诊断的可解释结果。我们利用在伊利诺伊州大学医院和健康大学收集的不同数据集，以成功开发一个强大的深度学习模型，用于预测，并开发一个临床启发模型，用于计算边缘反射距离和虹膜比率。 Autoptising在具有相同阶级余额的医生验证数据上实现了95.5精度。该算法可以帮助快速且及时诊断皮特，显着降低医疗保健系统的负担，并省患者和诊所有价值的资源。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com