【AI视野·今日CV 计算机视觉论文速览第190期】Fri, 9 Apr 2021_few-shot action recognition with captioning founda-CSDN博客

本文链接：https://blog.csdn.net/u014636245/article/details/115559988

AI视野·今日CS.CV 计算机视觉论文速览
Fri, 9 Apr 2021
Totally 81 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Computer Vision Papers

Learning optical flow from still images
Authors Filippo Aleotti, Matteo Poggi, Stefano Mattoccia
本文涉及培训光流量网络的数据稀缺，突出显示现有来源的限制，如标记的合成数据集或未标记的真实视频。具体而言，我们介绍了一个框架，可以快速地生成准确的地面真理光学流注释，并且大量从任何容易获得的单一真实图片中的速度很大。鉴于图像，我们使用架子单眼深度估计网络来构建观察到的场景的合理点云。然后，我们实际上将相机在重建的环境中用已知的运动矢量和旋转角度移动，允许我们在新帧中的一个新颖的视图和将每个像素中连接到一个新帧中的每个像素的相应光学流场。当通过我们的数据培训时，与在注释的合成数据集或未标记的视频上培训的相同型号相比，艺术光流量网络的状态实现了卓越的概括，以便与培训的相同的型号，以及如果与合成图像相结合，则更好地专业化。

Handwriting Transformers
Authors Ankan Kumar Bhunia, Salman Khan, Hisham Cholakkal, Rao Muhammad Anwer, Fahad Shahbaz Khan, Mubarak Shah
我们提出了一种基于新颖的变压器的称为手写文本图像生成方法，HWT，努力学习样式内容纠缠以及全局和本地写作风格模式。所提出的HWT通过自我注意机制捕获样式示例内的长而短的关系，从而编码全局和本地风格模式。此外，所提出的基于变压器的HWT包括编码器解码器注意，通过收集每个查询字符的样式表示来实现样式内容纠缠。据我们所知，我们是第一个推出用于样式手写文本生成的变压器的生成网络。我们提出的HWT产生了现实风格的手写文本图像，并显着优于通过广泛的定性，定量和人类的评估证明了现有技术。所提出的HWT可以在几次拍摄设置中处理任意文本和任何所需的写作风格。此外，我们的HWT概括了挑战性的情景，其中单词和写作风格在训练期间看不见，产生现实风格的手写文本图像。

InfinityGAN: Towards Infinite-Resolution Image Synthesis
Authors Chieh Hubert Lin, Hsin Ying Lee, Yen Chi Cheng, Sergey Tulyakov, Ming Hsuan Yang
我们呈现InfinityGan，一种生成任意分辨率图像的方法。问题与若干关键挑战有关。首先，在高分辨率训练数据的计算和可用性方面，将现有模型缩放到高分辨率的资源受限。 Infinity GaN列车和Infers Patch由贴片无缝与低计算资源。其次，大图像应在本地和全球一致，避免重复模式，看起来逼真。要解决这些，infinitygan考虑到全局外观，本地结构和纹理。在此配方中，我们可以在不可达到的情况下使用分辨率和细节级别生成图像。实验评估支持，与基线相比，InfinityGa在具有相同的相同推论的同时相比，与基线相比，卓越的全局结构。最后，我们如何通过我们的方法解锁的几个应用程序，例如在任意输入和输出分辨率下融合样式，多模态分辨率和图像中的多模态分子和图像

Panoptic Segmentation Forecasting
Authors Colin Graber, Grace Tsai, Michael Firman, Gabriel Brostow, Alexander Schwing
我们的目标是在最近的一系列意见中预测不久的将来。我们认为这种预测的能力，即预期，是对自治代理的成功的一体化，这不仅需要被动地分析观察，而且必须实时对其作出反应。重要的是，在所选场景分解时准确的预测铰链。我们认为通过将动态场景分解为单个事物和背景的东西，可以实现卓越的预测。由于相机运动，背景材料很大程度上移动，而前景的东西因相机和各个对象运动而移动。在这种分解之后，我们介绍了Panoptic分割预测。 Panoptic Semonation预测在现有极端之间开辟了一个中间地，预测例轨迹或预测未来图像帧的外观。要解决此任务，我们开发了一个两个组件模型，一个组件通过预期内径测量来学习背景的动态，另一个组件预计检测到的东西的动态。我们建立了这部小型任务的排行榜，并验证了优于可用基线的最佳艺术模型的状态。

Modulated Periodic Activations for Generalizable Local Functional Representations
Authors Ishit Mehta, Micha l Gharbi, Connelly Barnes, Eli Shechtman, Ravi Ramamoorthi, Manmohan Chandraker
多层Perceptrons MLP为涉及图像，形状和光场等低维信号的采样和重建问题做出强大的功能表示。最近的作品通过使用定期激活或位置编码，它们的能力显着提高了代表高频内容的能力。这通常是以泛化的牺牲，现代方法通常针对单个信号进行优化。我们提出了一种推广到多个实例的新代表，实现了艺术忠诚的状态。我们使用双重MLP架构来编码信号。合成网络从低维输入产生功能映射。像素位置到输出域的e .g。 RGB颜色。调制网络将对应于目标信号的潜像映射到调制合成网络的周期性激活的参数。我们还提出了一种实现泛化的本地功能表示。信号S域被划分为常规网格，每个图块由潜在代码表示。在测试时间时，通过推断或直接优化潜在代码书，通过高保真对信号进行编码。我们的方法产生了可概括的图像，视频和形状的功能表示，并且可以实现比对单个信号进行优化的先前作品的更高的重建质量。

Just Label What You Need: Fine-Grained Active Selection for Perception and Prediction through Partially Labeled Scenes
Authors Sean Segal, Nishanth Kumar, Sergio Casas, Wenyuan Zeng, Mengye Ren, Jingkang Wang, Raquel Urtasun
自动驾驶车辆必须感知并预测附近演员的未来位置，以避免安全碰撞和驱动。学习的深度学习模块通常负责此任务，需要大规模，高质量的培训数据集。由于数据收集通常比在该域中的标记更明显便宜，因此标签的示例子集的决定可以对模型性能产生深远的影响。积极学习技术，利用当前模型的状态来迭代选择标签的示例，为这个问题提供了一个有希望的解决方案。然而，尽管对这种方法有吸引力，但对感知和预测P P P问题的积极学习方法几乎没有科学分析。在这项工作中，我们研究了P P的主动学习技术，并发现传统的主动学习配方不适合P P设置。因此，我们引入了概括，以确保我们的方法既是成本意识，则通过部分标记的场景允许精细磨碎的例子选择。我们对现实世界的实验，大规模的自动驾驶数据集表明，细粒度的选择可以改善感知，预测和下游规划任务的性能。

De-rendering the World's Revolutionary Artefacts
Authors Shangzhe Wu, Ameesh Makadia, Jiajun Wu, Noah Snavely, Richard Tucker, Angjoo Kanazawa
最近的作品在没有明确的监督的情况下，在没有明确的监督的情况下，令人兴奋的令人兴奋的令人兴奋的图像De渲染学习。然而，许多这些假设简单的材料和照明模型。我们提出了一种方法，称为雷达，可以从真正的单个图像集合中恢复环境照明和表面材料，既不依赖于显式3D监督，也不是多视图或多光图像。具体而言，我们专注于旋转对称的人工制品，其表现出挑战性表面性质，包括镜面反射，例如花瓶。我们介绍了一种新颖的自我监督的Albedo鉴别员，它允许模型来恢复合理的Albedo，而无需在培训期间的任何基础真理。结合一种利用旋转对称的形状重建模块，我们展示了最终学习框架，能够揭示世界的革命人工制品。我们在真正的花瓶数据集上进行实验，并展示引人注目的分解结果，允许包括自由视点渲染和致密的应用。

SNARF: Differentiable Forward Skinning for Animating Non-Rigid Neural Implicit Shapes
Authors Xu Chen, Yufeng Zheng, Michael J. Black, Otmar Hilliges, Andreas Geiger
神经隐式表面表示已成为有希望以连续和分辨率独立的方式捕获3D形状的有希望的范例。然而，将它们适应铰接形状是非微不足道的。现有方法学习落后的扭曲领域，即地图变形到规范点。然而，这是有问题的，因为后向扭曲字段是姿势的姿势，因此需要大量数据来学习。为了解决这一点，我们介绍了Snarf，它通过学习未直接监督的前向变形领域与神经隐式表面的那些相结合了线性混合皮肤的优势。该变形场在规范，构成独立空间中定义，允许概括地看不见。自单独从构成网格中学习变形字段是具有挑战性，因为变形点的相应关系被隐含地定义，并且在拓扑的变化下可能不是唯一的。我们提出了一种前进的剥皮模型，使用迭代根发现，找到任何变形点的所有规范对应关系。我们通过隐式差分衍生分析梯度，从而实现与骨转换的3D网格的结束训练。与艺术神经隐含表示的状态相比，我们的方法在保持准确性的同时，更好地概括了未经造成的姿势。我们展示了我们在多样化和看不见姿势的披上3D人体上具有挑战性的情景的方法。

The Single-Noun Prior for Image Clustering
Authors Niv Cohen, Yedid Hoshen
近年来，自我监督的聚类方法已经取得了越来越高的准确性，但尚未履行和监督分类方法。这与特征学习的情况形成鲜明对比，自我监督的功能最近超过了在几个重要任务上的监督功能的性能。我们假设性能差距是由于在没有监督的情况下指定的难度，该特征对应于对人类的阶级差异。为了降低性能差距，我们介绍了单个名词，该名词在哪个名词中，该名词倾向于对应于单个名词的人类标签的概念。通过利用预训练的网络将图像和句子映射到公共空间中，我们将此提前获得受约束的优化任务。我们表明，我们的配方是设施位置问题的特殊情况，并引入了一种简单但有效的方法，可以在规模上解决此优化任务。我们在几个常见的图像聚类数据集中测试我们的方法，并获得最佳现有方法的显着准确性。

Conditional Meta-Network for Blind Super-Resolution with Multiple Degradations
Authors Guanghao Yin, Wei Wang, Zehuan Yuan, Shouqian Sun, Changhu Wang
虽然单幅图像超分辨率SISR方法在单次劣化方面取得了巨大成功，但它们仍然在实际情况下具有多重降级效果的性能下降。最近，已经探讨了一些盲人和非盲模型，用于多重降级。但是，这些方法通常在训练和测试数据之间的分配转移方面显着降低。为此，我们第一次提出了一个名为CMDSR的条件元网络框架，这有助于SR框架了解如何适应输入分布的变化。我们在任务级别提取劣化，其中包含所提出的ConditionNet，该条件将用于调整基本SR网络基本集的参数。具体而言，我们的框架的ConditionNet首先从支撑集之前了解了劣化，该支持集由来自同一任务的一系列劣化图像补丁组成。然后，Adaptive BaseNet根据条件特征迅速移动其参数。此外，为了更好地提高提取劣化，我们提出了一个任务对比损失，以减少内部任务距离，并增加任务级别功能之间的交叉任务距离。如果没有预定义的降级地图，我们的盲框可以进行一个参数更新以产生相当大的SR结果。广泛的实验证明了CMDSR在各种盲，甚至是非盲方法上的有效性。柔性基板结构还揭示了CMDSR可以是大型SISR模型的一般框架。

Field Convolutions for Surface CNNs
Authors Thomas W. Mitchel, Vladimir G. Kim, Michael Kazhdan
我们介绍了一种新的表面卷积运算符，用于基于简单观察的矢量字段，而不是组合相对于在给定点定义的单个坐标参数化的相邻特征，我们每个邻居描述其自己的坐标内的点的位置框架。该制剂在散射操作中与平行的运输结合了固有的空间卷积，同时在滤波器本身上没有约束，提供了与体内测定的作用通道的卷积的定义，具有增加的描述性潜力，并且对噪声和其他滋扰因素具有鲁棒性。结果是我们呼叫现场卷积的卷积的丰富概念，非常适合在表面上的CNNS。现场卷积灵活且直接向实施，其高度辨别性质在整个学习管道中具有级联效应。使用由残余字段卷积块构建的简单网络，我们在基本几何处理任务中实现了最新的标准基准，例如形状分类，分段，通信和稀疏匹配。

Enhancing Object Detection for Autonomous Driving by Optimizing Anchor Generation and Addressing Class Imbalance
Authors Manuel Carranza Garc a, Pedro Lara Ben tez, Jorge Garc a Guti rrez, Jos C. Riquelme
对象检测是过去几年电脑愿景中最活跃的主题之一。最近的作品主要集中在通用CoCo基准中推动现有技术。然而，在特定应用中使用这种检测框架，例如自主驱动是要解决的一个区域。本研究介绍了基于更快的R CNN的增强型2D对象检测器，其更适合自动车辆的背景。两个主要方面改善了锚生成过程和少数群体的性能下降。由于车辆摄像机的透视突起，默认均匀锚固配置在这种情况下不适合。因此，我们提出了一种通过聚类将图像划分为关键区域的透视意识方法，并使用进化算法来优化每个算法。此外，我们通过包括第一阶段中提出的候选区域的空间信息，添加模块，该模块通过包括第一阶段中提出的候选区域的空间信息来增强第二级报头网络的精度。我们还探讨了不同的RE加权策略来解决前景前景级的不平衡，表明使用减少的焦损版本可以在两个阶段检测器中显着改善困难和不足的物体的检测。最后，我们设计了一个集合模型，以结合不同学习策略的优势。我们的提案是用Waymo Open DataSet进行评估，这是最广泛和多样化的最新。结果表明，使用最佳单一型号时的6.13映射的平均精度改进，以及集合的9.69张图。在更快的R CNN上提出的修改不会增加计算成本，并且可以很容易地扩展以优化基于锚的检测框架。

SMD-Nets: Stereo Mixture Density Networks
Authors Fabio Tosi, Yiyi Liao, Carolin Schmitt, Andreas Geiger
尽管在过去的几年中，尽管立体声匹配准确性大大提高了深入学习，但恢复了尖锐的边界和高分辨率高效仍然具有挑战性。在本文中，我们提出了立体声混合密度网络SMD网，这是一种简单但有效的学习框架，兼容了一个广泛的2D和3D架构，可改善这两个问题。具体而言，我们利用双峰混合密度作为输出表示，并表明这允许在不连续性附近的夏普和精确的差异估计，同时明确地建模了观察中固有的炼膜不确定性。此外，我们将视差估计作为图像域中的持续问题制定，允许我们的模型以任意空间精度查询差异。我们对新的高分辨率和高度现实的合成立体声数据集进行了全面的实验，该数据集由8Mpx分辨率的立体声对，以及现实世界立体声数据集。我们的实验表明了对象边界附近的深度精度和标准GPU上的超高分辨率差异图的预测。我们通过提高各种立体声骨架的性能来展示我们技术的灵活性。

Modeling Object Dissimilarity for Deep Saliency Prediction
Authors Bahar Aydemir, Deblina Bhattacharjee, Seungryong Kim, Tong Zhang, Mathieu Salzmann, Sabine S sstrunk
在过去的二十年中，显着性预测使得电流技术建模低级信息，例如颜色，强度和尺寸对比度，以及用于整个物体的高级，例如关注和凝视方向。尽管如此，这些方法未能考虑对象之间的异常，人类自然而然。在本文中，我们介绍了一种检测引导显着性预测网络，明确地模拟了多个对象之间的差异，例如它们的外观和大小不同。我们的方法是普遍的，允许我们融合我们的对象异化，并通过任何深度显着性预测网络提取的特征来融合。正如我们的实验所证明的那样，这一致始终提高基线网络的准确性，使我们能够以三个显着基准，即Salicon，MIT300和Cat2000优于艺术模型的状态。

3D Surfel Map-Aided Visual Relocalization with Learned Descriptors
Authors Haoyang Ye, Huaiyang Huang, Marco Hutter, Timothy Sandy, Ming Liu
在本文中，我们介绍了一种使用来自3D Surfel映射的几何信息来迁移的方法。 Visual数据库首先由来自3D Surfel映射渲染的全局索引构建，它提供了图像点和3D冲浪之间的关联。使用REFEL再扩张约束用于优化视觉数据库中的关键帧姿势和映射点。然后，分层相机重锁化算法利用可视数据库来估计6个DOF相机姿势。学习描述符进一步用于提高具有挑战性的情况下的性能。我们在现实世界的条件和模拟下提出评估，以显示我们方法的有效性和效率，并使最终相机与3D环境一致良好对齐。

Towards End-to-End Neural Face Authentication in the Wild - Quantifying and Compensating for Directional Lighting Effects
Authors Viktor Varkarakis, Wang Yao, Peter Corcoran
最近的低功耗神经加速器硬件的可用性，结合端到端的神经面部识别算法的改进，为设备面部认证提供了技术。本研究工作探讨了定向照明对艺术状态的效果SOA神经面识别器。由于具有足够的定向照明变化的公共数据集，合成RE照明技术用于增强数据样本。顶部照明及其变体左上角，右上方被发现对精度具有最小效果，而左下方或右下方的右侧灯具具有最明显的效果。在网络权重的微调之后，示出了面部识别模型，以实现靠近所有照明条件的原始接收器操作特性曲线Roc性能，并展示了超出微调数据集中使用的照明增强的能力。该工作表明，可以调整SOA神经面识别模型以补偿定向照明效果，在应用面部识别之前去除对预处理步骤的需要。

CoCoNets: Continuous Contrastive 3D Scene Representations
Authors Shamit Lal, Mihir Prabhudesai, Ishita Mediratta, Adam W. Harley, Katerina Fragkiadaki
本文探讨了来自RGB和RGB D构成图像和视频的Amodal 3D特征表示的自我监督学习，不可知的对象和场景语义内容，并评估视觉对应，对象跟踪和对象检测的下游任务中产生的场景表示。该模型以3D特征点的形式揭示了场景的延立3D表示，其中每个连续的世界3D点被映射到其对应的特征向量。通过在查询的视点中呈现3D特征云并匹配从查询视图预测的3D特征点云呈现来培训该模型以进行对比视图预测。值得注意的是，即使从输入视图不可见，也可以针对任何3D位置查询表示。我们的模型汇集了最近令人兴奋的研究工作3D功能网格的三个强大思想，作为一个神经瓶颈，用于查看预测，隐性功能，用于处理3D网格的分辨率限制，以及对无监督培训的特征表示的对比学习。我们在对象和场景中有效地缩放所产生的3D视觉特征表示，从输入视点，跟踪对象随时间侦听或丢失的信息，在3D中对齐语义相关对象，并改善3D对象检测。我们优于许多现有的3D特征学习方法的现有状态，并且可以通过3D网格空间分辨率的限制来查看预测，不要试图构建Amodal 3D表示，或者不会由于它们的非卷积瓶颈而处理组合场景可变性。

InAugment: Improving Classifiers via Internal Augmentation
Authors Moab Arar, Ariel Shamir, Amit Bermano
图像增强技术应用转换功能，例如在输入图像上旋转，剪切或彩色失真。这些增强被证明是有助于改善神经网络泛化能力。在本文中，我们提出了一种新的增强操作，遗失，用于利用图像内部统计数据。关键的想法是从图像本身复制修补程序，对它们应用增强操作，并在同一图像上的随机位置粘贴回来。这种方法简单且易于实现，并且可以与现有的增强技术合并。我们在两个流行的数据集Cifar和Imagenet上识别。我们展示了完善的艺术增强技术的状态。与自动增强的遗传结合产生了对其他增强技术的显着改进，例如，在CIFAR数据集上培训的多个架构上改进了1。与先前的增强方法相比，我们还展示了VileNet DataSet上的Reset50和WequenceNet B3前面1的准确性。最后，我们的实验表明，使用识别的培训卷积神经网络不仅可以提高模型的准确性和信心，而是出于分发图像的性能。

ORBIT: A Real-World Few-Shot Dataset for Teachable Object Recognition
Authors Daniela Massiceti, Luisa Zintgraf, John Bronskill, Lida Theodorou, Matthew Tobias Harris, Edward Cutrell, Cecily Morrison, Katja Hofmann, Simone Stumpf
对象识别在过去十年中取得了很大的进步，但主要依赖于每个对象类别的许多高质量训练示例。相比之下，从少数示例中学习新对象可以使从机器人学到用户个性化的许多有影响力的应用程序。然而，大多数镜头学习研究由基准数据集推动，缺乏这些应用在现实世界中部署时面临的高变化。为了缩短这种差距，我们介绍了轨道数据集和基准，以盲目低愿景的人的真实世界的应用程序为基础。 DataSet包含3,822个视频，由他们的手机盲目低愿景记录的486个视频，并且基准反映了一个现实，高度挑战的识别问题，提供了丰富的操场，以便在鲁棒性上驾驶鲁莽，高变化条件。我们在基准测试中设置了第一件技术，表明存在进一步创新的大规模范围，持有潜力影响广泛的现实世界视觉应用，包括盲目低视野界的工具。可以访问数据集和基准代码

Does Your Dermatology Classifier Know What It Doesn't Know? Detecting the Long-Tail of Unseen Conditions
Authors Abhijit Guha Roy, Jie Ren, Shekoofeh Azizi, Aaron Loh, Vivek Natarajan, Basil Mustafa, Nick Pawlowski, Jan Freyberg, Yuan Liu, Zach Beaver, Nam Vo, Peggy Bui, Samantha Winter, Patricia MacWilliams, Greg S. Corrado, Umesh Telang, Yun Liu, Taylan Cemgil, Alan Karthikesalingam, Balaji Lakshminarayanan, Jim Winkens
我们开发和严格评估基于深度的学习系统，可以准确地对皮肤状况进行分类，同时检测到罕见的条件，其中没有足够的数据可用于培训一个自信的分类器。我们将此任务框架作为ood检测问题。我们的小说方法，分层异常检测HOD为每个训练异常值类分配多个禁止类，并共同执行inliers与异常值的粗略分类，以及各个类的细粒度分类。我们展示了HOD损失与现代代表学习的有效性，SIMCLR，MICLE和探索不同的合并策略，以进一步提高结果。我们对不同风险水平和不同皮肤类型的条件进行了广泛的亚组分析，以研究OOD检测性能如何在每个子组上变化，并与基线相比，展示框架的收益。最后，我们介绍了近似下游临床影响的成本指标。我们使用该成本指标将提出的方法与基线系统进行比较，从而为实际世界部署方案中的整体系统效率进行更强的情况。

Robust Differentiable SVD
Authors Wei Wang, Zheng Dang, Yinlin Hu, Pascal Fua, Mathieu Salzmann
对称矩阵的实际分解是许多计算机视觉算法的核心。然而，特征向量的衍生物倾向于在数值上不稳定，无论使用SVD是否要分析地计算它们，或者使用功率迭代PI方法以近似它们。这种不稳定性在彼此接近的特征值存在下出现。这使得EIGENDECOPHICATION难以困难，并且通常会导致收敛不良，特别是在处理大矩阵时。

A Bayesian Approach to Reinforcement Learning of Vision-Based Vehicular Control
Authors Zahra Gharaee, Karl Holmquist, Linbo He, Michael Felsberg
在本文中，我们提出了一种用于自主驾驶的艺术加固学习方法的状态。我们的方法采用贝叶斯框架中的时间差异学习，以学习来自传感器数据的车辆控制信号。代理可以从前向相机访问图像，这是预处理的以生成语义分段图。我们使用地面真理和估计的语义分割输入培训了我们的系统。基于我们从大量实验的观察结果，我们得出结论，在地面真理输入数据上培训系统的表现，也可以更好的性能，而且即使估计的输入用于评估，即使估计的输入也用于评估。使用Carla Simulator培训并在现实模拟城市环境中进行培训和评估。模拟器还包含一个基准测试，允许与其他系统和方法进行比较。系统所需的培训时间被证明是较低的，并且在基准上优于竞争方法。

Progressive Semantic Segmentation
Authors Chuong Huynh, Anh Tran, Khoa Luu, Minh Hoai
这项工作的目的是在不重载GPU内存使用情况或丢失输出分割图中的精细细节的情况下进行高分辨率图像。内存约束意味着我们必须将大图像缩小或将图像划分为本地修补程序以进行单独处理。然而，前一种方法会失去细节，而后者由于缺乏全球图片而含糊不清。在这项工作中，我们呈现磁铁，通过在多个放大级别查看图像来解决局部歧义的多尺度框架。磁体具有多个处理阶段，其中每个阶段对应于放大电平，并且一个级的输出被馈送到下一个阶段，以便粗略信息传播。每个阶段以更高的分辨率分析图像比前一级更高的分辨率，由于有损的下采样步骤恢复先前丢失的细节，并且通过处理阶段逐渐改进分割输出。城市视图，空域场景和医学图像的三个高分辨率数据集的实验表明，磁铁始终如一地优于现有方法的高度边缘。

Affine-modeled video extraction from a single motion blurred image
Authors Daoyu Li, Liheng Bian, Jun Zhang
运动模糊图像是曝光时间上多个锐框的时间平均值。从单个模糊的图像中恢复这些锐度视频帧是不动性的，因为它不仅是其强烈的不良姿势，而且还具有各种类型的复杂运动，如旋转和深度的旋转和运动。在这项工作中，我们使用仿射运动建模报告了一般化的视频提取方法，使能够解决多种类型的复杂运动及其混合。在其工作流程中，首先将移动对象段在alpha通道中段。这允许用不同的运动单独恢复不同的对象。然后，我们通过将每个视频剪辑建模为参考帧的一系列仿射变换来减少可变空间，并引入L0规范总变化正则化以衰减振铃伪像。采用可微分的仿射器运营商来实现仿射模型的梯度下降优化，其遵循新的粗策略以进一步减少伪影。结果，检索仿射参数和锐利参考图像。它们最终输入到逐步仿射转换以恢复锐度视频帧。逐步检索维护本性来绕过帧订单歧义。对公共数据集和真实捕获数据的实验验证了报告技术的最新性能的状态。

Geometry-based Distance Decomposition for Monocular 3D Object Detection
Authors Xuepeng Shi, Qi Ye, Xiaozhi Chen, Chuangrong Chen, Zhixiang Chen, Tae Kyun Kim
单眼3D对象检测对于自主驾驶具有重要意义，但仍然挑战。核心挑战是在没有明确的深度信息的情况下预测对象的距离。与大多数现有方法中的单个变量的回归距离不同，我们提出了一种基于几何的距离分解，以通过其因素恢复距离。分解因子物体进入最代表性和稳定变量的距离，即图像平面中的物理高度和投影视觉高度。此外，分解在两个高度之间的两个高度之间保持自我一致性，当两个预测的高度不准确时，导致鲁棒距离预测。分解还使我们能够追踪不同场景的距离不确定性的原因。这种分解使得距离预测可解释，准确和稳健。我们的方法直接从RGB图像预测3D边界框，具有紧凑的架构，使培训和推理简单而有效。实验结果表明，我们的方法实现了在Kitti数据集上单眼3D对象检测和鸟瞰的鸟类眼睛视图任务的现有性能的状态，并且可以通过不同的相机内在的图像概括。

Robust Self-Ensembling Network for Hyperspectral Image Classification
Authors Yonghao Xu, Bo Du, Liangpei Zhang
最近的研究表明了高光谱图像HSI分类任务中深度学习算法的巨大潜力。尽管如此，这些模型通常需要大量标记数据。由于HSI的像素级别注释的集合是费力且耗时的，所开发的算法可以在小样本尺寸情况下产生良好的性能，具有重要意义。在这项研究中，我们提出了一种强大的自组合网络RSEN来解决这个问题。所提出的RSEN由两个子网组成，包括基本网络和集合网络。由于来自标记数据的监督损失和从未标记的数据，基础网络和集合网络的监督损失的限制可以彼此学习，实现自组合机制。据我们所知，所提出的方法是第一次尝试将自组合技术引入HSI分类任务，这为如何利用HSI中的未标记数据提供了不同的视图来帮助网络培训。我们进一步提出了一种新的一致性滤波，以增加自我合奏学习的鲁棒性。在三个基准HSI数据集上进行了广泛的实验表明，与现有技术的状态相比，该算法可以产生竞争性能。

Video Question Answering with Phrases via Semantic Roles
Authors Arka Sadhu, Kan Chen, Ram Nevatia
视频问题应答VIDQA评估指标仅限于单个单词答案或从固定的短语组中选择短语。这些指标限制了VIDQA模型应用方案。在这项工作中，我们利用来自视频描述的语义角色来掩盖某些短语，引入vidqap，它将Vidqa填充为填写短语任务。为了实现答案短语的评估，与空字符串相比，我们计算预测答案的相对改进。为了减少语言偏差在VIDQA数据集中的影响，我们检索对相同问题的不同答案的视频。为了促进研究，我们构建ActivityNet SRL QA和Charades SRL QA并通过扩展三个视觉语言模型来基准。我们进一步进行了广泛的分析和消融研究，以引导未来的工作。

Few-Shot Action Recognition with Compromised Metric via Optimal Transport
Authors Su Lu, Han Jia Ye, De Chuan Zhan
虽然对计算机视觉系统至关重要，但尽管对几次拍摄图像分类进行了广泛的研究，但很少有射击动作识别仍然没有成熟。流行的少量学习算法从已在所看到的类中提取一个可转换的嵌入，并通过构造基于度量的分类器来将其重用在未经调整的类上。在动作识别中应用这些算法的一个主要障碍是视频的复杂结构。一些现有的解决方案来自视频的帧并聚合其嵌入物以形成视频级表示，忽略重要的时间关系。其他人在两个视频之间进行显式序列匹配，并将其距离定义为匹配成本，对顺序排序施加过于强烈的限制。在本文中，我们通过最佳传输CMOT提出了损害度量，以结合这两个解决方案的优点。 CMOT同时考虑在最佳运输框架下的视频中的语义和时间信息，并且是含有敏感和排序敏感任务的识别。详细说明，考虑到两个视频，我们对其进行示例段并将其距离计算它们的距离作为两个段序列之间的最佳运输问题。为了保留固有的时间顺序信息，我们还通过在一对段之间的位置距离惩罚它来修改地面成本矩阵。基准数据集的实证结果证明了CMOT的优越性。

HindSight: A Graph-Based Vision Model Architecture For Representing Part-Whole Hierarchies
Authors Muhammad AbdurRafae
本文介绍了一种模型架构，用于在图形的形式中编码图像中的零件整个层次结构的表示。这个想法是将图像划分为不同级别的补丁，然后将所有这些补丁视为完全连接的图形的节点。动态特征提取模块用于从每个图迭代中从这些补丁中提取特征表示。这使我们能够学习包含固有部分整个分层信息的图像的丰富图表表示。利用适当的自我监督训练技术，这种模型可以被训练为通用视觉编码器模型，然后可以用于各种视觉相关的下游任务，例如，图像分类，对象检测，图像标题等。

Learning specialized activation functions with the Piecewise Linear Unit
Authors Yucong Zhou, Zezhou Zhu, Zhao Zhong
激活功能的选择对于现代神经网络至关重要。流行的手动设计激活功能，如整流线性单元Relu及其变体显示出各种任务和型号的有希望的性能。在许多具有挑战性的数据集中，已经提出了威力，自动发现的激活函数，并优于许多具有挑战性的数据集。但是，它有两个主要缺点。首先，基于树的搜索空间是高度离散和限制的，这很难搜索。其次，基于样本的搜索方法效率低下，可以为每个数据集或神经结构找到专门的激活功能。为了解决这些缺点，我们提出了一种称为分段线性单位PWLU的新激活功能，其中包含精心设计的配方和学习方法。它可以学习专门的激活功能，并在大规模数据集上实现SOTA性能，如想象成和COCO。例如，在ImageNet分类数据集上，PWLU改善0.9 0.53 1.0 1.7 1.0 FORENET 18 RESET 50 MobileNet V3 CompuentNet B0 MobileNet V3 Effects NetWentNet B0。 PWLU在推理中也易于实现和高效，可在现实世界应用中广泛应用。

3D Shape Generation and Completion through Point-Voxel Diffusion
Authors Linqi Zhou, Yilun Du, Jiajun Wu
我们提出了一种新颖的3D形状的概率生成建模方法。与学习潜伏的大多数现有模型不同，我们的模型，点体素扩散PVD是一种统一的概率制剂，用于无条件形状生成和条件，多模态形状完成。 PVD与杂交，点体素表示3D形状的扩散模型结合。它可以被视为一系列去噪步骤，将来自观察点云数据的扩散过程反转到高斯噪声，并且通过优化对条件似然函数的变化下限而训练。实验表明PVD能够合成高保真形状，完成部分点云，并从真实物体的单视图深度扫描产生多个完成结果。

DSC-PoseNet: Learning 6DoF Object Pose Estimation via Dual-scale Consistency
Authors Zongxin Yang, Xin Yu, Yi Yang
与2D对象边界框标记相比，人类非常困难地注释3D对象姿势，尤其是当场景的深度图像不可用时。本文研究了我们是否只有在给出RGB图像和2D对象注释时估计对象的估计。为此，我们呈现了两个步骤姿态估计框架，可以从2D对象边界框获得6dof对象姿势。在第一步中，该框架将以弱监督方式从真实和合成数据进行分段对象，并且分割掩模将作为姿势估计的之前充当。在第二步中，我们设计了一种双尺度姿势估计网络，即DSC Posset，通过采用差分渲染器来预测对象姿势。具体而言，我们的DSC Posset首先通过比较分割掩码和呈现的可见对象掩模来预测原始图像刻度中的对象姿势。然后，我们将对象区域调整为固定标度以再次估计姿势。以这种方式，我们消除了大规模的变化并专注于旋转估计，从而促进姿势估计。此外，我们利用初始姿势估计来产生伪基地，以自我监督的方式培训我们的DSC Poshet。估计导致这两个尺度被整合为我们的最终姿势估计。关于广泛使用的基准的广泛实验表明，我们的方法优于由良好的余量训练的艺术模型的态度，甚至是与几种完全监督的方法相符。

How Transferable are Reasoning Patterns in VQA?
Authors Corentin Kervadec, Theo Jaunet, Grigory Antipov, Moez Baccouche, Romain Vuillemot, Christian Wolf
自成立以来，视觉问题应答VQA被众所周知的是一个任务，其中模型容易利用数据集中的偏见，以查找快捷方式而不是执行高级推理。古典方法通过从训练数据中删除偏差或将分支添加到模型来检测和移除偏差的典型方法来解决这一点。在本文中，我们认为愿景的不确定性是一项占主导地位因素，防止了愿景和语言问题的成功学习。我们训练视觉甲骨文并在大规模的研究中提供实验证据，以至于与标准型号相比，利用虚假数据集偏置的实验证据不那么容易发生。我们建议研究视觉甲骨文中工作的注意机制，并将它们与基于SOTA变压器的模型进行比较。我们提供了通过我们公开可用的在线可视化工具获得的推理模式的深度分析和可视化。

Semantic Scene Completion via Integrating Instances and Scene in-the-Loop
Authors Yingjie Cai, Xuesong Chen, Chao Zhang, Kwan Yee Lin, Xiaogang Wang, Hongsheng Li
语义场景完成旨在从单个视图深度或RGBD图像重建具有精确的体素明智语义的完整3D场景。这是室内场景理解是一个至关重要的，但挑战的问题。在这项工作中，我们展示了一个名为Scene实例场景网络Texit SisNet的小说框架，它具有实例和场景级别语义信息的优势。我们的方法能够推断出细粒度的形状细节以及附近的对象，其语义类别很容易混淆。关键识别是，我们从粗略完成的语义场景中解耦了该实例而不是原始输入图像，以指导实例的重建和整体场景。 SISNet对实例SI进行迭代场景，实例为场景是语义完成。具体地，SI能够编码围绕上下文的对象，以便有效地解耦来自场景的实例，并且每个实例可以被吸引到更高的分辨率以捕获更精细的细节。使用，可以将细粒度的实例信息集成回3D场景，从而导致更准确的语义场景完成。利用这种迭代机制，场景和实例完成互相利益，以实现更高的完成精度。广泛的实验表明，我们所提出的方法始终如一地优于真实的NYU，Nyucad和Synthetic SONCG RGBD数据集的现有技术。代码和补充材料将在URL上提供

Open Domain Generalization with Domain-Augmented Meta-Learning
Authors Yang Shu, Zhangjie Cao, Chenyu Wang, Jianmin Wang, Mingsheng Long
利用可用于学习具有高概念域的模型的数据集对计算机愿景非常重要，特别是当未经看台域的注释数据不可用时。我们研究了开放域泛化Opendg的新颖和实际问题，它从不同的源域中学习，从而在未知的目标域上实现高性能，其中每个单独的源域和目标域的分布和标签集可以不同。问题通常可以应用于不同的源极域，并广泛适用于现实世界应用。我们提出了一个域名增强元学习框架来学习开放式域概括的表示。我们通过蒸馏软标签通过新的Dirichlet Mixup和标签级增强了两个特征级别的域，这将每个域名与缺失的类和其他域知识相提并论。我们通过设计新的Meta学习任务和损失来保护域名以保持域独特知识并同时概括域中的知识来进行域名的元。各种多域数据集上的实验结果表明，所提出的域增强元学习达尔优于未见域识别的现有方法。

SiT: Self-supervised vIsion Transformer
Authors Sara Atito, Muhammad Awais, Josef Kittler
由于他们最近的差距减少了监督学习，自我监督的学习方法正在增加计算机愿景的牵引力。在自然语言处理中，NLP自我监督的学习和变形金刚已经是选择的方法。最近的文献表明，在计算机视觉中，变压器也变得越来越受欢迎。到目前为止，当使用大规模监督数据或某种共同监督使用时，视觉变压器已被证明可以很好地工作。在教师网络方面。这些监督的预训练视觉变压器在下游任务中实现了非常好的结果，最小变化。在这项工作中，我们调查自我监督学习的预用图像视觉变压器的优点，然后使用它们进行下游分类任务。我们提出了自我监督的视觉变压器坐下来讨论几种自我监督的培训机制，以获得借口模型。 SIT的架构灵活性允许我们使用它作为AutoEncoder，并无缝地使用多个自我监督任务。我们表明，在小规模数据集上，可以在小型数据集上进行佩戴留言，包括几千个图像而不是数百万的下游分类任务。使用常规协议在标准数据集上评估所提出的方法。结果展示了变压器的强度及其对自我监督学习的适用性。我们通过大幅度表现出现有的自我监督学习方法。我们还观察到坐着很少拍摄学习，并且还表明它正在学习有用的表示，只需在坐垫的学习功能的顶部训练线性分类器就会学习有用的表示。预先预订，Fineetuning和评估代码将在下面提供

PQA: Perceptual Question Answering
Authors Yonggang Qi, Kai Zhang, Aneeshan Sain, Yi Zhe Song
感知组织仍然是人类视觉系统上少数建立的理论之一。它在分割和检测中造成了许多预先精华的开创性作品，但研究已经迅速下滑，因为比较深入学习深层模型。在有限的尝试中，最多旨在使用感知组织规则来解释复杂的视觉场景。然而，这已被证明是次优，因为模特无法有效地捕捉现实世界图像中的视觉复杂性。在本文中，我们通过倡导两个位置改变，恢复了对感知组织的研究，我审查了有目的地生成的合成数据，而不是复杂的真实图像，而ii要求机器综合新颖的感知有效模式，而不是解释现有数据。我们的整体答案伴随着引进了一个新的视觉挑战，挑战了感知问题的挑战。在观察示例感知问题答案对时，PQA的目标是通过完全从划痕来解决类似问题，参见图1。因此，我们的第一个贡献是感知问题答案对的第一个数据集，每个数据集是专门为特定的GESTALT原则产生。然后，我们借用人类心理学的见解来设计一个引发感知组织作为自我关注问题的代理商，其中一个提出的网格映射网络直接从头开始产生答案模式。实验表明我们的代理商以优于一系列天真和强大的基线。然而，人类的研究表明，与平均人类相比，我们的使用天文学更具数据学习，需要在或没有我们的数据集的未来研究。

PDO-e$\text{S}^\text{2}$CNNs: Partial Differential Operator Based Equivariant Spherical CNNs
Authors Zhengyang Shen, Tiancheng Shen, Zhouchen Lin, Jinwen Ma
球形信号存在于许多应用中，例如行星数据，LIDAR扫描和3D对象的数字化，呼吁有效地处理球面数据的模型。当简单地将球面数据投射到2D平面然后使用平面卷积神经网络CNNS时，它不会表现良好，因为从投影和无效的平移等法中的失真。实际上，设计球形CNN的良好原理是避免扭曲，并将平面CNN中的移位设备性能转化为球形域中的旋转设备。在这项工作中，我们使用部分差分运营商PDO设计了一个球形的等级CNN，PDO E文本S Text 2 CNN，它在连续域中精确旋转等值。然后，我们将PDO E文本的文本2 CNN分开，并分析了来自离散化导致的成本错误。这是在球面域中理论上分析了增强误差第一次。在实验中，PDO E文本S Text 2 CNNS在几个任务上显着显示了更大的参数效率，并且显着优于其他球形CNN。

ASFlow: Unsupervised Optical Flow Learning with Adaptive Pyramid Sampling
Authors Kunming Luo, Ao Luo, Chuan Wang, Haoqiang Fan, Shuaicheng Liu
我们通过在深金字塔网络中提出自适应金字塔采样来提出无监督的光学流量估计方法。具体地，在金字塔下采样中，我们提出了一种内容意识的汇集帽模块，其通过避免跨区域汇集来促使局部特征收集，从而获得更多代表性。在金字塔上采样中，我们提出了一种自适应流量上采样，可以避免跨越插值，产生尖锐的运动边界。配备这两个模块，我们的方法可以实现多个领先基准的无监督光流量估计的最佳性能，包括MPI Sintel，Kitti 2012和Kitti 2015. Particuarlly，我们在Kitti 2012和F1 9.67基蒂2015年实现了EPE 1.5，这胜过了以前的技术方法分别为16.7和13.1。

1st Place Solution to ICDAR 2021 RRC-ICTEXT End-to-end Text Spotting and Aesthetic Assessment on Integrated Circuit
Authors Qiyao Wang, Pengfei Li, Li Zhu, Yi Niu
本文介绍了ICDAR 2021强大读取挑战集成电路文本斑点和美学评估ICDAR RRC ICTEXT 2021。对于文本发现任务，我们检测到集成电路上的字符，并根据YOLOV5检测模型对它们进行分类。我们使用SynthText，生成的数据和数据采样器平衡小写和非小写。我们采用半监督算法和蒸馏，以方便提高模型S精度。对于审美评估任务，我们添加了3个类的分类分支来区分每个角色的审美类。最后，我们使模型部署加速推动速度并根据NVIDIA Tensorrt降低内存消耗。我们的方法在任务3.1上实现了59.1映射，31个FPS和306M内存等级1,78.7 F2分数在任务3.2上，具有30个FP和306M内存等级1。

Multiple Object Tracking with Correlation Learning
Authors Qiang Wang, Yun Zheng, Pan Pan, Yinghui Xu
最近的作品表明，通过同时学习检测和外观特征，卷积网络大大提高了多个物体跟踪的性能。然而，由于对卷积网络结构本身的本地感知，不能有效地获得空间和时间的长距离依赖性。为了合并空间布局，我们建议利用本地相关模块来模拟目标与周围环境之间的拓扑关系，可以提高我们在拥挤的场景中模型的辨别力。具体地，我们建立每个空间位置及其背景的密集对应关系，并通过自我监督学习明确地限制相关卷。为了利用时间上下文，现有方法通常利用两个或更多个相邻帧来构建增强的特征表示，但是动态运动场景本质上难以通过CNN描述。相反，我们的论文提出了一种学习相关运算符，以建立帧与不同层中的卷积特征映射的帧匹配以对齐和传播时间上下文。在MOT数据集上具有广泛的实验结果，我们的方法展示了相关性学习的有效性与卓越的性能，并获得76.5和IDF1的艺术MOTA的状态在MOT17上。

An Empirical Study of the Effects of Sample-Mixing Methods for Efficient Training of Generative Adversarial Networks
Authors Makoto Takamoto, Yusuke Morishita
众所周知，生成的对抗性网络GAN的培训需要巨大的迭代，在发电机S提供良好的质量样本之前。虽然有几项研究来解决这个问题，但仍然没有通用解决方案。在本文中，我们研究了样品混合方法的影响，即混合，切割和新提出的平滑区域混合SRMIX，以缓解这一问题。已知样品混合方法提高广泛的分类问题中的精度和稳健性，并且自然可以适用于GAN，因为鉴别者的作用可以被解释为真实和假样本之间的分类。我们还提出了一种新的形式主义，将样品混合方法应用于与饱和损失的饱和损失，这些损耗没有明确标签的真实和假的。我们使用LSUN和Celeba数据集进行了大量的数值实验。结果表明，在大多数情况下，混合和SRMIX在FID方面提高了所生成的图像的质量，特别是SRMIX在大多数情况下显示出最佳改进。我们的分析表明，混合样品可以提供来自香草假样品的不同性质，混合模式强烈影响鉴别者的决定。生成的混合图像具有良好的高级特征，但低级功能并不是那么令人印象深刻。另一方面，Cutmix表现出相反的趋势。我们的SRMIX显示了中间趋势，即表现出良好的高水平特征。我们认为，我们的发现提供了一种新的视角，可以加速GANS收敛，提高所产生的样品的质量。

Pseudo-supervised Deep Subspace Clustering
Authors Juncheng Lv, Zhao Kang, Xiao Lu, Zenglin Xu
基于自动编码器AE的深度子空间聚类DSC方法由于使用深神经网络而在优先化分类可分性时提取的强大表示，因此实现了令人印象深刻的性能。然而，AE的自我重建损失忽略了丰富的有用关系信息，并且可能导致难民刺激性表示，这不可避免地降低了聚类性能。在不喂食语义标签的情况下学习高水平相似性也是挑战性。由于N次相似矩阵，另一个未解决的问题是DSC的巨大的内存成本，这是由编码器和解码器之间的自我表达层产生的。为了解决这些问题，我们使用成对相似度来称量重建损失以捕获本地结构信息，而自我表达层学习相似性。伪图和伪标签，允许在网络培训期间获得的不确定知识受益，进一步用于监督相似性学习。联合学习和迭代培训有助于获得整体最佳解决方案。基准数据集的广泛实验证明了我们方法的优势。通过与K最近的邻居算法组合，我们进一步表明我们的方法可以解决大规模和超出样本问题。

Deep Monocular 3D Human Pose Estimation via Cascaded Dimension-Lifting
Authors Changgong Zhang, Fangneng Zhan, Yuan Chang
由于深度歧义，从单个图像的3D姿态估计是一个具有挑战性的问题。先前方法的一种类型的方法升高了2D关节，通过借助于外部2D姿势检测器来获得3D空间。然而，这种类型的方法丢弃了对3D姿态估计的强烈提示的图像的上下文信息。同时，一些其他方法将关节直接从单眼图像预测，但采用2.5d输出表示p 2.5d u，v，z r，其中u和v都处于图像空间但z r中的z r中。因此，地面真理信息例如，来自相机的根部接头的深度通常用于将2.5D输出转换为3D空间，这限制了实践中的适用性。在这项工作中，我们提出了一种新的结束框架，不仅利用了上下文信息，而且还通过级联维度提升来直接产生输出。具体而言，我们将从2D图像空间提升到3D空间的任务分解为若干顺序子任务，1个运动骨架单个关节估计在2D空间中，2个根相对深度估计，以及3升至3D空间，每个采用直接监督和上下文图像特征来指导学习过程。广泛的实验表明，拟议的框架在两个广泛使用的3D人类姿势数据集人3.6M，MUPOTS 3D上实现了最先进的性能。

TokenPose: Learning Keypoint Tokens for Human Pose Estimation
Authors Yanjie Li, Shoukui Zhang, Zhicheng Wang, Sen Yang, Wankou Yang, Shu Tao Xia, Erjin Zhou
人类的姿势估计深深依赖于零件之间的视觉线索和解剖结构来定位关键点。然而，大多数现有的基于CNN的方法在视觉表现中缺乏明确学习关键点之间的约束关系的能力。在本文中，我们提出了一种基于人类姿态估计标记的令牌代表的新方法。详细地，每个关键点被明确地嵌入为令牌，以同时学习图像的约束关系和外观提示。广泛的实验表明，小型和大的Tokenpose模型与基于技术的CNN的状态相同，同时更轻。具体而言，我们的Tokenosphers S和Tokenpose L分别在Coco验证数据集上达到72.5 AP和75.8 AP，具有显着减少参数TextColor Red DownarRow80.6 TextColor Red Downarrow 56.8和Gflops TextColor Red Downarrow 75.3 TextColor Red Downarrow 24.7。

Reconstructing Recognizable 3D Face Shapes based on 3D Morphable Models
Authors Diqiong Jiang, Yiwei Jin, Risheng Deng, Ruofeng Tong, Fanglue Zhang, Yukun Yai, Ming Tang
许多最近的作品通过聚集了相同身份的形状参数并将基于参数模型分离的不同人的形状参数来重建独特的3D面形状。，3D可变模型3DMMS。然而，尽管使用这些形状参数的面部识别任务中的高精度，但是从这些参数重建的面部形状的视觉辨别是不令人满意的。在以前的作用中尚未回答以下研究问题，确保鉴别的形状参数保证所代表的3D面形状的视觉识别本文分析了形状参数和重建形状几何形状之间的关系，提出了一种新颖的形状意识的正则化针对形状参数的损失，瞄准在形状参数和形状几何结构域中的增加逐渐增加。此外，要应对包含地标和身份注释的培训数据，我们提出了一种网络结构和相关的培训策略，以利用包含身份或地标标签的混合数据。我们在形状参数的重建误差，视觉区分性和面部识别准确性方面比较我们的方法。实验结果表明，我们的方法优于现有技术的状态。

Siam-ReID: Confuser Aware Siamese Tracker with Re-identification Feature
Authors Abu Md Niamul Taufique, Andreas Savakis, Michael Braun, Daniel Kubacki, Ethan Dell, Lei Qian, Sean M. O Rourke
由于其实时速度和最先进的性能，暹罗深度网络跟踪器近年来受到了重大关注。然而，暹罗跟踪器遭受类似的看起来的混淆，它在空中图像中普遍存在，并且由于长时间闭塞而产生具有挑战性的条件，其中追踪器对象RE在不同的姿势和照明下出现。我们的工作提出了暹罗跟踪器的新型重新识别框架的Siamreid，它在长期闭塞期间融入了混淆，并且非常适合空中跟踪。使用三重态丢失和级别平衡损耗进行RE识别功能。我们的方法在UAVDT单一对象跟踪基准测试中实现了最先进的性能。

Py-Feat: Python Facial Expression Analysis Toolbox
Authors Jin Hyun Cheong, Tiankang Xie, Sophie Byrne, Luke J. Chang
学习面部表情是一个令人惊奇的艰难的努力。情感计算领域的最新进展在自动检测图片和视频的面部表情方面产生了令人印象深刻的进展。但是，这项工作的大部分工作尚未在心理学等社会科学域中被广泛传播。现有国家的艺术模式需要相当大的域专业知识，传统上并不传统地纳入社会科学培训计划。此外，有一个值得注意的用户友好和开源软件，提供了一套全面的工具和支持面部表情研究的功能。在本文中，我们介绍了一个开源Python工具箱的Py Feat，提供了用于检测，预处理，分析和可视化面部表情数据的支持。 PY Featy可以轻松实现域专家来传播和基准计算机视觉模型，并为最终用户提供快速处理，分析和可视化面部表达数据。我们希望这个平台将促进在人类行为研究中增加面部表情数据的使用。

Progressive Temporal Feature Alignment Network for Video Inpainting
Authors Xueyan Zou, Linjie Yang, Ding Liu, Yong Jae Lee
视频污染旨在填补具有合理内容的时空损坏区域。为实现这一目标，有必要找到与邻近框架的对应关系，以忠实地幻想未知的内容。目前的方法通过注意，流动的翘曲或3D时间卷积来实现这一目标。然而，当光流量不准确时，基于流动的翘曲可以产生伪影，而时间卷积可能会遭受空间未对准。我们提出了逐步的时间特征对准网络，其逐渐加强从当前帧中提取的特征，其中使用光流从相邻帧翘曲。我们的方法纠正了时间特征传播阶段的空间未对准，大大提高了染色视频的视觉质量和时间一致性。使用拟议的架构，与现有的深度学习方法相比，我们在戴维斯和FVI数据集上实现了最先进的性能。代码可用

DeepI2P: Image-to-Point Cloud Registration via Deep Classification
Authors Jiaxin Li, Gim Hee Lee
本文介绍了Deepi2P一种用于图像和点云之间的跨模型登记的新方法。给定图像是来自RGB相机和一般点云。从在同一场景中的不同位置捕获的3D LIDAR扫描仪中，我们的方法估计相机和激光器的坐标框架之间的相对刚性变换。学习常见的特征描述符以建立注册的对应关系本质上是由于两种方式缺少外观和几何相关性而挑战。我们通过将注册问题转换为分类和逆摄像机投影优化问题来规避难度。分类神经网络旨在标记点云中的每个点的投影是否在相机截端之外或之外。随后将这些标记点传递到新颖的逆相机投影求解器中以估计相对姿势。牛津机器人和基蒂数据集的广泛实验结果证明了我们方法的可行性。我们的源代码可用

Prototypical Region Proposal Networks for Few-Shot Localization and Classification
Authors Elliott Skomski, Aaron Tuor, Andrew Avila, Lauren Phillips, Zachary New, Henry Kvinge, Courtney D. Corley, Nathan Hodas
最近提出了几次拍摄图像分类方法通常集中在使用待分类的对象的用例是图像的中心主体。尽管在与此用例对齐的基准视觉数据集上取得了成功，但这些方法通常会在涉及密集注释的使用情况时失败，频繁注释的繁忙图像图像中常见的图像，其中相关性的对象不是中央主题，而是出现潜在的封闭，小或其他属于其他类潜在兴趣的附带物体。为了本地化相关对象，我们采用了一种基于原型的少量分割模型，该模型将未标记查询图像的编码特征与支持类心成像进行比较，以产生区域提案，指示支持设置类中的支持集中的存在和位置。然后将这些区域提案用作额外的调理输入到几次射击图像分类器。我们开发了一个框架，将两个阶段分段和分类统一到结束分类模型propnet，并经验证明我们的方法提高了具有多个对象类的自然场景的图像数据集的准确性。

Riggable 3D Face Reconstruction via In-Network Optimization
Authors Ziqian Bai, Zhaopeng Cui, Xiaoming Liu, Ping Tan
本文介绍了一种用于单眼图像的可判断3D面部重建的方法，其共同估计了个性化的脸部钻机和每个图像参数，包括表达式，姿势和照明。为实现这一目标，我们设计了嵌入在网络优化中可差异的最终培训网络的端。网络首先使用神经解码器作为紧凑级潜代码将面部装备进行参数，然后通过可学习的优化估计潜像参数。通过估计个性化的面部钻机，我们的方法超出了静态重建，并且可以实现诸如视频重新定位的下游应用。在网络优化中，明确地强制执行从第一个原理导出的约束，从而引入了基于回归的方法的附加子。最后，利用深度学习的数据驱动的前沿用于约束不良的单眼设置并缓解优化难度。实验表明，我们的方法实现了SOTA重建精度，合理的鲁棒性和泛化能力，并支持标准面钻机应用。

Deep Features for training Support Vector Machine
Authors Loris Nanni, Stefano Ghidoni, Sheryl Brahnam
特征在计算机视觉中发挥着至关重要的作用。最初旨在通过手动算法检测突出元件，现在经常由卷积神经网络中的不同层学习。本文开发了一种基于从训练的CNN中提取的功能的通用计算机视觉系统。将多个学习的功能组合成单个结构以在不同的图像分类任务上工作。通过测试来自CNN的内层的若干方法和使用它们作为由SUM规则组合的SVM的输入来实验地衍生出若干方法来实验导出。使用维度降低技术用于减小内层的高维度。结果显示了vision系统，以显着提高标准CNN的性能，跨大型和多样化的图像数据集。使用相同方法的不同拓扑的集合获得了在病毒数据集上的最新状态。

Convolutional Neural Network Pruning with Structural Redundancy Reduction
Authors Zi Wang, Chengcheng Li, Xiangyang Wang
卷积神经网络CNN修剪已成为近年来最成功的网络压缩方法之一。网络修剪上的现有工作通常侧重于删除网络中最不重要的过滤器以实现紧凑的架构。在这项研究中，我们声称，识别结构冗余比理论和凭经验地发现不重要的过滤器更重要的作用。我们首先在冗余降低的透视中统计模型网络修剪问题，并发现在层S中的修剪，最具结构冗余优于所有层的最小重要滤波器。基于该发现，我们提出了一种网络修剪方法，其识别所选层S中的CNN和PRUNES滤波器的结构冗余，其中包含冗余。关于各种基准网络架构和数据集的实验表明，我们的提出方法显着优于前一种最先进的现有技术。

CAPTRA: CAtegory-level Pose Tracking for Rigid and Articulated Objects from Point Clouds
Authors Yijia Weng, He Wang, Qiang Zhou, Yuzhe Qin, Yueqi Duan, Qingnan Fan, Baoquan Chen, Hao Su, Leonidas J. Guibas
在这项工作中，我们解决了点云序列中对象的类别级别在线姿势跟踪问题。我们首次提出一个统一的框架，可以处理新的刚性对象实例的9dof姿势跟踪，以及来自已知类别的铰接对象的每个零件姿势跟踪。这里，包括6d姿势和3D尺寸的9dof姿势等同于具有自由6d姿势的3D Amodal边界箱表示。鉴于当前帧的深度云和来自最后一个帧的估计姿势，我们的新颖结束到结束管道学会准确更新姿势。我们的管道由三个模块1构成一个姿势规范化模块，该模块归一化输入深度点云2旋转网的姿势，该模块直接回归小帧间Δ旋转和3个CoordinateNet，该模块预测了归一化坐标和分割，实现了分析计算3D大小和翻译。利用姿势规范化点云的小姿势制度，我们的方法通过组合密集的坐标预测和直接旋转回归来整合两个世界的最佳，从而产生结束到结束于结束可分辨率的管道，而不使用不可微分的ransac进行9dof姿态精度。我们广泛的实验表明，我们的方法在类别水平刚性对象上实现了新的最新状态，突出了NOCS REAL275和铰接物体姿势基准SAPIEN，BMVC在最快的FPS 12。

Multimodal Fusion Refiner Networks
Authors Sethuraman Sankaran, David Yang, Ser Nam Lim
依赖于多模态信息的任务通常包括与不同模式的信息组合的融合模块。在这项工作中，我们开发了一个炼油厂融合网络Refnet，使融合模块能够将具有强大的多式联形式表示的强不值表示。 Refnet将融合网络与解码脱模模块相结合，这施加了一种以模态为中心的责任条件。该方法通过确保在潜在融合空间中强烈编码了单峰和融合表示，解决了现有多模式融合框架中的一个很大差距。我们展示了炼油厂融合网络可以改善强大的基线融合模块，如多模式变压器。炼油厂网络使得能够在潜在空间中引起融合嵌入的图形表示，我们在某些条件下证明的潜在空间，并通过在数值实验中的强度实证结果支持。通过将REFNET与多相似性对比损失功能组合来进一步加强这些图形结构。炼油厂融合网络的模块化性质容易地与不同的融合架构相结合，此外，炼油机步骤可应用于在未标记的数据集上进行预训练，从而利用无监督的数据来提高性能。我们展示了三个数据集上的炼油厂融合网络的力量，并进一步表明它们可以仅通过小部分标记数据保持性能。

FatNet: A Feature-attentive Network for 3D Point Cloud Processing
Authors Chaitanya Kaul, Nick Pears, Suresh Manandhar
由于缺乏秩序，深入学习对3D点云的应用是挑战。灵感来自注意点的点嵌入和DGCNNS的边缘嵌入，我们提出了三次改进了点云分析的任务。首先，我们介绍一种新颖的特征周到神经网络层，脂肪层，它结合了基于全局点的特征和基于局部边缘的特征，以产生更好的嵌入品。其次，我们发现，在两个不同形式的特征映射聚合，最大池和平均池中应用相同的关注机制，提供比单独的更好的性能。第三，我们观察到该设置中的残余功能重用在层之间更有效地传播信息，并使网络更容易训练。我们的体系结构实现了最先进的状态，结果是点云分类的任务，如模型网状网集上所示，以及ShapEnet部分分割挑战的极其竞争性能。

Track, Check, Repeat: An EM Approach to Unsupervised Tracking
Authors Adam W. Harley, Yiming Zuo, Jing Wen, Ayush Mangal, Shubhankar Potdar, Ritwick Chaudhry, Katerina Fragkiadaki
我们提出了一种无监督的方法，用于在未标记的RGB D视频中检测和跟踪3D移动物体。该方法以经典的手工制作技术开始，用于使用运动提示进行分割对象，我们估计光学流动和相机运动，以及似乎独立于背景移动的节省部分区域。将这些初始段视为伪标签，我们在重型数据增强下学习基于外观的2D和3D检测器的集合。我们使用该合奏来检测移动类型的新实例，即使它们没有移动，也可以将其添加为新的伪标签。我们的方法是预期最大化算法，在期望步骤中，我们在征收所有模块并寻找协议，在最大化步骤中，我们重新培训模块以改善本协议。集合协议的约束有助于在E步骤期间打击生成的伪标签的污染，数据增强有助于在M步骤期间帮助模块概括到尚未标记的数据。我们与现有无监督的对象发现和跟踪方法进行比较，使用Cater和Kitti的挑战视频，并表现出对现有技术的强烈改进。

Towards On-Device Face Recognition in Body-worn Cameras
Authors Ali Almadan, Ajita Rattani
与识别身份相关的面部识别技术在情报采集，执法，监控和消费者应用中被广泛采用。最近，这项技术已移植到智能手机和车身磨损的相机BWC。身体磨损相机的人脸识别技术用于监测，态势意识，并使军官安全。只使用身体磨损的相机，只有少数的学术研究存在于人脸识别中。最近的一项研究组装了使用主体磨损相机获取的BWCFace面部图像数据集，并评估reset50模型以进行面部识别。然而，对于资源约束体磨损的相机和涉及面部图像的隐私问题的实际推理，需要在设备面部识别上。为此，本研究评估使用主体磨损的相机进行面部识别的轻量级MobileNet V2，UpplicalNet B0，LightCNN 9和LightCNN 29模型。实验在公开的BWCFace数据集上进行。实时推断在三个移动设备上进行评估。比较分析用重量重量vgg 16和Reset 50型号以及六个手工制作的功能来评估性能和型号之间的折衷。实验结果表明，最佳性能Reset 50上的轻量级LightCNN 29的最大秩1精度的差异是TextBF 1.85，模型参数的减少是TextBF 23.49m。大多数深度模型在等级5和等级10中获得了类似的性能。LightCNNS的推理时间比移动设备上的其他模型快2.1倍。 PightCNN 29和局部相位量化LPQ描述符之间的最小性能差异在等级1.在大多数实验设置中，轻量级LightCNN模型在与大多数型号相比，精度和模型大小之间的最佳折衷。。

PrivateSNN: Fully Privacy-Preserving Spiking Neural Networks
Authors Youngeun Kim, Yeshwanth Venkatesha, Priyadarshini Panda
我们如何将隐私和能源效率带到边缘设备的神经系统中，我们提出了PrivateNN，该旨在从预训练的ANN模型中建立低功率尖峰神经网络SNN，而不会泄漏数据集中包含的敏感信息。在这里，我们解决两种类型的泄漏问题1数据泄漏导致在网络SNN转换过程中访问真实训练数据时。 2级泄漏是泄漏概念，导致类相关功能可以从网络参数重建。为了解决数据泄漏问题，我们从预训练的ANN生成合成图像，并使用生成的图像将ANN转换为SNNS。然而，转换后的SNNS仍然容易受到类泄漏的影响，因为权重参数具有相对于ANN参数的相同或缩放值。因此，我们通过训练SNN与基于时间秒码的学习规则进行训练的SNN权重。更新具有时间数据的权重参数使得难以在空间域中解释的网络。我们观察到加密的私人不仅可以实现，而不是小于5的巨大性能下降，而且与标准ANN相比，大约X60的显着能效增益。我们对各种数据集进行广泛的实验，包括CiFar10，CiFar100和TinyimageNet，突出了隐私保留了SNN培训的重要性。

Contour Proposal Networks for Biomedical Instance Segmentation
Authors Eric Upschulte, Stefan Harmeling, Katrin Amunts, Timo Dickscheid
我们向对象实例分段介绍了一个名为Contour提案网络CPN的对象实例分段框架，其检测图像中的可能重叠对象，同时使用基于傅里叶描述符的可解释的固定大小的表示同时拟合闭合对象轮廓。 CPN可以将现有物体检测架构的状态包含为骨干网络，进入可以训练结束的单级实例分段模型。我们用不同的骨干网络构造CPN模型，并将它们应用于来自不同模态的数据集中的单元格的实例分段。在我们的实验中，我们展示了CPNS以实例分段精度优于U型网和掩码R CNN，并呈现适合实时应用的执行时间的变体。训练有素的模型横跨细胞类型的不同域概括。由于框架的主要假设是闭合物体轮廓，因此应用于生物医学领域之外的各种检测问题。自由可用的Pytorch中模型架构的实现。

SOLD2: Self-supervised Occlusion-aware Line Description and Detection
Authors R mi Pautrat, Juan Ting Lin, Viktor Larsson, Martin R. Oswald, Marc Pollefeys
与特征点检测和描述相比，检测和匹配线段提供额外的挑战。然而，Line功能代表了多视图任务的有希望的补充。线条由图像梯度确定很好地定义，甚至在纹理区域较差的区域和提供强大的结构线索中也会出现。因此，我们在单个深网络中介绍了第一联合检测和对线段的描述。由于自我监督的培训，我们的方法不需要任何带注释的线路标签，因此可以概括任何数据集。我们的探测器在图像中提供了可重复和准确的线路段定位，脱离线框解析方法。利用最近的描述符学习的进展，我们所提出的线描述符是高度辨别的，同时仍然是对视点变化和闭塞的稳健性。我们评估我们对以前的线路检测和描述方法的方法，并在几个使用相同的Warps创建的多视图数据集中以及真实世界的视点变化。我们的全管线能够产生更高的可重复性，定位精度和匹配度量，因此代表了利用学习的特征点方法桥接差距的第一步。可以使用代码和培训的重量

Monitoring Social-distance in Wide Areas during Pandemics: a Density Map and Segmentation Approach
Authors Javier A. Gonz lez Trejo, Diego A. Mercado Ravell
随着全球遏制测量的放松，监测拥挤的公共场所的社会偏移是令人瞩目的，以防止新的Covid 19感染浪潮。最近的作品在这种情况下，通过检测到少量人群来检测图像中的全身来检测到小人群的社会偏移，通过检测到较小的人群。在这项工作中，我们提出了一种新的框架，用于监控社会距离，以结束实现深入学习，以检测违反社会距离的人群，在可能存在重要遮挡的范围内。我们的框架在基于地面真实密度图的基础上创建了新的地面真理，以及两种不同的解决方案的提议，基于密度图和基于分割，以检测违反社会距离约束的人群。我们通过使用PET2009和CityStreet数据集的生成的地面真相来评估两种方法的结果。我们展示我们的框架在提供人们不会遵循社交距离的区域时表现良好，即使在远离一台摄像机时也不会遵循社交距离。

OVANet: One-vs-All Network for Universal Domain Adaptation
Authors Kuniaki Saito, Kate Saenko
通用域适应未发现，旨在处理两个数据集之间的域移位和类别，其中主要挑战是在拒绝标记的源数据中不存在的未知类，而是在未标记的目标数据中缺少的未知类。现有方法手动设置阈值以基于验证或未定义的未知样本的预定比率拒绝未知样本，但此策略不实用。在本文中，我们提出了一种使用源样本来学习阈值并将其调整到目标域的方法。我们的想法是源域中的最小帧间距离应是在目标中已知或未知之间的良好阈值。要学习Inter和Interra Class距离，我们建议使用标记的源数据训练每个类的所有分类器。然后，我们通过最小化Class Entropy将打开的SET分类器调整到目标域。由此产生的框架是最简单的UNDA所有基线，对Hyper参数的值不敏感，但具有大边距的基线优于基线。

Automatic Generation of Descriptive Titles for Video Clips Using Deep Learning
Authors Soheyla Amirian, Khaled Rasheed, Thiab R. Taha, Hamid R. Arabnia
在过去十年中，在许多应用中使用深度学习产生了与在某些情况上超越人类专家表现的情况的结果。应用领域包括诊断疾病，金融，农业，搜索引擎，机器人视觉和许多其他人。在本文中，我们建议利用图像视频标题方法和自然语言处理系统来生成视频的标题和简洁摘要。这种系统可以潜行在许多应用领域中，包括电影行业，视频搜索引擎，安全监控，视频数据库仓库，数据中心等。所提出的系统函数和操作如遵循它读取识别视频代表图像帧并选择图像帧被标记为NLP，并将所有生成的标题与文本摘要一起应用，最后，为视频生成标题和抽象。所有功能都是自动执行的。本文使用公共数据集提供了初步结果。本文不关心执行时间系统的效率。我们希望能够在随后的出版物中解决执行效率问题。

A transfer-learning approach for lesion detection in endoscopic images from the urinary tract
Authors Jorge F. Lazo, Sara Moccia, Aldo Marzullo, Michele Catellani, Ottavio De Cobelli, Benoit Rosa, Michel de Mathelin, Elena De Momi
输尿管镜和膀胱镜是沿泌尿道鉴定和治疗肿瘤的金标准方法。据报道，在正常程序期间，可能会错过10 20个病变的速率。在这项工作中，我们使用2个步骤培训策略来研究3个不同的卷积神经网络CNNS，将图像与尿路从尿路分类，无病变。收集了输尿管镜检查和膀胱镜手术的总共6,101个图像。在3个数据集上，使用转移学习进行培训并测试CNN和测试。使用的数据集仅为4只输尿管镜图像，2只膀胱镜图像和3个它们两者的组合。对于膀胱镜检查数据，VGG更好地在ROC曲线AUC值为0.846下获得区域。在输尿仪检查和两个数据集的组合的情况下，RENET50实现了0.987和0.940的AUC值的最佳效果。使用理解两个域的训练数据集导致一般性更好的性能，但是执行第二阶段的转移学习实现了可比的阶段。在所有场景中没有单一的模型，但Reset50是网络中大多数大多数情况下实现最佳表现的网络。获得的结果开放了进一步调查的机会，以改善泌尿系统内窥镜图像中的病变检测。

Multimodal Fusion of EMG and Vision for Human Grasp Intent Inference in Prosthetic Hand Control
Authors Mehrshad Zandigohar, Mo Han, Mohammadreza Sharif, Sezen Yagmur Gunay, Mariusz P. Furmanek, Mathew Yarossi, Paolo Bonato, Cagdas Onal, Taskin Padir, Deniz Erdogmus, Gunar Schirner
对于较低的臂令，机器人假肢手提供了恢复能力在日常生活活动中执行良好的物体操纵能力。基于EEG和EMG的生理信号的电流控制方法由于运动伪影而易于推理差，皮肤电极结阻抗随时间，肌肉疲劳和其他因素的变异性。视觉证据也容易受其自身的伪影，最常常是由于物体遮挡，照明变化，对象的可变形状，取决于视角，以及其他因素。使用生理和视觉传感器测量的多模式证据融合是由于这些方式的互补优势，是一种自然的方法。

Uncertainty-Aware Temporal Self-Learning (UATS): Semi-Supervised Learning for Segmentation of Prostate Zones and Beyond
Authors Anneke Meyer, Suhita Ghosh, Daniel Schindele, Martin Schostak, Sebastian Stober, Christian Hansen, Marko Rak
已经向前列腺S自动分段及其粗细分转换成转换区TZ和外围区域PZ的各种基于卷积神经网络CNN基于CNN的概念。然而，当靶向TZ，PZ，远端前列腺尿道DPU和前纤维纤维素基质AFS的细粒细分时，任务变得更具挑战性，并且尚未在人类性能水平上得到解决。一个原因可能是监督培训的标记数据量不足。因此，我们建议应用一个名为不确定性意识的SSL技术的半监督学习技术，以克服昂贵且耗时的手动地理标签。我们将SSL技术与时间合并和不确定性引导的自学习组合在一起，从未标记的图像中受益，这通常很容易获得。我们的方法显着优于监督的基线，并获得高达78.9,87.3,75.3,50.6的骰子系数DC，分别用于TZ，PZ，DPU和AFS。获得的结果是所有结构的人类互补性能范围。此外，我们研究了对噪声的鲁造度，并证明了标记数据和其他具有挑战性任务的不同比例的概括能力，即海马和皮肤病变分割。与监督基线相比，UAT达到了优势分割质量，特别是对于最小量的标记数据。

BEFD: Boundary Enhancement and Feature Denoising for Vessel Segmentation
Authors Mo Zhang, Fei Yu, Jie Zhao, Li Zhang, Quanzheng Li
血管分割对于许多诊断和研究应用至关重要。近年来，基于CNN的模型在分割的任务中引起了突破，然而，这些方法通常会失去高频信息，如对象边界和微妙的结构，这对血管分割至关重要。为了解决这个问题，我们提出了边界增强和特征去噪了，以便于提取语义分割中的边界信息的网络能力，这可以集成到结尾以结束的任意编码器解码器架构。通过引入Sobel边缘检测器，网络能够以前获取额外的边缘，从而以无监督的方式增强用于医学图像分割的边界。此外，我们还利用了去噪块来减少隐藏在低级功能中的噪声。视网膜船只数据集和血管基数据集上的实验结果证明了新BEFD模块的卓越性能。

CARRNN: A Continuous Autoregressive Recurrent Neural Network for Deep Representation Learning from Sporadic Temporal Data
Authors Mostafa Mehdipour Ghazi, Lauge S rensen, S bastien Ourselin, Mads Nielsen
学习来自多变量纵向数据的时间模式挑战，特别是在数据是零星的情况下，如在连续数据点之间的时间可能因特征和样本之间的时间而受到不规则性和异步的医疗保健应用程序中的医疗保健应用程序，妨碍具有固定序列长度的完整，均匀间隔数据的现有深度学习模型的应用。在本文中，开发了一种新的基于深度学习的模型，用于使用基于经常性神经网络RNN单元的集成深度学习架构和连续时间自回归车模型使用集成的深度学习架构在散发数据中建模多个时间特征。所提出的模型，称为Carnn，使用广义的离散时间自回归模型，该模型是使用时间滞后调制的神经网络来结束的可锻造端，以描述由不规则性和异步引起的变化。它应用于多变量时间序列回归任务，使用用于阿尔茨海默病进展模型和重症监护单元ICU死亡率预测，其中基于门控复发单元GRU的提出模型实现了基于RNN的型号的最低预测误差和现有技术方法使用Grus和长期内存LSTM网络在其体系结构中。

Support-Target Protocol for Meta-Learning
Authors Su Lu, Han Jia Ye, De Chuan Zhan
支持查询S Q培训协议广泛用于Meta学习。 S Q协议在S上培训任务特定模型，然后使用查询丢失来评估Q以优化元模型，这取决于Q的尺寸和质量。在本文中，我们研究了一个新的STA学习协议。假设我们可以访问理论上的最佳模型T进行任务，我们可以直接匹配S对T.S T协议的任务特定模型提供了一个更准确的评估，因为它不依赖于可能偏见和嘈杂的查询实例。将S T协议投入到实践中有两个挑战。首先，我们必须确定如何将任务特定模型匹配到T.到目前为止，我们最大限度地减少对经过对冲学习生成的虚构数据集之间的差异，并将T的预测能力蒸馏到任务特定模型。其次，我们通常没有准备好的最佳模型。作为替代方案，我们通过对本地任务进行微调构建代理目标模型全球预训练的元模型，保持效率和准确性。

On tuning consistent annealed sampling for denoising score matching
Authors Joan Serr , Santiago Pascual, Jordi Pons
基于得分的生成模型提供了用于图像和音频合成的现实质量状态。从这些模型采样迭代地执行，通常采用离散化的一系列噪声水平和预定义方案。在本说明中，我们首先概述三种常见的采样方案，用于培训的模型，该模型与去噪得分匹配。接下来，我们专注于其中一个，一致的退火采样，并研究其超参数边界。然后，我们突出显示可能的制定此类超参数，即显式考虑这些边界并在使用少数或可变数量的步骤时促进调整。最后，我们用其他采样方案突出了配方的一些连接。

Atrous Residual Interconnected Encoder to Attention Decoder Framework for Vertebrae Segmentation via 3D Volumetric CT Images
Authors Wenqiang Li, YM Tang, Ziyang Wang, KM Yu, Sandy To
基于计算断层扫描CT的自动医学图像分割已被广泛应用于计算机辅助手术作为先决条件。随着深度学习技术的发展，深度卷积神经网络DCNNS在医学图像的自动化语义分割中表现出强大的性能。然而，基于DCNN的语义分割算法仍然符合编码器和解码器之间的特征损耗的挑战，多尺度对象，限制滤波器的视野，以及缺少医学图像数据。本文提出了一种通过3D体积脊柱CT图像自动椎骨分割算法。所提出的模型基于编码器的结构到解码器，使用层归一化以优化迷你批量训练性能。为了解决编码器和解码器之间信息丢失的关注，我们设计了一个不受欢迎的剩余路径，以将更多功能从编码器传递给解码器而不是简单的快捷方式连接。该建议的模型还应用了解码器部分中的注意模块，以从变体尺度提取特征。所提出的模型由各种指标对公共可用数据集进行评估。实验结果表明，与其他艺术医学语义分割方法相比，我们的模型实现了竞争性能。

Advanced Image Enhancement Method for Distant Vessels and Structures in Capsule Endoscopy
Authors Olivier Rukundo, Marius Pedersen, istein Hovde
本文提出了一种胶囊内窥镜图像对比增强的先进方法，主要目的是在更远或较深部分的胶囊内窥镜图像中获得有关血管和结构的足够信息。所提出的方法PM分别结合了两种算法来增强胶囊内窥镜图像的更暗和更亮的区域。我们以前的工作中提出的半单位加权双线性算法HWB根据其HSV S组分V的较暗地图内容来增强较暗区域V.由于开发的新颖的阈值加权双线性算法实现了更亮的区域的增强，以避免过度过度在这样的区域中保存色调时，镜面突出斑点的扩大。随着其HSV S组分V的更亮的地图内容的亮度逐渐增加，TWB执行增强操作。换句话说，随着组件V的强度含量增加，TWB降低其平均权重。进行了广泛的实验演示，并基于参考和PM增强图像的评估，胃肠病学家H得出结论，PM增强的图像是基于关于船舶的信息，图像中的对比的最佳图像，以及视野或可见性在胶囊内窥镜图像的更远部分中的结构。

Contextual Semi-Supervised Learning: An Approach To Leverage Air-Surveillance and Untranscribed ATC Data in ASR Systems
Authors Juan Zuluaga Gomez, Iuliia Nigmatulina, Amrutha Prasad, Petr Motlicek, Karel Vesel , Martin Kocour, Igor Sz ke
空中交通管理和专门的空中交通管制ATC主要依靠空中交通管制员ATCOS和飞行员之间的语音通信。在大多数情况下，这些语音通信遵循可以在自动语音识别ASR技术中利用的明确定义的语法。用于解决飞机的宗旨是所有Atco试点通信的重要组成部分。我们提出了两步方法，在半监督培训期间添加上下文知识，以减少识别包含呼叫的话语部分的ASR系统错误率。最初，我们在WFST中代表了一个语境知识，即ATCO试点通信的空中监测数据。然后，在SEMI监督学习期间，通过第二次通过解码添加上下文知识I. Lattice Re评分。结果表明，看不见的域名。与独立SSL相比，来自监督培训数据中不存在的机场的数据进一步辅助上下文SSL。对于此任务，我们将该呼叫词错误率CA WER介绍为评估度量，其只评估话语中所说的大展的ASR性能。我们通过在SSL上添加了从Liveatc收集的具体基于ATC的测试集来增加了32.1 CA WER相对改进，通过增加SSL期间的上下文知识来提高SSL。

DeepProg: A Transformer-based Framework for Predicting Disease Prognosis
Authors Huy Hoang Nguyen, Simo Saarakkala, Matthew B. Blaschko, Aleksei Tiulpin
构建绝大多数深度学习方法以自动化诊断任务。然而，在临床实践中，更先进的问题是如何预测疾病的过程。此问题的当前方法是复杂的，并且通常需要域名知识，使他们难以使用从业者。在本文中，我们将预测预测任务制定为一个到许多序列预测问题。灵感灵感来自临床决策过程，其中两个药剂是放射科医生和一般从业者，我们提出了一种基于终端变压器的封端，以估计图像和辅助数据的疾病预后。开发方法的有效性和验证在合成数据上显示，并且在预测膝关节中结构骨关节炎变化的发展的任务。

Spatial Imagination With Semantic Cognition for Mobile Robots
Authors Zhengcheng Shen, Linh K stner, Jens Lambrecht
基于经验和语义认知的周围环境的想象力具有很大的潜力，可以扩展有限的观察，并提供更多信息，用于映射，碰撞和路径规划。本文提供了一种基于训练的移动机器人算法，以基于语义认知进行空间想象，并评估所提出的映射任务方法。我们利用了一张照片逼真的模拟环境，栖息地进行培训和评估。训练有素的模型由Resent 18作为编码器和UNET作为骨干组成。我们证明，通过调用图像和经验并与传统的语义映射方法进行比较我们的方法，该算法可以普遍普遍普遍地对对象的不间断部分进行想象力。发现我们的方法将提高语义映射的效率和准确性。

MRI-based Alzheimer's disease prediction via distilling the knowledge in multi-modal data
Authors Hao Guan 1 , Chaoyue Wang 1 , Dacheng Tao 1 1 School of Computer Science, The University of Sydney
轻度认知障碍MCI转换预测，即确定转化为阿尔茨海默病的高风险患者，对于预防或减缓广告的进展至关重要。尽管先前的研究表明，多模态数据的融合可以有效地提高预测精度，但它们的应用主要受到多模态数据的有限可用性或高成本的限制。仅使用磁共振成像MRI构建有效预测模型仍然是一个具有挑战性的研究主题。在这项工作中，我们提出了一种多模特多实例蒸馏方案，该方案旨在将从多模态数据中学到的知识蒸馏到基于MCI转换预测的MRI网络。与现有的蒸馏算法相比，所提出的多实例概率表明了代表复杂的萎缩分布的优异能力，并且可以引导基于MRI的网络更好地探索输入MRI。为了我们的最佳知识，这是第一项研究，试图通过利用从多模态信息蒸馏出额外的监督来改善基于MRI的预测模型。实验证明了我们框架的优势，旨在提出数据有限的临床环境中的潜力。

Stable deep neural network architectures for mitochondria segmentation on electron microscopy volumes
Authors Daniel Franco Barranco, Arrate Mu oz Barrutia, Ignacio Arganda Carreras
电子显微镜EM允许鉴定细胞内细胞器，如线粒体，为临床和科学研究提供见解。近年来，与先前公共线粒体分割数据集的方法相比，已发布了一些新的深层学习架构报告了卓越的性能，甚至人力学准确性。遗憾的是，许多这些出版物都没有代码和完整的培训细节，以支持获得的结果，导致可重复性问题和可疑的模型比较。出于这个原因，并且在最近报告实验结果的最佳实践守则之后，我们向EM卷上进行了线粒体分割的艺术深层学习架构的大规模研究，评估了对不同变化的影响2D和3D U NET LIKE此任务的模型。为了更好地理解每个组件的贡献，已经通过每个方法实现并测试了一组通用的预先预先和后处理操作。此外，已经执行了所有架构的超级参数值的详尽横扫，并且每个配置已经多次运行以报告评估度量的平均值和标准偏差值。使用这种方法，我们发现非常稳定的架构和普遍存在的配置，始终如一地获得众所周知的EPFL海马Mitochondria分段分段数据集。此外，我们已经在两个其他可用的数据集，卢西奇和kasthuri上进行了基准测试，在那里他们以前的所有作品。源自本研究及其文档的代码是公开可用的。

M-Net with Bidirectional ConvLSTM for Cup and Disc Segmentation in Fundus Images
Authors Maleeha Khalid Khan 1 Syed Muhammad Anwar 2
青光眼是一种严重的眼部疾病，众所周知，透明的光学从不纤维脱纤维，导致杯子尺寸增加，这可能导致永久性丧失视力。青光眼是白内障后失明的第二个主要原因，但青光眼更危险，因为它不是未固化的。青光眼的早期诊断和治疗可以帮助减缓青光眼的进展及其损害。对于荧光眼的检测，杯子与光盘比率CDR提供了重要信息。 CDR严重取决于杯子和盘区的精确分割。在本文中，我们提出了一种具有双向卷积长短短期内存LSTM的改进的M网络，基于联合杯和光盘分割。所提出的网络与双向LSTM结合了编码器和解码器的功能。我们所提出的模型区段杯和盘区域，基于该杯和盘区域可以观察到盘比的杯子的异常。所提出的模型在refuge2数据上测试，其中我们的模型在分段杯和盘区中实现了0.92的骰子得分，精度为98.99

An Object Detection based Solver for Google's Image reCAPTCHA v2
Authors Md Imran Hossen, Yazhou Tu, Md Fazle Rabby, Md Nazmul Islam, Hui Cao, Xiali Hei
以前的工作表明，通过从货架图像识别服务提供深度神经网络DNN图像分类器和视觉API的自动化程序可以解决reCAPTCHA V2 S图像挑战。为了应对新兴威胁，谷歌对其图像reCAPTCHA V2挑战进行了重大更新，这可能使先前的方法在很大程度上无效。在本文中，我们调查了基于高级对象检测的求解器的最新版本的Recaptcha V2的鲁棒性。我们提出了一个完全自动化的对象检测系统，可在线成功率为83.25的在线成功率，迄今为止最高的成功率突破了reCAPTCHA v2的最高挑战，并且只需19.93秒即可平均地延迟网络延迟。我们还研究了ReCAPTCHA V2的更新安全功能，例如反识别机制，改进的抗机器检测技术和可调节的安全偏好。我们广泛的实验表明，虽然这些安全功能可以提供一些对自动攻击的抵抗，但对手仍然可以绕过大部分。我们的实验结果表明，目的检测技术最近的进步对图像CAPTCHA设计的安全构成了严重的威胁，依赖于简单的对象检测作为其底层的AI问题。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页