【AI视野·今日CV 计算机视觉论文速览第197期】Thu, 13 May 2021

本文链接：https://blog.csdn.net/u014636245/article/details/116768071

AI视野·今日CS.CV 计算机视觉论文速览
Thu, 13 May 2021
Totally 44 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Computer Vision Papers

Learning to Generate Novel Scene Compositions from Single Images and Videos
Authors Vadim Sushko, Juergen Gall, Anna Khoreva
低数据制度的培训GAN仍然是一项挑战，因为过度装备往往导致记忆或培训分歧。在这项工作中，我们介绍了一个拍摄GaN，可以学习从一张图像或一个视频的训练中生成样本。我们提出了一个两个分支鉴别者，内容和布局分支旨在与场景布局现实主义分开判断内部内容。这允许合成场景的视觉上可兼容的新组合物，其具有不同的含量和布局，同时保留原始样品的上下文。与以前的单一图像GaN模型相比，一枪GaN达到更高的多样性和合成质量。它也不限于单个图像设置，在引入的单个视频的设置中成功学习。

Breaking Shortcut: Exploring Fully Convolutional Cycle-Consistency for Video Correspondence Learning
Authors Yansong Tang, Zhenyu Jiang, Zhenda Xie, Yue Cao, Zheng Zhang, Philip H. S. Torr, Han Hu
以前的周期一致性对应学习方法通常利用图像修补程序进行培训。在本文中，我们介绍了一种完全卷积的方法，这对推理过程更简单，更加连贯。在直接应用全模型崩溃中的完全卷积训练，我们研究了这种崩溃现象背后的下划线原因，表明像素的绝对位置提供了易于实现循环一致的快捷方式，这阻碍了有意义的视觉表现的学习。为了打破这种绝对的位置捷径，我们建议将不同的作物应用于前向和后向框架，采用特征翘曲，以建立相同框架两种作物之间的对应关系。前者技术在前后跟踪处强制执行相应的像素以具有不同的绝对位置，并且后者有效地阻止前后轨道之间的快捷方式。在三个标签传播基准上进行姿势跟踪，面部地标跟踪和视频对象分割，我们的方法在很大程度上提高了香草完全卷积循环一致性方法的结果，与艺术方法的自我监督相比实现了非常竞争力的表现。

When Does Contrastive Visual Representation Learning Work?
Authors Elijah Cole, Xuan Yang, Kimberly Wilber, Oisin Mac Aodha, Serge Belongie
最近的自我监督的代表性学习技术在很大程度上关闭了监督和无监督学习对想象成分类之间的差距。虽然现在对想象成的预先估计的详细信息现在相对良好地了解，但该领域仍然缺乏广泛接受的最佳实践，用于复制其他数据集的成功。作为朝这个方向的第一步，我们研究了四种不同大型数据集的对比自我监督学习。通过透过数据量，数据域，数据质量和任务粒度的镜头，我们为成功的自我监督学习提供了新的见解。我们的主要发现包括诸如I的额外预押数据超过500K图像的损害的观察结果，II添加来自另一个领域的预先预留图像不会导致更普遍的表示，III损坏的预押图像对监督和自我监督的预介质有一个不同的影响，和IV对比学习远远落后于细粒度的视觉分类任务的监督学习。

Is Gender "In-the-Wild" Inference Really a Solved Problem?
Authors Tiago Roxo, Hugo Proen a
鉴于其与各种应用的相关性，软化生物学分析被视为一个重要的研究主题。然而，尽管它经常被视为一个解决的任务，但在不同的图像条件下，仍然很难在野外条件下执行，并且不合作的姿势和闭塞。考虑到性别特征作为我们的研究主题，我们报告了对其推断的可行性进行了广泛的分析，了解图像分辨率，亮度和模糊和基于主题的特征面和身体键点信心。使用三个艺术数据集PETA，PA 100K，RAP和五个人属性识别模型的状态，使用福利值与性别推理准确性相关联，使我们能够察觉到每个基于图像对象的功能的重要性。此外，我们分析了基于面部的性别推断，并评估了对它的构成效果。我们的研究结果表明，基于图像的特征对低质量数据2更有影响力，对于低质量数据2，图像质量的增加转化为更高的基于对象的特征重要性3面基的性别推理精度与图像质量增加相关，4个受试者正面姿势促进了隐含的注意力脸。报告的结果被视为随后的推理方法在不受控制的户外环境中的推理方法的基础，这通常对应于视觉监控条件。

A Fast Deep Learning Network for Automatic Image Auto-Straightening
Authors Ionut Mironica, Andrei Zugravu
纠正图像的方向代表每次摄影师的每日任务。即使对于人眼，这项任务可能是复杂的，特别是当图像中图像中的地平线或其他水平和垂直线缺失时。在本文中，我们解决了这个问题，并提出了一种专门适用于图像旋转校正的新的深度学习网络，我们介绍了专业化的矩形深度卷积，该卷曲是从图像中检测到的长线和解决方向误差问题的新的调整丢失函数。。

Directional GAN: A Novel Conditioning Strategy for Generative Networks
Authors Shradha Agrawal, Shankar Venkitachalam, Dhanya Raghu, Deepak Pai
图像内容是营销活动，网站和横幅的主要因素。今天，营销人员和设计师在产生这种专业质量内容时花费相当多的时间和金钱。我们使用生成的对抗网络GAN来简化这一过程。我们提出了一种简单而新的调节策略，其允许使用为无条件图像生成任务训练的发电机来产生在给定的语义属性上调节的图像。我们的方法是基于修改潜伏向量，使用潜在空间中的相关语义属性的方向矢量。我们的方法旨在使用离散二进制和多类和连续图像属性。我们展示了我们所提出的方法，在多个公共数据集中命名的定向GaN，在不同属性中的平均精度为86.4的适用性。

Deep and Shallow Covariance Feature Quantization for 3D Facial Expression Recognition
Authors Walid Hariri, Nadir Farah, Dinesh Kumar Vishwakarma
面部表情识别3D面部扫描的FER近年来收到了大量的关注。大多数面部表情识别方法都是用主要的2D图像提出的。这些方法遭受了若干问题，如照明变化和姿势变化。此外，从3D图像的2D映射可能缺乏面部的一些几何和拓扑特征。因此，为了克服这个问题，提出了一种多模态2D 3D特征的方法。我们利用来自变换的2D图像的卷积神经网络CNN从3D图像中提取浅功能，深度特征。将这些特征组合成一个紧凑的表示使用协方差矩阵作为两个特征的描述符而不是单手写描述符。使用协方差矩阵学习用作歧管层，以减小深度协方差矩阵的尺寸，并在保持其歧管结构的同时增强它们的辨别力。然后，我们使用特征BOF范例的袋子在平整后量化协方差矩阵。因此，我们使用浅层和深刻的功能获得了两个码本。然后使用全局码本来提供SVM分类器。与现有技术的状态相比，在BUDFE和Bosphorus Datasets上已经实现了高分类性能。

PoseContrast: Class-Agnostic Object Viewpoint Estimation in the Wild with Pose-Aware Contrastive Learning
Authors Yang Xiao, Yuming Du, Renaud Marlet
由于需要估计野外的任意物体的姿势观点的需要，这仅被稀缺和小型数据集覆盖，我们考虑阶级不可知论3D对象姿势估计的具有挑战性问题，没有3D形状知识。这个想法是利用所看到的课程的特征来估计未经看台的类的姿势，但这与看起来的类相似的几何形状和规范框架。为此，我们通过在所有对象类中共享权重训练直接姿势估算器，我们介绍了一种对比学习方法，其中有三种主要成分我使用预训练，自我监督，基于对比的特征II姿势意识数据增强III构成意识到对比损失。我们在Pascal3d和ObjectNet3D上进行了实验，以及以交叉数据集时尚的PIX3D，具有视野和看不见的类。我们报告了最先进的结果，包括针对使用其他形状信息的方法，以及在使用检测到的边界框时。

FDAN: Flow-guided Deformable Alignment Network for Video Super-Resolution
Authors Jiayi Lin, Yan Huang, Liang Wang
大多数视频超分辨率VSR方法通过对齐其相邻帧和挖掘这些帧来增强视频参考帧。最近，可变形对准在VSR社区中绘制了广泛的关注，以实现其显着性能，这可以将相邻帧自适应地对准相邻帧。然而，我们通过实验发现由于局部损失驱动的偏移预测，缺乏显式运动约束，可变形的对准方法仍然存在快速运动。因此，我们提出了一种基于匹配的流量估计MFE模块，以将全局语义特征匹配和估计光流作为每个位置的粗偏移。并且提出了一种流动引导可变形模块FDM以将光学流集成到可变形卷积中。 FDM首先使用光学流来扭曲相邻帧。然后，翘曲的相邻帧和引用用于预测每个粗偏移的一组精细偏移。通常，我们提出了一个端到端的深度网络，称为流引导可变形对准网络FDAN，其在两个基准数据集上达到了最新的性能，同时在计算和存储器消耗中仍然具有竞争力。

FlipReID: Closing the Gap between Training and Inference in Person Re-Identification
Authors Xingyang Ni, Esa Rahtu
由于神经网络是饥饿的数据，因此在训练中结合数据是一种广泛采用的技术，可以扩大数据集并改善泛化。另一方面，对多个增强样本的聚合预测即，测试时间增强可以进一步提高性能。在人物RE识别模型的上下文中，常常做法提取原始图像和水平翻转变体的嵌入。最终的表示是上述特征向量的平均值。然而，这种方案导致训练和推理之间的间隙，即在推理中计算的平均特征向量不是训练管道的一部分。在这项研究中，我们将触发器结构设计与翻转亏损以解决这个问题。更具体地，使用触发器结构的模型在原始图像和翻转图像上训练，并结合着翻转损耗，最小化相应图像对的特征向量之间的平均平方误差。广泛的实验表明，我们的方法带来了一致的改进。特别是，我们为MSMT17设置了一个新的记录，它是最大的人重新识别数据集。源代码可用

VL-NMS: Breaking Proposal Bottlenecks in Two-Stage Visual-Language Matching
Authors Wenbo Ma, Long Chen, Hanwang Zhang, Jian Shao, Yueting Zhuang, Jun Xiao
用于匹配多模式输入的主要框架基于两个阶段过程1检测具有对象检测器的提案和与提案的2匹配文本查询。现有的两个阶段解决方案主要集中在匹配步骤上。在本文中，我们认为这些方法在两个阶段的提案中的角色之间忽略了一个明显的Emph，其在他们基于检测置信度，即查询不可知论，希望该提案包含文本查询中提到的所有实例，查询意识。由于这种不匹配，可能在过滤过程中抑制了与文本查询相关的提案，这反过来界限匹配性能。为此，我们提出了VL NMS，这是第一个在第一阶段产生查询了解提案的方法。 VL NMS将所有提到的实例视为关键对象，并引入轻量级模块，以预测与关键对象对齐每个提议的分数。这些分数可以指导NMS操作来过滤掉与文本查询无关的提案，从而增加关键对象的调用，从而显着提高了匹配性能。由于VL NMS对匹配步骤不可知，因此可以容易地集成到艺术的任何状态中的两个级匹配方法。我们验证VL NMS对两个多模式匹配任务的有效性，即引用表达式接地和图像文本匹配。关于若干基线和基准的广泛消融研究一致地证明了VL NMS的优越性。

Segmenter: Transformer for Semantic Segmentation
Authors Robin Strudel, Ricardo Garcia, Ivan Laptev, Cordelia Schmid
图像分割通常在单个图像修补程序的级别模糊，并且需要上下文信息来达到标签共识。在本文中，我们引入了分段器，是语义分割的变压器模型。与基于卷积的方法相比，我们的方法允许在第一层和整个网络中建模全局上下文。我们在最近的视觉变压器VIT上建立并将其扩展到语义细分。为此，我们依赖于对应于图像修补的输出嵌入品，并使用点明智的线性解码器或掩模变压器解码器从这些嵌入式中获取类标签。我们利用模型预先接受培训的图像分类，并表明我们可以在可用于语义细分的中等大小的数据集中微调它们。线性解码器允许获得优异的结果，但是通过掩模变压器产生类掩模可以进一步改善性能。我们进行广泛的消融研究以显示不同参数的影响，特别是对于大型型号和小型斑块尺寸而言，性能更好。分段器达到语义细分的优异成果。它在挑战的Ade20k数据集中优于最先进的状态，并按照帕斯卡语法和城市景观进行规定。

Deep Spiking Convolutional Neural Network for Single Object Localization Based On Deep Continuous Local Learning
Authors Sami Barchid, Jos Mennesson, Chaabane Dj raba
随着神经形态硬件的出现，尖峰神经网络可以是人工神经网络的良好节能替代方案。但是，使用尖刺神经网络进行计算机视觉任务仍然有限，主要关注数字识别等简单任务。它仍然很难处理更复杂的任务。分割，对象检测由于这些任务的深尖头神经网络上的少量工作。本文的目的是通过监督尖刺神经网络对现代计算机愿景进行第一步。我们提出了一个深度卷积的尖峰神经网络，用于在灰度图像中定位一个物体。我们提出了一种基于脱底的网络，这是一种尖峰模型，可以实现局部代理梯度基于基于梯度的学习。牛津IIIT宠物报告的令人鼓舞的结果验证了利用监督学习方法对未来更精致的愿景任务的监督学习方法的利用。

ROSEFusion: Random Optimization for Online Dense Reconstruction under Fast Camera Motion
Authors Jiazhao Zhang, Chenyang Zhu, Lintao Zheng, Kai Xu
因此，基于RGB D序列的在线重建已经抑制了相对缓慢的相机运动1M S。在非常快速的相机运动下，例如，3M S，即使对于现有技术的状态，重建也可以轻松崩溃。快速运动为深度融合1带来了两个挑战，由于帧框架帧际旋转跨框架较大，并且由于运动模糊而缺乏可靠的可跟踪特征，因此相机姿势优化的高度非线性。我们建议在没有随机优化的情况下在没有惯性测量的情况下解决快速运动摄像机跟踪的困难，特别是粒子过滤器优化PFO。为了超越计算密集型粒子采样和在标准PFO中更新，我们建议通过更新粒子群模板PST加速随机搜索。 PST是一组预先在摄像机姿势的6D空间内均匀地采样的颗粒。通过移动和重新传递由群智能引导的预先样本的PST，我们的方法能够驱动成千上万的粒子来定位并覆盖极快且稳健的良好局部最佳。代表候选姿势的颗粒被评估为基于深度模型一致性定义的适应性函数。因此，我们的方法仅限于深度和对应的对应，减轻运动模糊障碍，因为TOF基深通常是弹性模糊的弹性。由于基于高效的基于模板的粒子集的演化和有效的健身功能，我们的方法在快速摄像机运动中获得了高达4M的良好的姿态跟踪，在实时帧中占据了4M，而不包括循环闭合或全局姿势优化。通过对RGB D序列公共数据集的广泛评估，特别是在新提出的快速相机运动的基准上，我们展示了我们对艺术状态的方法的重要优势。

Image interpretation by iterative bottom-up top-down processing
Authors Shimon Ullman, Liav Assif, Alona Strugatski, Ben Zion Vatashsky, Hila Levy, Aviv Netanyahu, Adam Yaari
场景理解需要与他们的性质和关系一起提取和表示场景组件。我们描述了一种模型，其中通过迭代过程从图像中提取有意义的场景结构，将底部向上BU和顶部DD网络组合，通过计数器流结构之间的对称双向通信进行交互。该模型通过三个组件的迭代使用构造场景表示。第一个模型组件是提取所选场景元素，属性和关系的BU流。基于相关的非视存储表示，第二组件认知增强增大了提取的视觉表示。它还以TD指令的形式提供第三组件，TD流的输入，指示模型下一个要执行的任务。然后，TD流引导BU视觉流以在下一个周期中执行所选任务。在此过程中，从图像中提取的视觉表示可以与相关的非视觉表示组合，使得最终场景表示基于从场景中提取的所有视觉信息和世界的相关存储知识。我们描述了一系列TD指令用于从感兴趣的场景结构中提取，包括自动选择序列中的下一个TD指令的算法。提取过程在组合概括方面显示出有利的性质，概括到新颖的场景结构以及在训练期间未见的物体，属性和关系的新组合。最后，我们将模型与人类视野的相关方面进行比较，并建议使用BU TD方案的方向，以在场景理解过程中集成视觉和认知组件。

WildGait: Learning of Gait Representations from Raw Surveillance Streams
Authors Adrian Cosma, Emilian Radoi
步态对人身识别的使用具有重要的优势，例如非侵入性，不显眼，不需要合作，与其他生物识别技术相比，不太可能被遮挡。步态认可的现有方法需要合作步态场景，其中一个人在相机前面的直线上行走多次。我们的目标是解决真实世界场景的艰难挑战，其中相机饲料捕获多个人，他们在大多数情况下仅在相机前面通过一次。我们通过仅使用行走人员的运动信息来解决隐私问题，没有可识别的外观信息。因此，我们提出了一部小型弱监督的学习框架，野外，它包括培训从原始，现实世界，监视流的大量自动注释的骨架序列上培训了一个训练了一个自动的批量骨架序列，以学习有用的步态签名。我们的结果表明，通过微调，我们超越了识别准确性的艺术姿势的电流基于步态识别解决方案。我们所提出的方法可靠地在无约束环境中培训步态识别方法，特别是在具有稀缺金额的注释数据的环境中。我们在CASIA B和FVG上获得了84.43的准确性，仅使用10个可用的培训数据。当使用同一网络而无需预先估计，这包括29和38准确的准确性改进。

SauvolaNet: Learning Adaptive Sauvola Network for Degraded Document Binarization
Authors Deng Li, Yue Wu, Yicong Zhou
灵感来自经典的Sauvola本地形象阈值方法，我们系统地从深神经网络DNN角度研究它，并提出了一种称为Sauvolanet的新解决方案，用于降级的文档二值化DDB。它由三个可解释的模块组成，即多窗口Sauvola MWS，PixelWise窗口注意PWA和Adaptive Sauolva阈值AST。 MWS模块诚实地反映了经典的Sauvola，但具有培训参数和多窗口设置。 PWA模块估计每个像素位置的优选窗口尺寸。 AST模块还巩固了MWS和PWA的输出，并预测每个像素位置的最终自适应阈值。结果，Sauvolanet将结束于最终培训，并且显着减少所需的网络参数的数量为40K，它只是MobileNetv2中的1。与此同时，它实现了DDB任务的艺术SOTA性能的状态，SAUVOLANET至少比，如果不是更好，如果不是更好，在我们广泛的13公共文件二值化数据集上的广泛研究中。我们的源代码可用

Object-Based Augmentation Improves Quality of Remote SensingSemantic Segmentation
Authors Svetlana Illarionova, Sergey Nesteruk, Dmitrii Shadrin, Vladimir Ignatiev, Mariia Pukalchik, Ivan Oseledets
如今，深度卷积神经网络CNNS推动大多数计算机视觉问题的限制，定义趋势和设置最先进的结果。在遥感任务中，如对象检测和语义分割，CNNS达到了SOTA性能。但是，为了精确性能，CNNS需要高质量的高质量培训数据。稀有物体和环境条件的可变性强烈影响预测稳定性和准确性。为了克服这些数据限制，很常见的是考虑包括数据增强技术的各种方法。本研究侧重于基于对象的增强的开发和测试。发达增强技术的实际有用性在遥感域中示出，是最需要的无效增强技术之一。我们提出了一种用于地理学的图像增强的新型管道，其能够显着增加训练样本的数量。呈现的管道被称为基于对象的增强OBA，并利用对象分段掩码，以产生使用目标对象和各种标签自由背景的新型现实培训场景。我们用六种不同的CNN架构测试建筑物分段数据集的方法，并显示所提出的方法对所有测试模型的益处。我们还表明，进一步的增强策略优化可以改善结果。所提出的方法导致U净模型预测的有意义改善从0.78到0.83 F1得分。

Operation-wise Attention Network for Tampering Localization Fusion
Authors Polychronis Charitidis, Giorgos Kordopatis Zilos, Symeon Papadopoulos, Ioannis Kompatsiaris
在这项工作中，我们介绍了一种基于深度学习的图像篡改定位融合方法。这种方法旨在结合多个图像取证算法的结果，并提供融合的篡改本地化图，这不需要专家知识，并且更容易被最终用户解释。我们的融合框架包括一组五种个人篡改定位方法，用于拼接JPEG图像上的本地化。所提出的深度学习融合模型是一种适应性的架构，最初提出了一种平行执行多个操作的图像恢复任务，由注意机制加权以使得根据输入信号选择适当的操作。对于输入信号非常多样化的情况，该加权过程非常有益，如在我们的情况下组合的多个图像取证算法的输出信号。在三次公开的上医数据集中的评估表明，拟议方法的性能具有竞争力，优先表现出各种案例中的另一个最近提出的融合框架。

Label Geometry Aware Discriminator for Conditional Generative Networks
Authors Suman Sapkota, Bidur Khanal, Binod Bhattarai, Bishesh Khanal, Tae Kyun Kim
多域图像与有条件生成的对冲网络GAN的图像转换可以产生具有所需目标类的高度照片现实图像，但这些合成图像并不总是有助于改善图像分类等下游监督任务。使用合成示例改进下游任务需要生成具有高保真度的图像对目标类的未知条件分布，许多标记的条件GAN通过在鉴别器中添加基于软MAX跨熵损耗的辅助分类器来实现。随着最近的研究表明，深度特征的欧几里德空间中的柔软最大损失不利用其内在角度分布，我们建议在辅助分级器中替换这种损失，具有添加性角度边缘AAM损失，从而受益于本质角度分布，并促进类帧内紧凑性和跨类别分离，帮助发电机合成高保真图像。

CT-Net: Complementary Transfering Network for Garment Transfer with Arbitrary Geometric Changes
Authors Fan Yang, Guosheng Lin
服装转移在现实应用中表现出极大的潜力，目标是在不同人物中转移服装的目标。然而，具有沉重的未对准或严重闭塞之间的图像之间的服装转移仍然是挑战。在这项工作中，我们建议将网络CT网的互补转移到自适应模型不同水平的几何变化和不同人之间的转移服装。具体而言，CT网由三个模块1组成，互补翘曲模块首先估计两个互补的翘曲，以在不同粒度中转移所需的衣服。图2提出了布局预测模块以预测目标布局，该目标布局引导在合成图像中的保存或生成身体部位。 3动态融合模块自适应地结合了互补经线的优点，以使服装转移结果。在Deepfashion DataSet上进行的广泛实验表明，我们的网络合成了高质量的服装转移图像并显着优于定性和定量的现有技术的状态。

A Novel Uncertainty-aware Collaborative Learning Method for Remote Sensing Image Classification Under Multi-Label Noise
Authors Ahmet Kerem Aksoy, Mahdyar Ravanbakhsh, Tristan Kreuziger, Begum Demir
在遥感RS中，收集由多个土地覆盖类标签注释的大量可靠训练图像，用于多标签分类MLC是耗时和昂贵的。为了解决这个问题，公开的专题产品通常用于注释具有零标记成本的RS图像。但是，在这种情况下，培训集可以包括扭曲学习过程的嘈杂多标签，从而导致不准确的预测。本文提出了一种建筑师独立的自同意协作多标签学习CCML方法，用于在MLC问题中进行输入依赖性异质型多标签噪声培训深层分类器。通过四个主模块1组套索模块2差异模块3翻转模块和4个交换模块，所提出的CCML识别，排名和纠正噪声多标签图像。套索模块通过基于两个协作网络的聚合估计标签不确定性来检测可能的嘈杂标签。差异模块可确保两个网络学习不同的功能，同时获得相同的预测。翻转模块校正识别的噪声标签，交换模块在两个网络之间交换排名信息。在多标签RS图像存档IR Bigearthnet上进行的实验在极端多标签噪声速率下确认所提出的CCML的稳健性。

TextOCR: Towards large-scale end-to-end reasoning for arbitrary-shaped scene text
Authors Amanpreet Singh, Guan Pang, Mandy Toh, Jing Huang, Wojciech Galuba, Tal Hassner
TextVQA和TextCaps数据集所需的基于场景文本的关键组件涉及使用光学字符识别OCR系统检测和识别图像中存在的文本。目前的系统通过对这些数据集的实际文本注释的不可用，以及缺少现场文本检测和识别数据集，以禁止OCR领域的进程和从OCR系统隔离的场景文本的推理评估。在这项工作中，我们提出了TextOcr，一个任意形状的场景文本检测和识别，与TextVQA数据集收集的900K注释单词。我们表明，当前的艺术文本识别OCR模型的状态无法在Textocro中表现良好，并且在TextOcroc上的培训有助于在多个其他OCR数据集上实现最新的现有性能。我们使用TextOcroT培训的OCR模型来创建PixelM4C模型，该模型可以在末端的图像中对图像进行场景文本的推理，允许我们重新审视几种设计选择，以在TextVQA数据集中实现新的最新状态的新状态。

MT: Multi-Perspective Feature Learning Network for Scene Text Detection
Authors Chuang Yang, Mulin Chen, Yuan Yuan Senior Member, IEEE , Qi Wang Senior Member, IEEE
文本检测，理解场景文本的关键技术已成为一个有吸引力的研究主题。为了检测各种场景文本，研究人员提出了大量具有不同优点的探测器的探测器的模型享受快速检测速度，并且基于分段的算法不受文本形状的限制。但是，对于大多数智能系统，检测器需要同时以高速和精度的高速和精度检测任意形状的文本。因此，在本研究中，我们设计了一个名为MT的有效管道，其可以在推理阶段中仅用单个二进制掩模检测粘合任意形状的文本。本文呈现了三个方面的贡献1，轻量级检测框架被设计为加速推断过程，同时保持高检测精度2，提出了一种多透视特征模块，以了解更多辨别性表示来准确地将掩模分段为3个多因素约束介绍培训拟议模型的IO最小化损失。 MT的有效性在四个现实世界场景文本数据集上进行了评估，它在很大程度上超过了艺术竞争对手的所有状态。

A Large-Scale Benchmark for Food Image Segmentation
Authors Xiongwei Wu, Xin Fu, Ying Liu, Ee Peng Lim, Steven C.H. Hoi, Qianru Sun
食物图像分割是开发健康相关应用的关键和不可或缺的任务，例如估计食物卡路里和营养素。由于两个原因1，现有的食物图像分割模型优先于1个原因1，缺乏高质量的食物图像数据集，具有细粒度的成分标签，像素明智的位置掩盖现有的数据集携带粗糙成分标签或尺寸小，2个尺寸和2个尺寸。复杂的外观食物使得难以定位和识别食物图像中的成分，例如，成分可以在同一图像中彼此重叠，并且相同的成分可以在不同的食物图像中明显出现。在这项工作中，我们构建了一个新的食物图像数据集FoodseG103及其含有9,490张图像的扩展FoodseG154。我们用154个成分类向这些图像注释，每个图像平均具有6个成分标签和像素明智的面罩。此外，我们提出了一种多种模式预培训方法，称为Relem，明确地用富裕和语义的食物知识进行分割模型。在实验中，我们使用三种流行的语义分割方法即，基于膨胀的卷积，特征基于金字塔，以及基于基线的视觉变压器，并评估它们以及在我们的新数据集中的RELEM。我们认为，FoodseG103及其扩展FoodseG154和使用RELEM的预训练模型可以作为促进未来工作的基准，以促进细粒度的食物形象理解。我们在URL中公开所有这些数据集和方法

Structure Guided Lane Detection
Authors Jinming Su, Chao Chen, Ke Zhang, Junfeng Luo, Xiaoming Wei, Xiaolin Wei
最近，随着深度神经网络的快速发展和自主驾驶的快速发展，车道检测取得了巨大进展。然而，存在三个主要问题，包括表征车道，建模场景和车道之间的结构关系，以及支持更多属性，例如，车道的实例和类型。在本文中，我们提出了一种新颖的结构引导框架来同时解决这些问题。在框架中，我们首先介绍一个新的车道表示来表征每个实例。然后提出了一种颠覆消失点引导锚定机构以产生密集的锚，从而有效地捕获各种车道。接下来，使用多电平结构约束来改善车道的感知。在该过程中，引入了与二进制分割的像素水平感知，以促进锚点周围的特征并从底部向上恢复通道细节，向内，向型号结构提出一个模型结构，即，局部周围，并自适应地使用图像级别注意从场景的角度上参加图像的不同区域。在结构引导的帮助下，锚固有效地分类和回归以获得精确的位置和形状。公共基准数据集的广泛实验表明，在单个GPU上具有117个FP，所提出的方法优于现有技术的状态。

Video Frame Interpolation via Structure-Motion based Iterative Fusion
Authors Xi Li, Meng Cao, Yingying Tang, Scott Johnston, Zhendong Hong, Huimin Ma, Jiulong Shan
视频帧插值在相邻帧之间合成不存在的图像，目的是提供平滑且一致的视觉体验。解决该具有挑战性任务的两种方法是基于光流和基于内核的方法。在现有工作中，基于光流的方法可以提供准确点对点运动描述，然而，它们缺乏对物体结构的约束。相反，基于内核的方法侧重于结构对齐，依赖于语义和明显的特征，但往往会模糊结果。基于这些观察，我们提出了一种基于结构运动的迭代融合方法。该框架是最终学习结构的结束，具有两个阶段。首先，通过基于结构的基于结构和运动的学习分支来合成内插帧，然后，通过空间和时间特征集成建立迭代细化模块。灵感来自观察，观众在前景和背景对象上具有不同的视觉偏好，我们首次建议在视频帧插值任务的评估过程中使用显着掩模。在三种典型基准测试中的实验结果表明，该方法在最先进的方法上实现了所有评估指标的卓越性能，即使我们的模型培训只有十分之一的其他方法使用。

Few-Shot Learning by Integrating Spatial and Frequency Representation
Authors Xiangyu Chen, Guanghui Wang
人类可以识别新物体，只有少数标记的例子，然而，很少的镜头学习仍然是机器学习系统的具有挑战性的问题。在少量拍摄学习中最先前的算法仅利用图像的空间信息。在本文中，我们建议将频率信息集成到学习模型中以提高系统的辨别能力。我们采用离散余弦变换DCT来生成频率表示，然后，集成空间域和频域的特征进行分类。拟议的策略及其有效性用不同的骨干，数据集和算法验证。广泛的实验表明，频率信息与少数拍摄分类中的空间表示互补。通过在不同少量拍摄学习任务中集成空间和频率域的功能，可以显着提高分类精度。

Unsupervised Representation Learning from Pathology Images with Multi-directional Contrastive Predictive Coding
Authors Jacob Carse, Frank Carey, Stephen McKenna
数字病理学任务从现代深度学习算法中受益匪浅。然而，他们对大量注释数据的需求已被确定为关键挑战。可以通过在数据丰富但是访问注释的情况下使用无监督学习来对抗数据的这种需求。已经示出了从使用对比预测编码CPC的UNANNotated数据学到的特征表示，使分类器能够从相对少量的注释的计算机视觉数据获得最先进的性能。我们对CPC框架进行了修改，以与数字病理修补程序一起使用。这是通过引入构建潜在上下文并使用多向Pixelcnn自动投播器来构建替代掩模来实现的。为了演示我们所提出的方法，我们从补丁Camelyon组织学数据集中学习特征表示。我们表明我们所提出的修改可以提高组织学贴片的改善深度分类。

The DEVIL is in the Details: A Diagnostic Evaluation Benchmark for Video Inpainting
Authors Ryan Szeto, Jason J. Corso
最近的视频修复工作中的定量评估急剧增加，但用于衡量表现的视频和掩码内容已接受相对较少的关注。虽然相机和背景场景运动等属性固有地改变任务的难度并不同地影响方法，但是现有的评估方案无法控制它们，从而提供最小的洞察力对初始化失败模式。为了解决这一差距，我们提出了在景观魔鬼基准上的视频染色的诊断评估，其中包括根据几种关键染色模式标记的视频和掩模的两个贡献IA新颖的数据集，以及样本数据集的切片的评估方案通过固定的内容属性，并根据重建，现实主义和时间一致性质量在每个切片上进行分数性能。通过揭示由输入内容特定特征引起的性能的系统改变，我们的具有挑战性的基准使得能够更具富有富有富有富有洞察力的分析，并用作该领域的宝贵诊断工具。我们的代码可供选择

Incremental Few-Shot Instance Segmentation
Authors Dan Andrei Ganea, Bas Boom, Ronald Poppe
当新颖类别的标记培训数据很少时，很少有射击实例分割方法是有希望的。然而，目前的方法不促进灵活的新型类。它们还要求在火车和测试时间提供每个班级的示例，这是内存密集的。在本文中，我们通过向几个拍摄实例分段IMTFA展示第一个增量方法来解决这些限制。我们学习歧视的嵌入物，以获得归入课堂代表的对象实例。存储嵌入矢量而不是图像有效地解决了存储器开销问题。我们使用余弦相似性在ROI级别匹配这些类嵌入。这允许我们添加新课程，而无需进一步培训或访问以前的培训数据。在一系列实验中，我们始终优于现有技术的现有状态。此外，降低的内存要求允许我们首次评估在Coco中的所有类别上的几个拍摄实例分段性能。

Collaborative Regression of Expressive Bodies using Moderation
Authors Yao Feng, Vasileios Choutas, Timo Bolkart, Dimitrios Tzionas, Michael J. Black
从图像中恢复表达人类对理解人类行为至关重要。估计3D体，脸部或手的方法显着地进行了显着的进展。面部方法恢复精确的3D形状和几何细节，但需要紧密的作物，并斗争极端视图和低分辨率。整体方法对广泛的姿势和分辨率具有鲁棒，但仅提供粗糙的3D面形状，没有细节等皱纹。为了获得两个世界的最佳，我们介绍了Pixie，它从单个图像中产生动画，整个身体3D化身，具有现实的面部细节。要获得准确的整体，Pixie使用两个关键观察。首先，身体部位是相关的，但是现有的工作通过平等信任它们来结合身体，面部和手部专家的独立估计。 Pixie介绍了一款新的主持人，合并专家的功能，加权他们的信心。独特的，部分专家可以在所有身体部位跨越整体贡献整体。其次，人类形状与性别高度相关，但现有的工作忽略了这一点。我们将培训图像标记为男性，女性或非二元，并用新颖的形状损失推断出来的性别3D身体形状。除了3D身体姿势和形状参数外，PIXIE还估计了面部的表达，照明，反照镜和3D表面位移。定量和定性评估表明，Pixie估计具有比现有技术更准确的全身形状和细节形状的3D人。我们的型号和代码可用于研究

One-shot Compositional Data Generation for Low Resource Handwritten Text Recognition
Authors Mohamed Ali Souibgui, Ali Furkan Biten, Sounak Dey, Alicia Forn s, Yousri Kessentini, Lluis Gomez, Dimosthenis Karatzas, Josep Llad s
由于稀缺注释数据和非常有限的语言信息词典和语言模型，低资源手写文本识别HTR是一个难题。例如，在历史加密稿件的情况下，这通常是用本发明的字母表编写的，以隐藏内容。因此，在本文中，我们通过基于贝叶斯计划学习BPL的数据生成技术来解决这个问题。与传统的生成方法相反，需要大量注释的图像，我们的方法能够使用来自所需字母表的每个符号的一个样本来生成人写。在生成符号之后，我们以分割自由方式创建以培训艺术HTR架构的艺术状态的合成线。进行了定量和定性分析，并确认了所提出的方法的有效性，与实际注释数据的使用相比，实现了竞争结果。

20-fold Accelerated 7T fMRI Using Referenceless Self-Supervised Deep Learning Reconstruction
Authors Omer Burak Demirel, Burhaneddin Yaman, Logan Dowdle, Steen Moeller, Luca Vizioli, Essa Yacoub, John Strupp, Cheryl A. Olman, K mil U urbil, Mehmet Ak akaya
整个大脑的高空间和时间分辨率对于准确地解决FMRI中的神经活动至关重要。因此，加速的成像技术靶向具有高时空时间分辨率的改进的覆盖范围。同时多层SMS成像与平面加速相结合，用于涉及超高字段FMRI的大型研究，例如人类连接项目。然而，对于甚至更高的加速速率，由于别名和噪声伪影，不能可靠地利用这些方法。深度学习DL重建技术最近获得了改善高度加速MRI的大量兴趣。 DL重建的监督学习通常需要完全采样的训练数据集，这不适用于高分辨率FMRI研究。为了解决这一挑战，已经提出了自我监督的学习，用于培训DL重建，只有缺乏采样的数据集，表现出类似的监督学习表现。在这项研究中，我们利用了一个自我监督的物理学在5倍的SMS和4倍的平面上的4折叠的7T FMRI数据进行了标准的DL重建。我们的研究结果表明，我们的自我监督DL重建在20倍的加速下产生高质量的图像，大大提高了现有方法，同时显示与标准的10倍加速采集相比随后的分析中的功能精度和时间效应。

Deep Snapshot HDR Reconstruction Based on the Polarization Camera
Authors Juiwen Ting, Xuesong Wu, Kangkang Hu, Hong Zhang
最近的开发芯片微偏振器技术已经使得可以以与传统相机相同的易操作性地获取四个空间对齐和时间同步的偏振图像。在本文中，我们研究了这种传感器技术在高动态范围HDR成像中的使用。具体地，观察通过改变偏振滤波器的方向可以不同地衰减自然光，我们将由偏振光相机捕获的多个图像视为在不同曝光时间下捕获的集合。在我们的方法中，我们首先研究光器取向，光的偏振方向，度和偏振角与偏振图像中的像素的曝光时间的关系。随后，我们提出了一个深度快照HDR重建框架，以使用偏振图像恢复HDR图像。创建偏振HDR数据集以培训和评估我们的方法。我们展示了我们的方法对艺术HDR重建算法的状态有利地表现出。

DEEMD: Drug Efficacy Estimation against SARS-CoV-2 based on cell Morphology with Deep multiple instance learning
Authors M.Sadegh Saberian, Kathleen P. Moriarty, Andrea D. Olmstead, Ivan R. Nabi, Fran ois Jean, Maxwell W. Libbrecht, Ghassan Hamarneh
药物重估可以加速鉴定用于SARS COV 2的临床用途的鉴定，具有预先存在的临床安全数据和既定供应链的优势。 RNA病毒如SARS COV 2操纵细胞途径并诱导亚细胞结构的重组以支持其生命周期。这些形态学可以使用生物分析技术进行量化。在这项工作中，我们在多实例学习MIL框架内使用深神经网络模型开发了一种计算管道，以识别基于公开的RXRX19A数据集的形态分析对SARS COV 2有效的推定处理。该数据集由SARS COV 2无感染细胞和感染细胞的荧光显微镜图像组成，具有和不含药物治疗。 DEEMD首先提取来自非感染和感染细胞的鉴别形态特征以产生细胞形态谱。然后在统计模型中使用这些形态谱来估计基于与未感染细胞的相似性的受感染细胞的应用治疗疗效。 DEEMD能够通过弱监管本地化感染的细胞，而没有任何昂贵的像素水平注释。 DEEMD识别已知的SARS COV 2抑制剂，例如Remdesivir和Aloxistatin，支持我们方法的有效性。 DEEMD可扩展，并并行地处理和筛选成千上万的治疗，可以探索其他新兴病毒和数据集，以便将来快速识别候选抗病毒治疗。

Cross-Modal and Multimodal Data Analysis Based on Functional Mapping of Spectral Descriptors and Manifold Regularization
Authors Maysam Behmanesh, Peyman Adibi, Jocelyn Chanussot, Sayyed Mohammad Saeed Ehsani
多模式歧管建模方法将光谱几何意识数据分析扩展到学习若干相关和互补的方式。这些方法中的大多数基于两个主要假设1，每个模态存在相同数量的均匀数据样本，并且2在模态之间的至少部分对应应作为先验知识提前给出。这项工作提出了两种新的多峰建模方法。第一种方法建立了一般分析框架，用于处理异构数据的多模式信息问题，而无需任何特定的先验知识。为此目的，首先，我们通过通过光谱图小波签名SGW来提取本地描述符来识别每个歧管的本地。然后，我们提出了一种基于SGWS描述符FMBSD的功能映射的歧管正则化框架，用于查找点对应关系。第二种方法是基于点对应关系M 2 CPC的歧管正则化多峰分类，用于多模式异构的多级异构分类问题，该方法基于FMBSD方法确定模态之间的对应关系。在三个共同跨模型检索数据集上评估FMBSD方法的实验结果，并在三个基准多模式多级多标数分类数据集中评估M 2 CPC方法，表明其效力和优越性过去的现有方法。

Evading the Simplicity Bias: Training a Diverse Set of Models Discovers Solutions with Superior OOD Generalization
Authors Damien Teney, Ehsan Abbasnejad, Simon Lucey, Anton van den Hengel
最近显示使用SGD培训的神经网络，以优先于线性预测特征依赖，并且可以忽略复杂的同样预测的功能。这种简单的偏见可以解释他们缺乏分配的鲁棒性。对于学习的任务越复杂，且统计伪像的可能性就越有可能，选择偏差，杂散相关性比学习的机制更简单。

AVA: Adversarial Vignetting Attack against Visual Recognition
Authors Binyu Tian, Felix Juefei Xu, Qing Guo, Xiaofei Xie, Xiaohong Li, Yang Liu
Vignetting是几乎所有光学系统内的继承的成像现象，显示为朝向图像的角落的径向强度变暗。由于它是摄影的常见效果，并且通常看起来像轻微的强度变化，人们通常将其视为照片的一部分，甚至不会想发布处理它。由于这种自然的优势，在这项工作中，我们研究了新的观点，即对抗性渐晕攻击AVA的渐晕，旨在将有意误导信息嵌入渐变并产生天然的对抗实例而没有噪声模式。这个例子可以欺骗艺术深度卷积神经网络的状态，但人类是不可察觉的。为此，我们首先提出基于渐晕的物理模型的桡动脉各向同性对抗性渐晕攻击RI AVA，其中物理参数例如照明因子和焦距通过目标CNN模型的引导进行调整。为了在不同的CNN上实现更高的可转移性，我们进一步提出了径向各向异性对抗性渐晕攻击Ra AVA，允许血管的有效区域是径向各向异性和自由的形状。此外，我们提出了几何意识到水平集优化方法，共同解决了对抗性渐晕区域和物理参数。我们通过攻击四个CNN，例如Reset50，UppressNet B0，DenSenet121和MobileNet V2来验证三个流行的数据集，即Dev，CiFar10和微小想象网的提出的方法。和图像质量。

Swin-Unet: Unet-like Pure Transformer for Medical Image Segmentation
Authors Hu Cao, Yueyue Wang, Joy Chen, Dongsheng Jiang, Xiaopeng Zhang, Qi Tian, Manning Wang
在过去的几年里，卷积神经网络CNNS已经达到了医学图像分析中的里程碑。特别是，基于U形架构和跳过连接的深度神经网络已广泛应用于各种医学图像任务。然而，虽然CNN实现了出色的性能，但由于卷积操作的局部性，它无法良好地学习全局和长距离语义信息相互作用。在本文中，我们提出了Swin Unet，它是一种像纯变压器一样的纯变形式图像分割。将令牌化的图像修补程序送入基于变压器的U形编码器解码器架构，并跳过用于本地全局语义特征学习的跳过连接。具体而言，我们使用具有Shifted Windows作为编码器的分层Swin变压器以提取上下文功能。和具有补丁扩展层的基于对称的SWIN变压器的解码器旨在执行UP采样操作以恢复特征映射的空间分辨率。在4倍的输入和输出的直接抽样和输出中，多器官和心脏分割任务的实验表明，基于纯变压器的U形编码器解码器网络优于具有完全卷积的方法或变压器和卷积的组合。守则和培训的型号将公开

Winograd Algorithm for AdderNet
Authors Wenshuo Li, Hanting Chen, Mingqiang Huang, Xinghao Chen, Chunjing Xu, Yunhe Wang
Adder神经网络AdderNet是一种新型的深层模型，通过添加的卷积中取代原始大规模乘法，同时保留高性能。由于添加的硬件复杂性远低于乘法的复杂性，因此整体能量消耗显着降低。为了进一步优化使用Addernet的硬件开销，本文研究了Winograd算法，它是一种广泛使用的快速算法，用于加速卷积并节省计算成本。遗憾的是，由于乘法中的分配法对L1标准无效，因此不能直接应用于addernets无法直接应用于addernets。因此，我们通过添加替换WinoGrad方程中的元素Wise乘法，然后开发一组新的变换矩阵，可以提高输出功能的表示能力以保持性能。此外，我们提出了L2到L1培训策略，以减轻正规不一致造成的负面影响。 FPGA和基准测试的实验结果表明，新方法可以进一步降低能量消耗，而不会影响原始Addernet的准确性。

Multiscale Invertible Generative Networks for High-Dimensional Bayesian Inference
Authors Shumao Zhang, Pengchuan Zhang, Thomas Y. Hou
我们提出了一种多尺度可逆的生成网络MSign和相关的培训算法，利用多尺度结构来解决高维贝叶斯推断。为了解决维度的诅咒，MSign利用后后的低尺寸性，并通过迭代上采样和精炼样品产生从粗尺寸到高尺寸的样品。 MSign以多阶段的方式培训，以最大限度地减少Jeffreys发散，这避免了在高维例中的模式下降。在两次高维贝叶斯逆问题上，我们在后近似和多模式捕获中显示了Psign对先前方法的卓越性能。在自然图像综合任务上，MSign在基线模型上实现了每维的比特的卓越性能，并在中间层中产生极大的解释能力。

Seeing All From a Few: Nodes Selection Using Graph Pooling for Graph Clustering
Authors Yiming Wang, Dongxia Chang, Zhiqian Fu, Yao Zhao
旨在使用图形信息获取数据分区的图表聚类，近年来已经得到了相当大的关注。但是，图表中的噪声边缘和节点可能会使群集结果更差。在本文中，我们提出了一种新颖的双图嵌入网络DGEN，以提高图表聚类到嘈杂节点和边缘的鲁棒性。 DGen被设计为由图形池连接层连接的两个步骤图形编码器，该图层可以了解所选节点的图形嵌入。基于节点及其最近邻居应该属于同一群集的假设，我们设计了邻居群集池池，基于节点的聚类分配和其最近的邻居选择最佳的顶点子集。这可以有效地减轻噪声边缘对聚类的影响。在获取所选节点的聚类分配后，使用这些所选节点训练分类器，并且可以通过该分类器获得所有节点的最终聚类分配。三个基准图数据集的实验证明了与若干状态相比的优势。

GANs for Medical Image Synthesis: An Empirical Study
Authors Youssef Skandarani, Pierre Marc Jodoin, Alain Lalande
生成的对抗网络GAN已经变得越来越强大，产生了吹入的光电型图像，模仿他们培训的数据集的内容以复制。医学成像中的一个经常性主题是GAN在产生可行的医疗数据时也可以有效地生成现实的RGB图像。在本文中，我们进行了多GaN和多应用研究，以衡量导致医学成像的益处。我们在三个医学成像方式和器官中测试了从基本的DCGAN到基于基于更复杂的风格的GAN架构，即心脏调味膜MRI，肝CT和RGB视网膜图像。 GANS在众所周知的众所周知的和广泛利用的数据集中培训，从中计算了他们的FID分数来测量其所生成的图像的视力。我们进一步通过测量在这些生成的图像上培训的U净的分割精度来测试其有用性。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页