【AI视野·今日CV 计算机视觉论文速览 第215期】Tue, 8 Jun 2021

379 篇文章 70 订阅
36 篇文章 9 订阅

AI视野·今日CS.CV 计算机视觉论文速览
Tue, 8 Jun 2021 (showing first 100 of 133 entries)
Totally 100 papers
👉上期速览更多精彩请移步主页

在这里插入图片描述

Daily Computer Vision Papers

SIMONe: View-Invariant, Temporally-Abstracted Object Representations via Unsupervised Video Decomposition
Authors Rishabh Kabra, Daniel Zoran, Goker Erdogan, Loic Matthey, Antonia Creswell, Matthew Botvinick, Alexander Lerchner, Christopher P. Burgess
为了帮助代理关于其构建块的场景的原因,我们希望特别地提取任何给定场景的组成结构,包括该场景的对象的配置和特征。当需要推断出现在估计代理S位置观点时,当需要推断出场景的情况时,这个问题特别困难,因为两个变量联合引起代理人的观察。我们提出了一种对这个问题的无监督变分方法。利用在不同场景中存在的共享结构,我们的模型学会从RGB视频输入两组潜在表示,单独一组对象潜伏,对应于场景的时间不变,对象级内容以及一组帧延迟,对应于全局时间变化元素,例如视点。潜伏者的这种分解允许我们的模型Simone,以分类方式表示对象属性,其不依赖于视点。此外,它允许我们分解对象动态,并随着时间抽象,查看不变,每个对象属性,总结其轨迹。我们在三个程序生成的视频数据集中展示了这些功能,以及在查看合成和实例分段方面的模型性能。

Mean-Shifted Contrastive Loss for Anomaly Detection
Authors Tal Reiss, Yedid Hoshen
深度异常检测方法学习在正常和异常样品之间分离的表示。当强大的外部训练的特征提取器时,获得非常有效的表示。预先培训的内存在想象中培训是微调的,该训练数据包括正常样本和没有异常。然而,这是一项艰巨的任务,可以遭受灾难性的崩溃,即它容易学习微不足道和非特定功能。在本文中,我们提出了一种新的损失功能,可以克服中心损失和对比损耗方法的失效模式。此外,我们将其与置信度不变角度损失相结合,这取代了以前的工作中使用的欧几里德距离,这对预测信心很敏感。我们的改善产生了一种新的异常检测方法,基于纺织品意味着对比损失,这对灾难性崩溃比以前的方法更准确,更敏感。我们的方法在CIFAR 10数据集上实现了在多个基准上的艺术异常检测性能的状态,包括97.5 ROC AUC。

NTIRE 2021 Challenge on Burst Super-Resolution: Methods and Results
Authors Goutam Bhat, Martin Danelljan, Radu Timofte, Kazutoshi Akita, Wooyeong Cho, Haoqiang Fan, Lanpeng Jia, Daeshik Kim, Bruno Lecouat, Youwei Li, Shuaicheng Liu, Ziluan Liu, Ziwei Luo, Takahiro Maeda, Julien Mairal, Christian Micheloni, Xuan Mo, Takeru Oba, Pavel Ostyakov, Jean Ponce, Sanghyeok Son, Jian Sun, Norimichi Ukita, Rao Muhammad Umer, Youliang Yan, Lei Yu, Magauiya Zhussip, Xueyi Zou
本文评论了NTIRE2021对爆发超级分辨率的挑战。鉴于原始嘈杂的爆发作为输入,挑战中的任务是生成一个清洁的RGB图像,分辨率高出4倍。挑战包含两条曲目1在综合生成的数据上评估,以及使用来自移动摄像头的真实世界突发的跟踪2。在最终的测试阶段,6支队伍使用不同的解决方案提交了结果。顶部执行方法为突发超分辨率任务设置了新的最新状态。

High Resolution Solar Image Generation using Generative Adversarial Networks
Authors Ankan Dash, Junyi Ye, Guiling Wang
我们应用了被称为生成的对抗性网络GAN的深度学习算法,以将太阳能图像进行图像转换。也就是说,从太阳能动力学天文台SDO Helioseismic和磁性成像仪HMI视线磁力照片图像到SDO大气成像组件AIA 0304图像。紫外线紫外极端紫外线EUV观测,如SDO AIA0304图像,即使在20世纪70年代以来的SDO HMI等Magenetic田间观测,也只能向科学家提供科学家。因此,通过利用像GAN这样的深度学习算法,我们可以为科学家提供完整的数据集进行分析。为了生成高分辨率太阳能图像,我们使用PIX2PIXHD和PIX2PIX算法。 PIX2PIXHD算法专门为高分辨率图像生成任务设计,并且PIX2PIX算法是迄今为止对图像转换算法的最广泛使用的图像。为了培训和测试,我们使用了2012年,2013年和2014年的数据。结果表明,我们的深度学习模型能够从HMI磁图产生高分辨率1024 x 1024像素AIA0304图像。具体地,PIX2PIXHD和原始图像生成的图像的像素PEARSON相关系数的像素高达0.99。如果PIX2PIX用于生成图像,则该数字为0.962。我们为我们的PIX2PIXHD模型获得的结果优于以前由他人完成的先前作品获得的结果来生成AIA0304图像。因此,我们可以使用这些模型在不可用的AIA0304数据时生成AIA0304图像,这可以用于了解空间天气并给予研究人员预测太阳能事件(如太阳能耀斑和冠状大量喷射)的能力。据我们所知,我们的作品是第一次尝试利用Pix2Pixhd算法将SDO HMI算法到SDO AIA0304图像到图像转换。

3DB: A Framework for Debugging Computer Vision Models
Authors Guillaume Leclerc, Hadi Salman, Andrew Ilyas, Sai Vemprala, Logan Engstrom, Vibhav Vineet, Kai Xiao, Pengchuan Zhang, Shibani Santurkar, Greg Yang, Ashish Kapoor, Aleksander Madry
我们介绍3DB一个可扩展的统一框架,用于使用光保护模拟测试和调试视觉模型。我们通过广泛的使用情况展示,3DB允许用户在计算机视觉系统中发现漏洞,并在模型做出决策时获得见解。 3DB捕获并概括了来自现有工作的许多稳健性分析,并启用一个人可以研究它们的相互作用。最后,我们发现系统转移到物理世界产生的见解。

Visual Transformer for Task-aware Active Learning
Authors Razvan Caramalau, Binod Bhattarai, Tae Kyun Kim
基于池基于主动学习的采样代表了在处理深度学习模型时注释信息数据的关键框架。在本文中,我们提出了一种基于池的主动学习的新型管道。与最先前的作品不同,我们的方法在培训期间利用可访问的未标记示例,以估计其与标记示例的同一关系。本文的另一个贡献是将可视变压器视为AL管道中的采样器。可视变压器在标记和未标记的示例之间模拟非本地视觉概念依赖性,这对于识别影响的未标记示例至关重要。另外,与现有方法相比,学习者和采样器以多阶段方式培训,我们建议将它们培训,以意识到的方式,这使得可以将潜在空间转换为两个单独的任务,该任务将其分类为另一个单独的任务区分标签方向。我们评估了我们在四种不同具有挑战性的分类基准的工作和检测任务viz的工作。 CiFar10,CiFar100,FashionMnist,Rafd和Pascal VOC 2007.我们广泛的实证和定性评估表明了与现有方法相比我们的方法的优越性。可用的代码

DoubleField: Bridging the Neural Surface and Radiance Fields for High-fidelity Human Rendering
Authors Ruizhi Shao, Hongwen Zhang, He Zhang, Yanpei Cao, Tao Yu, Yebin Liu
我们介绍了Doublefield,一种新颖的表示,结合了高保真人类渲染的表面场和辐射场的优点。在DoubleField中,表面字段和辐射字段通过共享特征嵌入和表面引导采样策略相关联。通过这种方式,Doublefield具有用于几何和外观建模的持续但不诚度的学习空间,支持快速训练,推理和芬降。为了实现高保真性的无视点渲染,进一步增强了DoubleField以利用超高分辨率输入,其中介绍了从原始分辨率处的稀疏视图输入的更有效的学习和传输学习方案的视图。通过几个数据集的定量评估验证了Doublefield的功效,并且在真实世界稀疏多视图系统中的定性结果,显示了其优越的照片现实自由观点人类渲染能力。对于代码和演示视频,请参阅我们的项目页面

Drone-based AI and 3D Reconstruction for Digital Twin Augmentation
Authors Alex To, Maican Liu, Muhammad Hazeeq Bin Muhammad Hairul, Joseph G. Davis, Jeannie S.A. Lee, Henrik Hesse, Hoang D. Nguyen
数字双胞胎是一个处于行业4.0的最前沿的新兴技术,最终目标是结合物理空间和虚拟空间。迄今为止,数字双胞胎概念已应用于许多工程领域,在工程设计,制造,自动化和建筑业的领域提供有用的见解。虽然各种技术的Nexus与数字双胞胎开辟了新的机会,但该技术需要一个框架来整合不同的技术,例如建筑和建筑行业的建筑信息模型。在这项工作中,提出了一种信息融合框架,以从所涉及的各种技术的数字双胞胎框架中无缝熔断异构组件。本研究旨在通过使用无人驾驶航空公司的AI和3D重建来增加建筑物中的数字双胞胎。我们提出了一种具有可重用和可定制组件的无人机的数字双增强框架。还开发了概念证明,并且对AI的3D重建和应用进行了广泛的评估,用于缺陷检测。

CDN-MEDAL: Two-stage Density and Difference Approximation Framework for Motion Analysis
Authors Synh Viet Uyen Ha, Cuong Tien Nguyen, Hung Ngoc Phan, Nhat Minh Chung, Phuong Hoai Ha
背景技术建模是具有各种视频监控应用的视频分析中的一个有前途的研究领域。近年来通过运动分析中的有效学习方法目睹了深神经网络的扩散。然而,这些技术仅提供对观察到的场景的有限描述,其特性不足,其中学习单个值映射以近似目标背景的时间条件平均值。另一方面,图像域中的统计学习已经成为最普遍的方法之一,具有高适应动态背景变换,特别是高斯混合模型,与前景提取步骤相结合。在这项工作中,我们提出了一种新颖的,两阶段的改变检测方法,具有两个卷积神经网络。第一个架构基于无监督的高斯混合统计学习,以描述景观特征。第二个实现了前景检测的重量级管线。我们的两个阶段框架总共包含大约3.5k的参数,但仍然保持快速收敛到复杂的运动模式。我们在公开可用的数据集上的实验表明,我们的建议网络不仅能够在未知的案例中概括移动物体的区域,并且在具有前景效率和关于前景分割的效率方面也具有竞争力。

Digital Taxonomist: Identifying Plant Species in Citizen Scientists' Photographs
Authors Riccardo de Lutio, Yihang She, Stefano D Aronco, Stefania Russo, Philipp Brun, Jan D. Wegner, Konrad Schindler
自动识别业余照片的植物标本可以改善物种范围地图,从而支持生态系统的研究以及保护努力。然而,仅基于图像数据的分类植物标本挑战某些物种在视觉外观上表现出大的变化,而在同时不同的物种通常在视觉上相似,物种观察遵循高度不平衡的,由于丰富的差异而遵循高度不平衡的长尾分布。以及观察者偏见。另一方面,大多数物种观察伴随着关于空间,时间和生态背景的侧面信息。此外,生物物种不是无序的类别列表,而是嵌入分类分类结构。我们提出了一种机器学习模型,该模型考虑了统一框架中的这些额外的提示。我们的数字分类家能够更正确地识别照片中的植物物种。

Learning Dynamics via Graph Neural Networks for Human Pose Estimation and Tracking
Authors Yiding Yang, Zhou Ren, Haoxiang Li, Chunluan Zhou, Xinchao Wang, Gang Hua
多人姿态估计和跟踪作为视频理解的关键步骤。最先进的技术方法依赖于每个帧中的首先估计姿势,并且仅实现数据关联和细化。尽管取得了有希望的成果,但这种策略不可避免地忽略了尤其是在严重杂乱的场景中错过的检测,因为通过自然来说,这种追踪是基本上依赖于在闭塞的情况下不存在的视觉证据。在本文中,我们提出了一种新的在线方法来学习姿势动态,它们与当前名称的姿势检测无关,因此即使在包括遮挡的具有挑战性的情况下也可以作为稳健的估计。具体而言,我们通过图形神经网络GNN从明确地占空间时间和视觉信息的图形GNN来实现这种动态预测。它需要输入历史姿势轨迹,并且直接预测每个轨道的以下帧中的相应姿势。然后将预测的姿势将被检测到的姿势(如果有)在同一帧处聚合,以便产生最终姿势,可能恢复估计器错过的遮挡关节。 Posetrack 2017和Posetrack 2018数据集的实验表明,该方法在人类姿势估算和跟踪任务中实现了优于现有技术的结果。

Few-Shot Unsupervised Image-to-Image Translation on complex scenes
Authors Luca Barras, Samuel Chassot, Daniel Filipe Nunes Silva
未经监督的图像到图像翻译方法在过去几年中受到了很多关注。出现了解决不同观点的初始挑战的多种技术。一些专注于从几个目标样式图像中学习的焦点,而其他目标风格图像在其他利用对象检测,以便在内容丰富的场景中产生更现实的结果。在这项工作中,我们评估最初用于单个对象翻译的方法如何在更多样化和丰富的图像上执行。我们的作品基于Funit 1框架,我们用更多样化的数据集训练它。这有助于了解此类方法的行为如何超出其初始应用程序帧。我们提出了一种基于对象检测扩展数据集的方法。此外,我们提出了一种方法来调整机器框架,以利用物体检测的力量,即可以在其他方法中看到。

Bias Mitigation of Face Recognition Models Through Calibration
Authors Tiago Salvador, Stephanie Cairns, Vikram Voleti, Noah Marshall, Adam Oberman
面部识别模型遭受偏见,例如,虚假阳性不正确面部匹配的概率强烈取决于像种族这样的敏感属性。结果,当在执法中使用时,这些模型可能对少数群体产生负面影响。在这项工作中,我们介绍了偏置缓解校准BMC方法,我提高了模型精度,提高了现有技术,II产生相当校准的概率,III显着降低了假阳性率的差距,IV不需要了解敏感属性。

HERS Superpixels: Deep Affinity Learning for Hierarchical Entropy Rate Segmentation
Authors Hankui Peng, Angelica I. Aviles Rivero, Carola Bibiane Schonlieb
Superpixels作为许多计算机视觉任务中的强大预处理工具。通过使用Superpixel表示,图像基元的数量可以大大降低倍数。大多数Superpixel方法使用手工制作功能,这通常不会平移到对目标边界的强烈依从性。最近最近的超像素方法引入了Superpixel分段过程的深度学习。然而,这些方法都不能够在近实时生产超像素,这对于在实践中的超像素方法的适用性至关重要。在这项工作中,我们提出了一种基于阶段的基于图形的Superpixel分段框架。在第一阶段,我们通过聚合多尺度信息来介绍一个有效的深度亲和学习DAL网络,其学习成对像素关联。在第二阶段,我们提出了一种称为分层熵速率分割的高效超像素方法。使用来自第一阶段的学习亲和力,HERS构建了一个分层树结构,可以瞬间生产任何数量的高度自适应超像素。我们通过视觉和数值实验证明了我们的方法的有效性和效率与各种状态的艺术超像素方法相比。

Efficient Training of Visual Transformers with Small-Size Datasets
Authors Yahui Liu, Enver Sangineto, Wei Bi, Nicu Sebe, Bruno Lepri, Marco De Nadai
Visual Transformers VTS作为卷积网络CNNS的架构范式替代。与CNN不同,VT可以捕获图像元素之间的全局关系,并且它们可能具有更大的表示容量。然而,典型的卷积电感偏差缺乏使这些模型比普通的CNN更饥饿更多的数据。事实上,在VTS中嵌入在CNN架构设计中的一些本地属性,应该从样本中学到。在本文中,我们经验经验分析了不同的VTS,比较了他们在小型训练制度中的鲁棒性,并且我们表明,尽管在想象中训练时具有可比的准确性,但它们在较小数据集上的性能可能很大程度上不同。此外,我们提出了一种自我监督的任务,可以从图像中提取其他信息,只有可忽略的计算开销。这项任务鼓励VTS学习图像内的空间关系,并使VT培训在训练数据稀缺时更加强劲。我们的任务与标准的监督培训共同使用,它不依赖于特定的架构选择,因此它可以很容易地插入现有的VTS。使用与不同的VTS和数据集进行广泛的评估,我们表明我们的方法有时可以急剧提高VTS的最终精度。代码将在接受时提供。

Unsupervised Action Segmentation for Instructional Videos
Authors AJ Piergiovanni, Anelia Angelova, Michael S. Ryoo, Irfan Essa
在本文中,我们解决了从教学视频中以无监督的方式发现原子动作的问题,这很少以原子行动注释。我们提出了一种无监督的方法,以根据视频分割的顺序随机自回转模型从各种教学视频中学习结构化人类任务的原子行动。这将学习表示并发现任务的不同原子动作之间的顺序关系,并提供自动和无监督的自我标记。

Reveal of Vision Transformers Robustness against Adversarial Attacks
Authors Ahmed Aldahdooh, Wassim Hamidouche, Olivier Deforges
基于关注的网络在许多计算机视觉任务中实现了最先进的性能,例如图像分类。与卷积神经网络CNN不同,Vanilla Vision变压器Vit的主要部分是注意力块,它带来了模仿输入图像的全局背景的力量。这种力量是数据饥饿,因此,训练数据越大,性能越好。为了克服这种限制,已经提出了许多基于Vit基于VIT的网络或混合vt,包括在训练期间包括当地背景。 VITS及其变体对抗对抗攻击的鲁棒性并未被广泛投资于文献中。在以前的一些作品中揭示了一些稳健性属性,因此,更多的洞察力稳健性属性尚未迷失。在施加预处理防御方法之后,研究与在普发的防御方法中的逆势实例AES下的CNN和2相比,研究VIT变体1对不同L p基于对抗的对抗的抗体攻击的鲁棒性。为此,我们从ImageNet 1K上运行一组实验,然后提供了一种分析,显示Vanilla Vit或杂种Vit比CNN更鲁棒。例如,我们发现,1 Vanilla Vits或混合Vits比L 0,L 1,L 2,L流入下的CNNS更强大,并且CCP攻击的CNN。 2 vanilla Vits没有响应主要减少高频分量的预处理防御,而混合vits对这种防御更加响应。 3 CCP可以用作预处理防御,并且发现较大的VIT变体比其他模型更响应。此外,提供了具有图像质量措施的特征图,注意力映射和渐变凸轮可视化,以及扰动能量谱的见解了解基于关注的模型。

Person Re-Identification with a Locally Aware Transformer
Authors Charu Sharma, Siddhant R. Kapil, David Chapman
人员RE识别是基于计算机视觉的监视应用中的重要问题,其中同一个人试图从各种附近区域中的监控照片中识别。目前,大多数人RE ID技术基于卷积神经网络CNN,但是视觉变形金机开始取代纯CNN的各种对象识别任务。视觉变换器的主要输出是全局分类令牌,但视觉变换器还产生本地令牌,其中包含有关图像的本地区域的附加信息。利用这些本地代币来提高分类准确性的技术是一个有效的研究领域。我们提出了一种新颖的本地知识变压器LA变压器,采用基于零件的卷积基线PCB启发策略,将全局增强的本地分类代币聚集到SQRT N分类器的集合中,其中N是补丁的数量。额外的新颖之处在于我们纳入块状微调,进一步提高了RE ID精度。 La变压器具有块状精细调谐,在市场上的标准偏差为0.13和98.7的标准偏差分别在CUHK03数据集中标准偏差,在写作时,标准偏差为0.13的标准偏差。

Incremental False Negative Detection for Contrastive Learning
Authors Tsai Shien Chen, Wei Chih Hung, Hung Yu Tseng, Shao Yi Chien, Ming Hsuan Yang
自我监督的学习最近通过对比学习在视觉任务中显示出巨大的潜力,这旨在在数据集中区分每个图像或实例。然而,这种实例级别学习忽略了实例之间的语义关系,并从语义相似的样本同样地排斥锚,被称为假否定。在这项工作中,我们首先经验突出显示虚假否定的不利影响对于包含更多语义概念的数据集来说更为重要。为了解决这个问题,我们介绍了自我监督对比学习的新型增量假阴性检测。在培训过程之后,当编码器逐渐培训并且嵌入空间变得更加语义上结构时,我们的方法逐步检测更可靠的假底片。随后,在对比学习期间,我们讨论了两种策略,明确地删除了检测到的错误否定。广泛的实验表明,我们所提出的方法在有限计算中的多个基准上表现出其他自我监督的对比学习框架。

Refiner: Refining Self-attention for Vision Transformers
Authors Daquan Zhou, Yujun Shi, Bingyi Kang, Weihao Yu, Zihang Jiang, Yuan Li, Xiaojie Jin, Qibin Hou, Jiashi Feng
与CNN相比,视觉变压器VITS在图像分类任务中显示了竞争精度。然而,它们通常需要更多的数据进行模型预培训。因此,最近的大部分作品都致力于设计更复杂的架构或培训方法来解决VITS的数据效率问题。然而,其中很少有人探讨改善自我关注机制,是区分VITS的关键因素。与现有的作品不同,我们介绍了一个概念上简单的计划,称炼油机,直接完善VITS的自我注意图。具体而言,炼油厂探讨了注意力扩展,将多头注意映射到更高的尺寸空间,以促进其多样性。此外,炼油厂应用卷积来增加注意地图的本地模式,我们向我们展示相当于分布式本地注意功能,与学习内核在本地聚合,然后通过自我关注全球聚合。广泛的实验表明,炼油厂令人惊讶。值得注意的是,它使VITS能够在ImageNet上实现86个顶级分类准确性,只有81米参数。

Deep Learning 3D Dose Prediction for Conventional Lung IMRT Using Consistent/Unbiased Automated Plans
Authors Navdeep Dahiya, Gourav Jhanwar, Anthony Yezzi, Masoud Zarepisheh, Saad Nadeem
深入学习DL 3D剂量预测最近获得了很多关注。然而,训练数据集中的计划质量的可变性,由具有广泛专业知识的规划人员手动生成,可以大大影响最终预测的质量。此外,临床标准的任何变化需要规划人员需要一组新的手动制定的计划来构建新的预测模型。在这项工作中,我们使用我们在名为Echo的House自动化规划系统生成的一致计划来培训DL模型。 Echo加急约束分层优化通过顺序解决大规模约束优化问题来生成一致的无偏见计划。如果临床标准发生变化,可以使用回声,没有或有限的人工干预,可以轻松地将新的训练数据集能够轻松地生成,使基于DL基于DL的预测模型适应临床实践的变化。我们使用120例常规肺患者100进行训练,20用于使用不同的光束配置进行测试,并使用手动产生的DL模型和自动回声计划培训。我们评估了不同输入1 CT PTV OAR轮廓,以及2 CT轮廓光束配置,以及不同的损耗功能1 MAE平均值误差,2 MAE DVH剂量块直方图。使用不同的DVH指标以及剂量评分和DVH得分,最近被AAPM知识的规划巨大挑战所介绍,预测的质量。使用自动回声计划和CT轮廓光束作为训练输入和MAE DVH作为损耗功能获得的最佳结果。

Detection of marine floating plastic using Sentinel-2 imagery and machine learning models
Authors Srikanta Sannigrahi, Bidroha Basu, Arunima Sarkar Basu, Francesco Pilla
越来越多的海洋塑料污染水平对海洋生态系统和生物多样性的严重威胁。本研究试图探索开放的Sentinel卫星数据和ML模型的全功能,用于检测和分类浮动塑料碎片在米蒂利尼希腊,利马索尔塞浦路斯,卡拉布里亚意大利和贝鲁特黎巴嫩的浮动塑料碎片。两个ML型号,即支持向量机SVM和随机森林RF进行分类分析。在原位塑料位置数据被从米中,希腊和利马索尔,塞浦路斯进行的对照实验中收集,并且考虑了培训模型的同样。遥感频带和光谱索引都用于开发ML模型。为塑料的光谱特征型材,用于区分来自其他海洋碎片的浮动塑料。新开发的指数,内核归一化差异植被指数Kndvi纳入建模,以检查其对模型性能的贡献。 SVM和RF都在五种模型中进行了很好的表现,并且测试案例组合。在两个ML模型中,测量RF的最高性能。发现了kndvi有效并增加了模型性能,而模型表现,通过针对SVM的模型280至98测量的高平衡精度反映为RF的87至97。使用最佳执行的模型,在Calabria和Beirut开发并测试了自动浮动塑料检测系统。对于这两个网站,训练有素的模型检测到浮动塑料,精度为99。在六个预测因子中,FDI被发现是检测海洋浮动塑料的最重要变量。这些调查结果共同提出,高分辨率遥感图像和自动化ML模型可以是船用浮动塑料的成本有效检测的有效替代方案。

Open source disease analysis system of cactus by artificial intelligence and image processing
Authors Kanlayanee Kaweesinsakul, Siranee Nuchitprasitchai, Joshua M. Pearce
由于众多仙人掌从室内用来食品和药用应用,仙人掌培养越来越感兴趣。各种疾病会影响仙人掌的生长。开发用于分析仙人掌病的自动化模型,并能够快速治疗和防止仙人掌损坏。用于分析仙人掌疾病的速率较快的R CNN和YOLO算法技术,将仙人掌疾病分成六组1 anthracnose,2只溃疡,3缺乏护理,4个蚜虫,5锈病和6个正常组。基于实验结果,发现yolov5算法在检测和识别仙人掌疾病方面更有效地比R CNN算法更有效。使用yolov5s模型的数据培训和测试导致了89.7的精确度,精度召回为98.5,这对于在仙人掌培养中的许多应用中有效。总体而言,YOLOV5算法每张图像的测试时间仅为26毫秒。因此,发现yolov5算法适用于移动应用,并且该模型可以进一步开发成用于分析仙人掌病的程序。

Recovery Analysis for Plug-and-Play Priors using the Restricted Eigenvalue Condition
Authors Jiaming Liu, M. Salman Asif, Brendt Wohlberg, Ulugbek S. Kamilov
通过剥夺红色方法通过利用预训练的深脱落器作为图像前导者来解决逆问题,即可广泛用于解决逆问题。虽然已经被广泛研究了这些算法的经验成像性能和这些算法的理论会聚特性,但先前没有过度地分析它们的回收性能。通过假设这些方法的解决方案在深度神经网络的固定点附近,我们通过展示如何建立PNP红色的理论恢复保证来解决这种差距。我们还呈现了数值结果比较了基于生成模型的最近压缩传感算法的压缩感测的PNP红色的恢复性能。我们的数值结果表明,与现有技术的现有状态相比,PNP具有预先训练的工件去除网络提供了更好的结果。

Shuffle Transformer: Rethinking Spatial Shuffle for Vision Transformer
Authors Zilong Huang, Youcheng Ben, Guozhong Luo, Pei Cheng, Gang Yu, Bin Fu
最近,基于窗口的变压器,在非重叠本地窗口内计算了自我关注,在图像分类,语义分割和对象检测中表现出有希望的结果。然而,较少的研究已经致力于横窗连接,这是提高表示能力的关键元素。在这项工作中,我们将空间Shuffle重新审视为在Windows之间构建连接的有效方法。因此,我们提出了一个名为Shuffle变压器的新视觉变压器,通过修改两行代码来实现高效且易于实现。此外,引入了深度明智的卷积以补充空间洗牌以增强邻居窗口连接。拟议的架构在广泛的视觉任务中实现出色的性能,包括图像级分类,对象检测和语义分割。代码将被释放为复制。

Efficient Iterative Amortized Inference for Learning Symmetric and Disentangled Multi-Object Representations
Authors Patrick Emami, Pan He, Sanjay Ranka, Anand Rangarajan
无监督的多对象表示学习取决于感应偏差,以指导概括的对象中心表示的发现。但是,我们观察到学习这些表示的方法是由于长期训练时间和大的记忆消耗或放弃关键归纳偏差而不切实际。在这项工作中,我们介绍了高效的Morl,这是一个有效的对象学习的无监督学习的框架。我们表明,通过设计框架来最大限度地减少对其的依赖性来解决这两个对称性和解剖学而导致的优化挑战可以通过高成本的迭代摊销推理来解决。我们采取了两个阶段的推断方法,分层变形AutoEncoder通过自下而上推断提取对称和解开的表示,而第二个,轻量级网络通过顶部反馈提供了顶端反馈的表示。在课程后培训期间采取的细化步骤的数量减少,因此在零步骤的测试时间内,模型实现了99.1的精细分解性能。我们在标准多目标基准上展示了强大的物体分解和解剖学,同时实现了更快的训练顺序和通过前一种训练的训练和测试时间推断。

Adversarial Attack and Defense in Deep Ranking
Authors Mo Zhou, Le Wang, Zhenxing Niu, Qilin Zhang, Nanning Zheng, Gang Hua
深神经网络分类器容易受到对抗的攻击,其中难以察觉的扰动可能导致错误分类。然而,基于DNN的图像排名系统的漏洞仍然仍然探索。在本文中,我们提出了两次对深度排名系统的攻击,即候选攻击和查询攻击,可以通过对抗扰动来提高或降低所选候选人的等级。具体地,预期的排名顺序首先表示为一组不等式,然后设计类似目标函数的三态以获得最佳扰动。相反,提出了一种防崩倒塌三态防御来改善对所有拟议攻击的排名模型稳健性,其中模型学会防止通过对抗攻击彼此靠近彼此靠近的正和阴性样本。全面测量排名模式与我们的防务的经验对抗性稳健性,我们提出了一个经验丰富的稳健性评分,这涉及一套针对排名模式的代表性攻击。我们的对抗排名攻击和防御是在Mnist,Fashion Mnist,Cub200 2011,Cars196和Stanford在线产品数据集上进行评估。实验结果表明,典型的深度排名系统可以通过我们的攻击有效地损害。尽管如此,我们的防守可以显着提高排名系统的鲁棒性,同时减轻广泛的攻击。

End-to-end reconstruction meets data-driven regularization for inverse problems
Authors Subhadip Mukherjee, Marcello Carioni, Ozan ktem, Carola Bibiane Sch nlieb
我们提出了一种无监督的学习结束来实现终结逆问题的方法。所提出的方法将经典变分框架与迭代展开组合,其基本上寻求最小化测量空间中预期变形的加权组合和重建和地面事实的分布之间的WasserSein 1距离。更具体地,变分设置中的规则器由深神经网络参数化,并与展开的重建操作员同时学习。然后通过重建展开的操作员初始化变分问题并迭代地解决,直到收敛。值得注意的是,由于通过展开的运营商获得的出色初始化,它需要较少的迭代率来融合。所得到的方法将端端结束的计算效率与变分设置的阱姿势和噪声稳定性保证结合到底展开重建。此外,我们用X射线计算断层摄影CT的示例来证明我们的方法优于艺术艺术无监督方法的状态,并且它优于或与艺术状态的胜利,监督学习的重建方法。

Multi-Exit Semantic Segmentation Networks
Authors Alexandros Kouris, Stylianos I. Venieris, Stefanos Laskaridis, Nicholas D. Lane
语义分割是作为许多视觉系统的骨干,从自动驾驶汽车和机器人导航到增强现实和电话会议。经常在有限资源信封内的严格延迟约束下运行,优化有效执行变得重要。为此,我们提出了一个框架,用于将艺术分割模型的状态转换为混乱网络的特殊培训的CNN,该网络在其深度沿着它们的深度采用参数化的早期退出,以在更容易的样本期间节省计算。设计和培训此类网络天真地伤害性能。因此,我们提出了两个分阶段的培训过程,推动了网络早期的语义重要功能。我们CO优化附加分割头的数量,放置和架构以及退出策略,以适应设备功能和应用特定要求。优化速度,混乱网络可以通过无精度地降级实现最高可达2.83倍的延迟增益。因此,在相同的计算预算下,优化准确性,达到高达5.33磅的改善。

Self-supervised Depth Estimation Leveraging Global Perception and Geometric Smoothness Using On-board Videos
Authors Shaocheng Jia, Xin Pei, Wei Yao, S.C. Wong
近年来,自我监督的深度估计绘制了很多关注,因为它不需要标记的数据而是图像序列。此外,它可以方便地用于各种应用,例如自主驾驶,机器人,现实导航和智能城市。然而,从图像中提取全局上下文信息并预测几何自然深度图仍然具有挑战性。在本文中,我们借助我们深度的Linformer块同时提取全局和局部特征的DLNET进行DLNET。该块包括Linformer和创新的软分裂多层Perceptron块。此外,提出了三维几何平滑度损失来通过对预测的三维点云施加二阶平滑度约束来预测几何自然深度图,从而实现改进的性能作为副产品。最后,我们探讨了多种规模预测策略,提出了用于进一步性能改进的最大保证金双模预测策略。在Kitti和Make3D基准测试的实验中,所提出的DLNET将分别为最先进的方法,减少时间和空间复杂性分别为62和56来实现性能。对各种现实世界情况的广泛测试进一步展示了所提出的模型的强大实用性和泛化能力。

The Distance Transform and its Computation
Authors Tilo Strutz
距离变换是用于许多不同应用的图像处理技术。与二进制图像相关,一般思想是确定所有背景点到最近对象点的距离,反之亦然。在本教程中,使用示例详细解释不同的方法并使用示例进行比较。提供了相应的源代码以促进自己的调查。本教程的特定目的是阐明任意距离变换和精确的欧几里德距离变换之间的差异。

Efficient training for future video generation based on hierarchical disentangled representation of latent variables
Authors Naoya Fushishita, Antonio Tejero de Pablos, Yusuke Mukuta, Tatsuya Harada
生成视频预测给定序列的未来是近年来积极研究的一个领域。然而,重要的问题仍然是未解决的大多数方法需要大量的计算成本和用于训练的内存使用情况。在本文中,我们提出了一种新的方法,用于产生未来的内存使用量的未来预测视频而不是传统方法。这是朝向具有高图像质量的视频的路径中的临界踩踏石,类似于图像生成领域的最新作品中所生成的图像的临界石头。我们通过在两个阶段1图像重建中培训我们的方法来实现高效率,以将视频帧编码为潜在变量,以及2个潜在的变量预测来生成未来序列。我们的方法通过根据其分层结构分解每个帧来实现视频压缩到低维潜变量。也就是说,我们认为视频可以分成背景和前景对象,并且每个对象独立地保持时间变化和时间信息。我们的实验表明,即使对于无法通过以前的方法处理的复杂数据集,所提出的方法也可以有效地生成未来的预测视频。

Self-Supervision & Meta-Learning for One-Shot Unsupervised Cross-Domain Detection
Authors F. Cappio Borlino, S. Polizzotto, A. D Innocente, S. Bucci, B. Caputo, T. Tommasi
深度检测模型在很大程度上被证明是在受控设置中非常强大,但在看不见的域上的架子上涂抹在架子上时显得脆弱并失败。开发用于修改此问题的所有自适应方法都在培训时访问可大量的目标样本,当目标未知时不适合的策略,其数据无法提前使用。例如,考虑从社交媒体上监视图像馈送的任务,因为每个图像都上传到不同的用户,它属于在培训期间不可能预见到不同的目标域。我们的工作解决了这个设置,呈现了一个对象检测算法,其能够通过仅在测试时间内看到的一个目标样本来执行跨域的无监督适应性。我们介绍了一个多任务架构,即通过迭代解决它的自我监督任务来拍摄一个射击对任何传入样本。我们进一步利用META学习来模拟单个样本跨域学习剧集,并更好地对准测试条件。此外,跨任务伪标记过程允许专注于图像前景并增强适应过程。针对最近的跨域检测方法和详细消融研究的彻底基准分析显示了我们方法的优势。

Exploiting Emotional Dependencies with Graph Convolutional Networks for Facial Expression Recognition
Authors Panagiotis Antoniadis, Panagiotis P. Filntisis, Petros Maragos
在过去的几年里,深入学习方法在许多面部相关任务中显示出显着的结果,包括野外的自动面部表情识别焦点。与此同时,心理学界提出了众多模型,描述了人类情绪状态。但是,我们没有明确的证据表明,这是更合适的,大多数FER系统使用的影响或维度模型。灵感来自最近在多标签分类中的工作,本文提出了一种新的多任务学习MTL框架,其利用图形卷积网络GCN识别野外的面部表情来利用这两个模型之间的依赖性。具体地,在MTL设置中的离散和连续识别中学习共享特征表示。此外,面部表情分类器和价值唤醒回归通过GCN学习,该GCN明确地捕获它们之间的依赖关系。为了评估我们在真实世界条件下的方法的性能,我们培训我们在EffectNet数据集上培训我们的模型。我们的实验结果表明,我们的方法优于离散FER的现有技术的当前状态。

FINet: Dual Branches Feature Interaction for Partial-to-Partial Point Cloud Registration
Authors Hao Xu, Nianjin Ye, Shuaicheng Liu, Guanghui Liu, Bing Zeng
数据关联在点云注册中很重要。在这项工作中,我们建议通过在特征提取阶段的源和参考云之间引入特征交互来解决部分地注册,从而可以在没有显式掩模估计或注意事项的情况下实现注册以前所采用的重叠检测。具体地,我们呈现FinEt,基于特征交互的结构,具有能够使能和加强在多个阶段之间相关联的信息。为实现这一目标,我们首先将特征分成两个组件,一个组件,一个用于旋转和一个用于翻译,基于它们属于不同的解决方案空间,产生双分支结构。其次,我们在数据关联的特征提取器中插入多个交互模块。第三,我们提出了一种转型敏感性损失,以获得旋转细节和翻译细节。实验表明,与传统和基于学习的方法的状态相比,我们的方法具有更高的精度和鲁棒性。

Shape As Points: A Differentiable Poisson Solver
Authors Songyou Peng, Chiyu Max Jiang, Yiyi Liao, Michael Niemeyer, Marc Pollefeys, Andreas Geiger
近年来,由于其表达性和灵活性,神经隐式表示在3D重建中获得了普及。但是,神经隐式表示的隐式性质导致缓慢的推理时间,并且需要仔细初始化。在本文中,我们重新审视经典但无处不在的点云表示,并使用泊松表面重建PSR的可分辨率配方引入对网格层的可分化点,其允许GPU加速指示灯函数的快速解决方案。可微分的PSR层允许我们通过隐式指示器字段有效地和分散地桥接与3D网格的显式3D点表示,使结束于诸如倒角距离的表面重建度量的结束优化。点和网格之间的这种二元性因此允许我们以面向点云表示形状,这是明确的,轻量级和富有表现力的。与神经隐式表示相比,我们的形状为点SAP模型是更可解释,轻量级的,并通过一个级别加速推理时间。与其他显式表示相比,如点,贴片和网格,SA​​P产生拓扑无止境,水密歧管表面。我们展示了SAP对无知点云和基于学习的重建的表面重建任务的有效性。

supervised adptive threshold network for instance segmentation
Authors Kuikun Liu, Jie Yang, Cai Sun, Haoyuan Chi
目前,实例分割在机器学习区域中吸引了越来越多的注意。然而,在先前的掩码R CNN和其他网络模型中存在一些缺陷。在本文中,我们提出了监督自适应阈值网络,例如分段。具体地,我们采用基于自适应阈值的掩模R CNN方法,并通过建立分层自适应网络结构,它在掩模RCNN生成的概率图上执行自适应二值化,以获得更好的分割效果并降低误差率。同时,自适应特征池设计用于使网络的不同层之间的传输更加准确,有效,降低特征传输过程中的损耗,并进一步改进掩模方法。基准数据集的实验表明所提出的模型的有效性

Unsupervised Learning for Cuboid Shape Abstraction via Joint Segmentation from Point Clouds
Authors Kaizhi Yang, Xuejin Chen
表示复杂的3D对象作为简单的几何基元,称为形状抽象,对于几何建模,结构分析和形状合成是重要的。在本文中,我们提出了一种无监督的形状抽象方法来将点云映射到紧凑的长方体表示。我们共同预测,作为零件分割和长方体形状,并强制实施分割与自学抽象之间的一致性。对于长方体抽象任务,我们使用变化自动编码器网络将输入点云转换为一组参数长方体。分割网络将每个点分配到考虑点长方体亲和力的长方体中。如果没有手动注释点云,我们设计四种新颖的损失,以在几何相似性和长方体致密度方面共同监督两个分支机构。我们在多种形状集中评估我们的方法,并展示其在现有形状抽象方法上的优越性。此外,基于我们的网络架构和学习的表示,我们的方法支持包括结构化形状生成,形状插值和结构形状聚类的各种应用。

Channel DropBlock: An Improved Regularization Method for Fine-Grained Visual Classification
Authors Yifeng Ding, Shuwei Dong, Yujun Tong, Zhanyu Ma, Bo Xiao, Haibin Ling
将对象的子类别从同一超级类别进行分类,例如,在细粒度的视觉分类FGVC任务中的鸟类高度依赖于采矿多种辨别特征。现有方法主要通过引入注意机制来定位辨别部分或特征编码方法来提取歧视的时尚以弱监督的方式提取高度参数化特征来解决这个问题。在这项工作中,我们提出了一种名为Channel Dropblock CDB的轻量级又有效的正则化方法,与两个替代相关度量组合,以解决此问题。关键的想法是在训练期间随机掩盖一组相关频道,以毁坏CO适应,从而增强特征表示。在三个基准FGV数据集上进行广泛的实验表明,CDB有效提高了性能。

Source-Free Open Compound Domain Adaptation in Semantic Segmentation
Authors Yuyang Zhao, Zhun Zhong, Zhiming Luo, Gim Hee Lee, Nicu Sebe
在这项工作中,我们介绍了一个新的概念,命名为Source Free Open Compound Domain Adaption SF OCDA,并在语义细分中研究。 SF OCDA比传统领域适应更具挑战性,但它更加实用。它共同考虑了数据隐私和数据存储的问题,以及2个方案的多个目标域和不均义的开放域。在SF OCDA中,只有源预训练模型和目标数据可以学习目标模型。该模型在目标和看不见的域的样本上进行评估。为了解决这个问题,我们通过将培训过程分为两个阶段1预先培训了一个有效的框架,以预先培训具有自我监督学习的广义源模型和2。在我们的框架中,我们提出了交叉补丁样式交换CPS,以使特征级别的各种补丁样式多样化样品,这可以使两个阶段的培训受益。首先,CPS可以显着提高源模型的泛化能力,为后期阶段提供更准确的伪标签。其次,CPS可以减少嘈杂的伪标签的影响,并且还避免了在自我监督学习期间对目标域的模型过度接受,始终如一地提高目标和开放域的性能。实验表明,我们的方法在C驾驶数据集上产生最新的技术结果。此外,我们的模型还实现了域泛化的城市景观的主要性能。

Multi-Target Domain Adaptation with Collaborative Consistency Learning
Authors Takashi Isobe, Xu Jia, Shuaijun Chen, Jianzhong He, Yongjie Shi, Jianzhuang Liu, Huchuan Lu, Shengjin Wang
由于现实世界图像上的像素级别注释的高成本,最近对语义分割任务的无监督域适应已经变得越来越受欢迎。但是,大多数域适应方法仅限于单源单个目标对,并且不能直接扩展到多个目标域。在这项工作中,我们提出了一个协作的学习框架来实现无监督的多目标域适应。首先为每个源目标对训练一个无监督的域适配专家模型,并进一步鼓励通过在不同目标域之间建立的桥梁彼此协作。通过添加与具有相同结构化上下文的每个样本的一致像素明智的预测的正则化进一步改进了这些专家模型。要获得跨多个目标域工作的单个模型,我们建议同时学习一个学生模型,该模型不仅验证了对应的目标域上的每个专家的输出,而且还通过正规化拉动彼此的不同专家在他们的体重。广泛的实验表明,所提出的方法可以有效利用包含在标记的源域和多个未标记的目标域中的丰富的结构化信息。它不仅跨多个目标域表现良好,而且还对艺术域无监督域适配方法的艺术状态进行了有利的,而且在单一源目标对上专门培训

Resolution learning in deep convolutional networks using scale-space theory
Authors Silvia L.Pintea, Nergis Tomen, Stanley F. Goes, Marco Loog, Jan C. van Gemert
深度卷积神经网络中的分辨率CNN通常通过过滤尺寸的接收场大小,并在特征图上的冲击层或冲击卷积。根据数据集,最佳分辨率可能显着变化。现代CNNS硬编码其在网络架构中的分辨率超参数,这使得调整此类超参数麻烦。我们建议脱离硬编码分辨率的超参数,并旨在从数据中学习适当的分辨率。我们使用刻度空间理论来获得滤波器的自类似参数化,并利用N个喷射截断的泰勒序列,以通过学习的高斯衍生滤光片的学习组合来近似滤波器。高斯基础的参数Sigma控制滤波器编码的详细量和过滤器的空间范围。由于Sigma是一个连续参数,我们可以在损失方面优化它。当在最先进的架构中使用时,所提出的N喷射层可实现相当的性能,同时自动在每个层中学习正确的分辨率。我们在分类和分割方面评估我们的N喷射层,我们表明学习Sigma对多种尺寸的输入特别有益。

DINs: Deep Interactive Networks for Neurofibroma Segmentation in Neurofibromatosis Type 1 on Whole-Body MRI
Authors Jian Wei Zhang, Wei Chen, K. Ina Ly, Xubin Zhang, Fan Yan, Justin Jordan, Gordon Harris, Scott Plotkin, Pengyi Hao, Wenli Cai
神经纤维瘤病1型NF1是一种常染色体显性肿瘤倾斜综合征,涉及中央和周围神经系统。神经纤维瘤的准确检测和分割对于评估肿瘤负荷和纵向肿瘤大小的变化是必不可少的。自动卷积神经网络CNNS敏感,易受肿瘤变性解剖位置和MRI的异质外观。在这项研究中,我们提出了深度互动网络浸入以解决上述限制。用户相互作用指导模型以识别复杂的肿瘤并快速适应异质肿瘤。我们介绍了一个简单但有效的指数距离变换expdt,将用户交互转换为先前被视为空间和外观的指南地图。 EXPDT与流行的欧几里德和测地距离相比,对各种图像尺寸更加强大,可以保留交互式输入的分布。此外,为了增强肿瘤相关特征,我们设计一个深的交互模块,将导向器传播到更深层面。我们在NF1患者的三个MRI数据集上培训和评估浸渍。实验结果分别在与自动化和其他交互方法相比,在DSC比较44和14的显着改善。我们还通过传统交互方法进行比较时,通过实验证明浸入效率降低了用户负担。我们的方法的源代码可用于URL

ContourRender: Detecting Arbitrary Contour Shape For Instance Segmentation In One Pass
Authors Tutian Tang, Wenqiang Xu, Ruolin Ye, Yan Feng Wang, Cewu Lu
例如分割的直接轮廓回归是一个具有挑战性的任务。以前的作品通常通过学习逐渐改进轮廓预测或采用具有有限表现力的形状表示来实现它。在这项工作中,我们认为,在一个通行证中回归轮廓点的难度主要是由于在将光滑轮廓离散到多边形时的模糊性。为了解决歧义,我们提出了一种名为TextBF Contourrender的新颖可分辨率渲染方法。在训练期间,首先预测由可逆形状签名产生的轮廓,然后通过将其转换为轮廓网并将网格渲染到2D地图来利用更稳定的轮廓优化轮廓。

ViTAE: Vision Transformer Advanced by Exploring Intrinsic Inductive Bias
Authors Yufei Xu, Qiming Zhang, Jing Zhang, Dacheng Tao
由于它们使用自我注意机制建模长距离依赖性的强大能力,变压器在各种计算机视觉任务中表现出很大的潜力。然而,视觉变压器将图像视为1D视觉令牌的序列,缺乏内在的电感偏置IB,用于建模局部视觉结构并处理比例方差。或者,它们需要大规模的培训数据和更长的培训计划来隐含地学习IB。在本文中,我们提出了一种新的视觉变压器,通过探索来自卷积的内在IB,即简化。从技术上讲,vitae有几个空间金字塔减少模块,通过使用具有不同扩张速率的多个卷积来将输入图像与丰富的多尺度上下文嵌入到令牌中。以这种方式,它获取内在规模的不变性IB,并且能够为各种比较的对象学习强大的特征表示。此外,在每个变压器层中,Vitae具有与多头自我注意模块平行的卷积块,其特征融合并馈入前馈网络。因此,它具有内在的位置IB,并且能够协同学习本地特征和全局依赖性。想象成的实验以及下游任务证明了基线变压器和并发作品上的知识的优越性。源代码和预用型号将在GitHub上获得。

Wide-Baseline Relative Camera Pose Estimation with Directional Learning
Authors Kefan Chen, Noah Snavely, Ameesh Makadia
在两个图像之间回归相对相机姿势的现代深度学习技术难以处理具有挑战性的场景,例如大型摄像机运动,导致图像之间留下很少重叠的遮挡和显着变化。即使是大型监督培训数据集的利益,这些模型也在继续奋斗。为了解决这些模型的局限性,我们采用了通过估计关键点位置的离散分布来提高2D和3D技术的启发。类似地,在本文中,我们通过改善相机姿势的离散分布来探索改进的相机姿势回归。为了实现这个想法,我们介绍了DirectionNet,其使用新颖的参数化估计了5D相对姿势空间上的离散分布,以使估计问题发布。具体而言,方向网络将由3D旋转和翻译方向指定的相对相机姿势,进入一组3D方向向量。由于可以用球体上的点识别3D方向,因此定向网络估计球体上的离散分布作为其输出。我们评估了从attryPort3D和Interiornet构建的挑战合成和真实姿态估算数据集的挑战性和真实姿态估算集。有希望的结果显示出直接回归方法误差的近50次减少。

SelfDoc: Self-Supervised Document Representation Learning
Authors Peizhao Li, Jiuxiang Gu, Jason Kuen, Vlad I. Morariu, Handong Zhao, Rajiv Jain, Varun Manjunatha, Hongfu Liu
我们提出了Selfoc,一项任务不可知的文档图像理解训练框架。由于文档是多式联数的,并且旨在顺序读数,我们的框架利用文档中每个语义有意义的组件的位置,文本和视觉信息,并且它模拟了每个内容块之间的上下文化。与现有文档预培训模型不同,我们的模型是粗粒粒度,而不是将单个单词视为输入,因此避免过度细微粗糙,具有过度的上下文化。除此之外,我们在模型预训练阶段引入跨模型学习,以充分利用未标记文件的多模式信息。对于下游使用,我们提出了一种通过自适应地强调语言和视觉信号来提出一种用于多模式特征融合的模型自适应机制。我们的框架从自我监督的预训练中获益于文件,而无需通过一个特征掩蔽培训策略的注释。它在与以前的作品相比,在预训练阶段中使用的文档图像的多个下游任务的卓越性能达到了多个下游任务。

Contextual Guided Segmentation Framework for Semi-supervised Video Instance Segmentation
Authors Trung Nghia Le, Tam V. Nguyen, Minh Triet Tran
在本文中,我们在三次通过中提出了用于视频实例分段的上下文引导分段CGS框架。在第一传递中,即预览分段,我们提出了实例RE识别流以估计每个实例的主要属性即,通过将其预览掩模传播到其他帧来估计每种实例的主要属性。在第二次通过,即上下文分段,我们引入多个上下文分段方案。对于人类实例,我们在框架中开发骨架导向分割以及对象流程,以纠正并优化帧的结果。对于非人类实例,如果实例的外观具有很大的变化,并且属于可以从初始掩码推断的已知类别,我们采用实例分段。如果非人类实例几乎是刚性的,则从视频序列的第一帧培训FCNS上的合成图像。在最终通行证中,即,引导分割,我们开发了一个关于非矩形地区的新罚粒细分方法ROI。通过从电流的邻居框架施加引导注意来产生自然形ROI,以减少不同重叠实例的分割中的模糊性。前向掩码传播之后是后向掩码传播,以进一步恢复由于RE出现的实例,快速运动,遮挡或重型变形而进一步恢复丢失的实例片段。最后,每个帧中的实例是基于其深度值合并的,以及人类和非人类对象交互以及罕见的实例优先级。对Davis测试挑战数据集进行的实验证明了我们提出的框架的有效性。我们在2019年达维斯挑战2019年始终如一,分别在全球得分,区域相似性和轮廓准确性方面始终如一地持续达到2019年2019年。

A Comprehensive Survey on Image Dehazing Based on Deep Learning
Authors Jie Gui, Xiaofeng Cong, Yuan Cao, Wenqi Ren, Jun Zhang, Jing Zhang, Dacheng Tao
雾度的存在显着降低了图像的质量。研究人员设计了各种算法,用于图像去吸附ID,以恢复朦胧图像的质量。然而,很少有研究总结了基于深入的学习DL的脱水技术。在本文中,我们对最近提出的脱水方法进行了全面的调查。首先,我们总结了常用的数据集,丢失功能和评估度量。其次,我们将ID的现有研究分为两个主要类别监督ID和无监督ID。介绍了各种影响脱水模型的核心思路。最后,指出了未来的ID研究的开放问题。

Exploring to establish an appropriate model for mage aesthetic assessment via CNN-based RSRL: An empirical study
Authors Ying Dai
为了建立适当的照片美学评估模型,本文介绍了反映CNN的最终层FC节点的解剖程度的D度量。通过将F测量与D度量组合以获得FD测量,提出了一种确定基于CNN基于CNN的多拍摄照片评分预测模型的最佳模型的算法。此外,定义和计算模型的第一固定透视FFP和评估兴趣区域空气。实验结果表明,FD测量有效地从具有不同CNN结构的多评分预测模型建立适当的模型。此外,与相对高FD的FD确定的最佳模型总是具有与享受照片时接近人类美学感知的FFP空气。

Video Instance Segmentation using Inter-Frame Communication Transformers
Authors Sukjun Hwang, Miran Heo, Seoung Wug Oh, Seon Joo Kim
我们提出了一种基于变压器的视频实例分段VI的结束结束解决方案。最近,每个剪辑管道显示出从多个帧中利用更丰富的信息的帧方法对卓越的性能。然而,以前的每个剪辑模型需要沉重的计算和内存使用,以实现帧到帧通信,限制实用性。在这项工作中,我们提出了帧间帧通信变换器IFC,其通过有效地编码输入剪辑内的上下文,显着降低了在帧之间传递的信息的开销。具体地,我们建议利用简洁的存储令牌作为传送信息的平均值以及总结每个帧场景。通过在精确编码的存储器令牌之间交换信息,每帧的特征与其他帧富集和相关。我们在最新的基准集上验证了我们的方法,并在使用离线推理的情况下,实现了在YouTube VIS 2019 VAL上的最新状态AP 44.6的状态,同时具有相当快的运行时89.4 FPS。我们的方法也可以应用于在线推理附近,只用小延迟处理视频。代码将可用。

Video Imprint
Authors Zhanning Gao, Le Wang, Nebojsa Jojic, Zhenxing Niu, Nanning Zheng, Gang Hua
基于所提出的视频版本压印表示,提出了一种新的统一视频分析框架ER3,用于复杂的事件检索,识别,识别和回顾,该视频压印表示,该视频帧跨越视频帧的图像特征之间的时间相关性。通过视频版本压印表示,它方便地将映射回到视频帧中的时间和空间位置,允许在每个帧内的密钥帧标识和密钥区域定位。在所提出的框架中,专用特征对准模块结合用于跨帧的冗余移除以产生张量表示,即视频版本。随后,视频版本被单独地馈送到推理网络和特征聚合模块,分别用于事件识别回忆和事件检索任务。由于引起了语言建模中使用的内存网络的引起的引起的机制,所提出的推理网络能够同时进行事件类别识别和事件叙述的关键证据的本地化。此外,我们推理网络中的潜在结构突出显示视频版本的区域,可以直接用于事件回忆。利用事件检索任务,从视频版本汇总的紧凑型视频表示有助于更好地检索结果,而不是现有的现有方法。

Highlighting the Importance of Reducing Research Bias and Carbon Emissions in CNNs
Authors Ahmed Badar, Arnav Varma, Adrian Staniec, Mahmoud Gamal, Omar Magdy, Haris Iqbal, Elahe Arani, Bahram Zonooz
卷积神经网络CNNS在解决计算机视觉中的主要挑战方面变得普遍。研究人员不仅提出了新的CNN架构,而且还研究了改善现有架构性能的不同技术。然而,在忽视某些重要变量的同时,倾向于强调性能改善,例如简单,多功能性,比较的公平性和能效。在架构设计和评估中俯瞰这些变量导致研究偏见和显着负面的环境影响。此外,这可能会破坏研究使用深层学习模型来解决气候变化的积极影响。在这里,我们对许多提出的技术进行了广泛和公平的实证研究,以衡量每种技术的效用进行分割和分类。我们的调查结果重申了在模型设计冬季剃刀方面赞同复杂性的重要性。此外,我们的结果表明,简单的标准化实践可能导致对环境影响的显着降低,表现较小。我们强调,需要重新思考CNNS的设计和评估,以减轻研究偏见和碳排放问题。

Few-shot segmentation of medical images based on meta-learning with implicit gradients
Authors Rabindra Khadga, Debesh Jha, Sharib Ali, Steven Hicks, Vajira Thambawita, Michael A. Riegler, P l Halvorsen
常用的经典监督方法经常遭受训练样本的限制数量的要求,并且无法在看不见的数据集上概括。结果,在临床环境中,任何培训模型的更广泛应用非常有限。然而,很少有射击方法可以最大限度地减少对既有劳动密集型和昂贵的巨大可靠地理标签的需求。为此,我们建议利用基于优化的隐式模型不可知符元学习IMAML算法,用于医学图像分割的几个拍摄设置。我们的方法可以利用来自各种培训样本的学习权重,并且可以部署在新的看不见的数据集上。我们表明,与古典少量射击学习方法不同,我们的方法具有改善的泛化能力。为了我们的知识,这是第一个利用IMAML了解医学图像分割的工作。我们在公开的皮肤和息肉数据集上的定量结果表明,所提出的方法优于天真监督的基线模型和最近几个射击分割方法的大幅度。

Alpha Matte Generation from Single Input for Portrait Matting
Authors Dogucan Yaman, Haz m Kemal Ekenel, Alexander Waibel
肖像消光是一种重要的研究问题,具有广泛的应用程序,如视频会议应用程序,图像视频编辑和后期生产。目标是预测α遮罩,其识别每个像素对前台主题的效果。传统方法和大多数现有作品利用额外的输入,例如Trimap,背景图像,以预测alpha遮罩。但是,提供额外的输入并不总是实用的。此外,模型对这些附加输入太敏感。在本文中,我们介绍了一种使用生成的对冲网GANS进行纵向消光的额外输入的方法。我们将主要任务划分为两个子任务。为此,我们提出了用于人分割的分割网络和用于alpha遮罩预测的alpha生成网络。虽然分割网络采用输入图像并产生粗略分割图,但是alpha生成网络利用相同的输入图像以及由分割网络产生的粗略分割图以预测α遮罩。此外,我们呈现了一个分割编码块来对粗略分割映射下映射并提供给残差块的特征表示。此外,我们提出了边境损失,以单独惩罚受试者的边界,这更有可能具有挑战性,我们还适应画像消失的感知损失。要培训所提出的系统,我们将两个不同的流行训练数据集组合以提高数据量以及多样性,以解决推理时间中的域移位问题。我们在三个不同的基准数据集中测试了我们的模型,即Adobe图像消光数据集,纵向消光数据集和DISTINGS数据集。该方法优于Modnet方法,该方法也需要单个输入。

Combinatorial Optimization for Panoptic Segmentation: An End-to-End Trainable Approach
Authors Ahmed Abbas, Paul Swoboda
我们提出了结束于最终培训架构,用于同时语义和实例分割A.K.A.由卷积神经网络和非对称多道切割问题解决者组成的Panoptic分段。后者解决了组合优化问题,优雅地融入了语义和边界预测,以产生Panoptic标签。我们的配方允许通过优化问题反向衰减梯度来直接最大化Panoptic质量指标的平滑替代。实验评估显示结束到终学习的完善W.R.T. Citycapes和Coco Datasets上的可比方法。总体而言,我们的方法显示了在挑战大规模现实世界问题中使用组合优化的效用,在挑战大规模的大规模现实世界问题中,展示了培训这种建筑结束的培训和见解。

Transformer in Convolutional Neural Networks
Authors Yun Liu, Guolei Sun, Yu Qiu, Le Zhang, Ajad Chhatkuli, Luc Van Gool
我们解决了多头自我关注MHSA的高计算空间复杂性引起的视觉变压器的低效率漏洞。为此,我们提出了分层MHSA H MHSA,其表示以分层方式计算。具体而言,我们的H MHSA首先通过将图像修补程序视为令牌来了解小网格中的功能关系。然后,将小网格合并到更大的网格中,通过将前一步的每个小网格视为令牌来学习特征关系。该过程迭代逐渐减少令牌的数量。 H MHSA模块易于可插入任何CNN架构,并通过BackProjagation进行培训。我们称之为新的骨干网,它基本上继承了变压器和CNN的优势。实验表明,Transcnn实现了用于图像识别的技术精度的状态。可以使用代码和预磨料模型

Feature-based Style Randomization for Domain Generalization
Authors Yue Wang, Lei Qi, Yinghuan Shi, Yang Gao
作为最近的一个明显的主题,域泛化DG旨在首先在多个源域中学习通用模型,然后直接概括到任意看不见的目标域,而无需任何额外的适应。在以前的DG模型中,通过生成虚拟数据以补充观察到的源极域,基于数据的数据增强的方法显示了其有效性。为了模拟可能的看不见的域,其中大多数通过图像级式变换来丰富原始数据的多样性。但是,我们认为,由于引用风格有限,难以彻底地说明和完全增强潜在风格,不能始终保证导致多样性。与图像级别增强不同,我们在本文中开发了一个简单但有效的功能的样式随机化模块,实现了功能级别增强,这可以通过将随机噪声集成到原始样式中产生随机风格。与现有的图像级别增强相比,我们的特征级别增强有利于更具目标和样本不同的方式。此外,为了充分探索所提出的模块的功效,我们设计了一种新颖的渐进培训策略,使网络的所有参数都能完全培训。与三个标准基准数据集,即PACS,VLC和Office Home的广泛实验,与最先进的方法相比,突出了我们方法的优越性。

Transformed ROIs for Capturing Visual Transformations in Videos
Authors Abhinav Rai, Fadime Sener, Angela Yao
建模动作为某场景的视觉变化对视频理解至关重要。目前,CNNS一次处理一个本地社区,因此较长范围内的上下文关系,而仍然是可学习的间接。我们在中间级别的特征表示之间呈现Troi,即插即用模块,以在空间和时间分开的中间级别特征表示。该模块涉及局部视觉实体,例如手和交互对象,并直接在卷积层的特征图中转换它们的相应感兴趣区域。通过TROI,我们达到了艺术行动识别结果的状态,在大规模数据集上的一些v2和史诗厨房100。

Learning Video Models from Text: Zero-Shot Anticipation for Procedural Actions
Authors Fadime Sener, Rishabh Saraf, Angela Yao
我们可以教授机器人识别和做出预测,以便在我们通过学习来自文本的视频模型来解决这个问题之前从未见过的活动。本文介绍了一个分层模型,概括了大规模文本语料库的教学知识,并将知识转移到视频。鉴于一部分教学视频,我们的模型承认并预测了一致的和合理的行动将来多个步骤,所有这些都是丰富的自然语言。为了展示我们模型的能力,我们介绍了EMPH美味的视频数据集V2,零射击学习,识别和预期的4022个食谱。对于各种评估度量的广泛实验证明了我们泛化方法的潜力,给定有限的培训模型的视频数据。

Technical Report: Temporal Aggregate Representations
Authors Fadime Sener, Dibyadip Chatterjee, Angela Yao
本技术报告扩展了我们在9中介绍的工作,更有实验。 9,我们解决长期视频理解,需要推理当前和过去或未来的观察,并提高了几个基本问​​题。应该如何建模时间或顺序关系,需要在终止时间范围内处理信息范围和上下文的时间范围9与灵活的多粒时间聚合框架解决这些问题。在本报告中,我们在不同的任务和新数据集,史诗厨房100上进行此框架进行进一步的实验。

Large-scale Unsupervised Semantic Segmentation
Authors Shang Hua Gao, Zhong Yu Li, Ming Hsuan Yang, Ming Ming Cheng, Junwei Han, Philip Torr
由ImageNet DataSet提供支持,对大规模数据的无监督学习已经对分类任务进行了重大进展。允许分割任务的这种有吸引力的学习模式有两个主要挑战我对评估算法的大规模基准缺少II无监督的形状表示学习是困难的。我们提出了一个新创建的基准数据集的大规模无监督语义分割鼠标的新问题,以跟踪研究进展。基于ImageNet DataSet,我们提出了Imagenet的数据集,具有120万次训练图像和40K高质量的语义分段注释进行评估。我们的基准测试具有高数据分集和明确的任务目标。我们还提出了一种简单但有效的基线方法,对LASS令人惊讶地工作。此外,我们基准与联合国无弱监督的方法相应地,识别LASS的挑战和可能的方向。

Oriented Object Detection with Transformer
Authors Teli Ma, Mingyuan Mao, Honghui Zheng, Peng Gao, Xiaodi Wang, Shumin Han, Errui Ding, Baochang Zhang, David Doermann
具有变压器DETR的对象检测已经实现了传统探测器的竞争性能,例如更快的R CNN。然而,对于任意面向对象检测问题的更具挑战性的任务,DETR的潜力基本上是未开发的。我们提供第一次尝试并利用变压器BF O 2Detr基于端到端网络实现面向对象检测。 RM O 2Detr包括1的贡献,我们通过将变压器直接和有效地本地化对象,在传统的检测器2中,通过将变压器直接和有效地本地化对象,提供了对面向对象检测的新洞察。用深井可分离卷积取代注意机制,这可以显着降低在原始变压器3中使用多尺度特征的存储器和计算成本,我们的RM O 2Detr可以是面向对象检测领域的另一个新基准,这实现了高达3.85通过更快的R CNN和RetinAnet进行地图改进。我们只需在级联架构中调整安装在RM O 2点头上的头部,并在DotA数据集中实现了SOTA的竞争性能。

3D Convolution Neural Network based Person Identification using Gait cycles
Authors Ravi Shekhar Tiwari, Supraja P, Rijo Jackson Tom
人类识别在安全方面发挥着突出的作用。在现代,安全正成为个人或国家的关键期限,特别是对于面临内部或外部威胁的国家。步态分析被解释为人类机车的系统研究。它可用于提取个人的确切行走功能。步行功能取决于生物学以及物体的物理特征,因此每个人都是独一无二的。在这项工作中,步态功能用于识别个人。这些步骤涉及对象检测,背景减法,剪影提取,骨架化和培训3D卷积神经网络对这些步态特征。该模型在Casia B步态获取的数据集上进行培训和评估,该数据集由15000个拍摄的124个受试者行走模式的视频组成,从11种不同的角度携带袋子和涂层捕获物体。所提出的方法在下半身部分上侧重于提取特征,例如膝盖和大腿之间的角度,臀部角度,接触角和许多其他特征。将实验结果与剪影的准确性相比,作为培训和骨架图像的数据集作为训练数据。结果表明,从骨架化数据中提取信息产生提高了精度。

Go with the Flows: Mixtures of Normalizing Flows for Point Cloud Generation and Reconstruction
Authors Janis Postels, Mengya Liu, Riccardo Spezialetti, Luc Van Gool, Federico Tombari
最近,归一化流量NFS在建模3D点云上展示了最先进的性能,同时允许在推理时间以任意分辨率进行采样。然而,这些基于流的模型仍然需要长期的训练时间和大型模型来代表复杂的几何形状。这项工作通过将NFS的混合物应用于点云来增强它们的代表性。我们展示在更一般的框架中,每个组件都学会以完全无监督的方式专门化对象的特定子区域。通过将每个混合组件与相对小的NF实例化,我们通过基于单流基础的模型来生成具有改进的细节的点云,同时使用较少的参数,并且显着减少推理运行时。我们进一步证明通过添加数据增强,各个混合组件可以学习专门以语义上有意义的方式。基于ShapEnet​​ DataSet评估NFS对生成,自动编码和单视图重建的混合物。

MOC-GAN: Mixing Objects and Captions to Generate Realistic Images
Authors Tao Ma, Yikang Li
通过条件描述生成图像近年来增加了兴趣。然而,现有的条件输入遭受非结构化形式标题或有限的信息和昂贵的标记场景图。对于目标场景,核心项,物体通常是明确的,而他们的交互是灵活的且难以清楚地定义的。因此,我们引入更合理的设置,从对象和标题生成现实图像。在此设置下,对象显式定义目标图像中的关键角色,并且标题隐式描述其丰富的属性和连接。相应地,提出了MOC GaN,以混合两个模态的输入来产生现实图像。首先是从标题中介绍对象对之间的隐式关系,以构建隐藏状态场景图。因此,构建了包含对象,关系和标题的多层表示,其中场景图提供了场景的结构,并且标题提供了图像级引导。然后,级联的细心生成网络旨在通过关注标题中最相关的单词来粗略生成短语修补程序。此外,提出了一句明智的损坏,以更好地监督细粒子句子补丁一致性。在Coco DataSet上,我们的方法优于现有方法和FID的现有方法,同时保持高视觉质量。广泛的实验表明了我们提出的方法的独特功能。

Rethinking Training from Scratch for Object Detection
Authors Yang Li, Hong Zhang, Yu Zhang
ImageNet预训练初始化是对象检测的事实标准。他。发现可以从划痕随机初始化培训探测器,同时需要具有正确的归一化技术的培训计划。在本文中,我们探索直接对目标数据集进行培训进行对象检测。在这种情况下,我们发现广泛采用的大型调整策略如图所示。将图像调整为1333,800对于微调很重要,但没有必要进行预培训。具体地,我们提出了一种用于对象检测的新培训管道,其进行预训练和微调,利用目标数据集中的低分辨率图像以预训练检测器,然后用高分辨率图像加载到微调调谐。通过这种策略,我们可以在预训练期间使用具有大浴缸尺寸的批量标准化BN,它也可以在具有非常有限的GPU存储器11G上将其应用于机器上的记忆力。我们称之为直接检测预培训,并使用直接预训练进行短暂的。实验结果表明,直接预训练将预训练阶段加速超过11倍11倍,而甚至1.8Map与Imagenet Pre训练相比。此外,我们发现直接预培训也适用于基于变压器的骨干。 Swin变压器。代码将可用。

Uformer: A General U-Shaped Transformer for Image Restoration
Authors Zhendong Wang, Xiaodong Cun, Jianmin Bao, Jianzhuang Liu
在本文中,我们呈现了UFFORER,一种有效和高效的变换器的架构,其中我们使用变压器块构建分层编码器解码器网络以进行图像恢复。 UFFARER有两个核心设计,可以使其适合此任务。第一键元素是本地增强窗口变压器块,在那里我们使用基于非重叠窗口的自我注意,以减少计算要求,并采用馈送前向网络中的深度明智卷积,以进一步提高其捕获本地上下文的可能性。第二个关键元素是我们探索三个跳过连接方案,以有效地将信息从编码器传送到解码器。由这两个设计提供动力,UFFORER享有高能力,可用于捕获用于图像恢复的有用依赖性。关于几种图像恢复任务的广泛实验证明了UFFORER的优越性,包括图像去噪,辐射,去纹理和发散。我们预计我们的工作将鼓励进一步研究,探索基于变压器的亚太愿景任务的架构。代码和模型将可用

Deep Matching Prior: Test-Time Optimization for Dense Correspondence
Authors Sunghwan Hong, Seungryong Kim
在视觉上或在语义上建立密集的技术的传统技术集中于设计特定的匹配之前的任务,这是难以模拟的。为了克服这一点,最近的基于学习的方法已经尝试在大型训练数据上之前学习模型本身的良好匹配。表现改善是显而易见的,但需要足够的培训数据和密集学习阻碍了他们的适用性。此外,在测试时间使用固定模型不会考虑到一对图像可能需要其自身的事实,从而提供有限的性能和不良的通知来看不见的图像。在本文中,我们示出了通过仅优化在输入对图像上的未培训的匹配网络来捕获特定于图像对特定的。为密集对应的这种测试时间优化量身定制,我们呈现了一个剩余的匹配网络和信心意识的对比丧失,以保证有意义的收敛。实验表明,我们的框架,Dubbed Dub Bode的DMP,是对几何匹配和语义匹配的几个基准的最新基于基准的基于基准的最新学习方法,即使它不需要大型培训数据也不需要密集的学习。通过预培训网络,DMP在所有基准上达到最先进的性能。

Referring Transformer: A One-step Approach to Multi-task Visual Grounding
Authors Muchen Li, Leonid Sigal
作为视觉推理的重要步骤,视觉接地,例如短语本地化,参考表达理解分割已经被广泛探索了以前探讨了表达式理解REC或Semonation Res的先前接近性能,由于两个阶段设置,或者需要设计复杂任务特定的一个阶段架构。在本文中,我们提出了一个简单的一个阶段多任务框架,用于视觉接地任务。具体而言,我们利用变压器架构,其中两个模态在视觉语言编码器中融合。在解码器中,该模型学习生成上下文化语言查询,然后被解码并用于直接回归边界框并为相应的参考区域生成分割掩码。利用这种简单但高度上下文化的模型,我们在REC和RES任务中通过大型裕量优于艺术方法的状态。我们还表明,外部数据集的简单预培训计划进一步提高了性能。广泛的实验和消融说明了我们的模型从上下文信息和多任务培训都受益匪浅。

Reducing the feature divergence of RGB and near-infrared images using Switchable Normalization
Authors Siwei Yang, Shaozuo Yu, Bingchen Zhao, Yin Wang
在农业领域的视觉模式识别是航空图像处理的重要应用。在本文中,我们考虑了农业空中图像的多模态性质,并表明在不考虑特征分歧的情况下胆怯地将不同的方式结合在一起,可以导致次最佳结果。因此,我们将可切换的归一化块应用于我们的DEEPLABV3分段模型以减轻特征分歧。使用流行的对称Kullback Leibler分解措施,我们表明我们的模型可以大大降低RGB和近红外通道之间的分歧。与混合丢失功能一起,我们的模型达到了先前公布的基线的平均值近10个改进。

Neural Implicit 3D Shapes from Single Images with Spatial Patterns
Authors Yixin Zhuang, Yunzhe Liu, Baoquan Chen
从单个图像的3D形状重建一直是计算机视觉中的一个很长的问题。由于在图像捕获期间发生的信息丢失和遮挡,问题均为不良且过于挑战。与先前的学习整体形状前导者的方法相比,我们提出了一种学习空间模式前沿的方法,用于推断下面形状的隐形区域,其中隐式形状表示中的每个3D样本与手工制作生成的一组点相关联3D映射,以及他们的本地图像功能。所提出的空间模式具有显着的信息性,并对可见和闭塞位置具有独特的描述。最重要的是,我们工作的关键是横跨形状的空间模式的无处不在,这使得能够推理底层物体的隐形部分,从而大大减轻了遮挡问题。我们设计了一种整合空间模式表示的神经网络,并展示了在广泛使用的指标上提出的方法的优越性。

Multi-Level Graph Encoding with Structural-Collaborative Relation Learning for Skeleton-Based Person Re-Identification
Authors Haocong Rao, Shihao Xu, Xiping Hu, Jun Cheng, Bin Hu
基于骨架的人RE识别RE ID是一种新兴的开放主题,为安全关键应用提供了很大的价值。现有方法通常从身体关节的轨迹提取手工制作的特征或模型骨架动力学,而它们很少探索身体结构或运动中包含的有价值的关系信息。为了充分探索身体关系,我们构建从不同层次模拟人类骷髅的图表,并且首次提出了一种具有结构协作关系学习MGCR的多级图形编码方法,以编码人物RE ID的鉴别图曲线特征。具体地,考虑到在骨架中,考虑到结构连接的主体组件高度相关,我们首先提出了一种多头结构关系层,以了解图中邻居身体部件节点的不同关系,这有助于实现有效节点表示的聚合键相关特征。其次,通过行走中的身体部件协作通常携带可识别的模式,我们提出了一种交叉级协同关系层,以推断不同级别分量之间的协作,以捕获更多辨别性的骨架图特征。最后,为了增强图形动态编码,我们提出了一种用于模型预训练的新型自我监督的稀疏连续预测任务,这有​​助于对人物重新ID编码高级图语义。 MG SCR优于现有技术的骨架方法的状态,它可以实现具有额外RGB或深度特征的许多多模态方法的性能。我们的代码可供选择

Using GANs to Augment Data for Cloud Image Segmentation Task
Authors Mayank Jain, Conor Meegan, Soumyabrata Dev
虽然云天空图像分割具有广泛的现实应用程序,但需要大量标记的数据来培训高度准确的模型来执行任务。使用相应的地面真理二进制地图的这种云天空图像的稀缺性使得训练这种复杂的图像分割模型非常困难。在本文中,我们展示了使用生成的对抗网络GAN生成数据来增强训练集的有效性,以提高图像分割模型的预测精度。我们进一步提出了一种方法来估计GaN生成的图像的基本实际映射,以便于他们有效地用作增强图像。最后,我们用不同的统计技术验证我们的工作。

Occlusion-aware Unsupervised Learning of Depth from 4-D Light Fields
Authors Jing Jin, Junhui Hou
深度估计是4 D光场处理和分析中的基本问题。虽然最近受监管的基于学习的光场深度估计方法显着提高了基于传统优化的准确性和效率,但这些方法依赖于训练与地面真理深度映射有挑战性,以获得或甚至不可用的真实世界灯现场数据。此外,由于现实世界和合成数据之间的不可避免的差距或域差异,当概括使用合成数据训练到现实世界数据的模型时,它们可能会遭受严重的性能劣化。相比之下,我们提出了一种无监督的基于学习的方法,这在培训期间不需要地面真理深度作为监督。具体而具体基于光场数据独特的几何结构的基本知识,我们提出了一种遮挡意识策略来提高遮挡区域的准确性,其中我们探讨了光场视图的子集之间的角度一致性,以估计初始深度映射,利用受约束的无监督损失来学习其对最终深度预测的相应可靠性。此外,我们采用具有加权平滑度丢失的多尺度网络来处理Textublifuel区域。合成数据的实验结果表明,我们的方法可以显着缩小先前无监督的方法和监督者之间的性能差距,并为传统方法产生可比准确性的深度图,具有明显降低的计算成本。此外,关于现实世界数据集的实验表明,我们的方法可以避免在监督方法中呈现的域移位问题,展示了我们方法的巨大潜力。

SADRNet: Self-Aligned Dual Face Regression Networks for Robust 3D Dense Face Alignment and Reconstruction
Authors Zeyu Ruan, Changqing Zou, Longhai Wu, Gangshan Wu, Limin Wang
野外的三维面部密集对准和重建是一个具有挑战性的问题,因为部分面部信息在封闭和大的姿势面部图像中常见。大头姿势变化也增加了解决方案空间并使模型更加困难。我们的主要思想是模拟遮挡和姿势,以将这一具有挑战性的任务分解为几个相对更易于管理的子任务。为此,我们建议结束结束框架,被称为自对准的双面回归网络Sadrnet,其预测姿势依赖面,姿势独立的脸部。它们通过遮挡感知自对准组合以产生最终的3D面。在两个流行的基准测试,AFLW2000 3D和佛罗伦萨的广泛实验表明,该方法在现有技术的现有状态下实现了显着的优越性。

An Adaptive Framework for Learning Unsupervised Depth Completion
Authors Alex Wong, Xiaohan Fei, Byung Woo Hong, Stefano Soatto
我们提出了一种方法来从彩色图像和相关的稀疏深度测量推断密集深度图。我们的主要贡献在于设计退火过程,用于确定CO可见性闭塞,脱胶和正规化程度,以施加模型。我们表明,正规化和CO可见性通过模型的适应性剩余与数据的健身残留相关,两者都可以统一到一个框架中以改善学习过程。我们的方法是通过在每个训练步骤中测量每个训练步骤的每个像素位置来指导优化优化的自适应加权方案,用于估计软可见性掩模和确定正则化量。我们通过将其应用于最近的一些无监督的深度完成方法并在公共基准数据集上提高其性能,而不会展示我们的方法,而不会产生额外的培训参数或推理时间增加。可用的代码

Learning Topology from Synthetic Data for Unsupervised Depth Completion
Authors Alex Wong, Safa Cicek, Stefano Soatto
我们通过利用合成数据来介绍从图像和稀疏深度测量的推断密集深度映射的方法,以学习稀疏点云与密集的自然形状,并使用图像作为证据验证预测深度图的证据。我们在自然形状之前的学到使用仅使用稀疏深度作为输入,而不是图像,因此在尝试将学习模型从合成数据转移到真实的时,该方法不受协变量的影响。这使我们能够使用与地面真相的丰富的合成数据来学习重建过程的最困难的组件,即拓扑估计,并使用图像基于光度证据来改进预测。我们的方法使用比以前的方法更少的参数,但是,在室内和室外基准数据集中实现了最先进的技术。可用的代码

Self-Damaging Contrastive Learning
Authors Ziyu Jiang, Tianlong Chen, Bobak Mortazavi, Zhangyang Wang
对比度学习实现最近实现的突破加速了在现实世界数据应用上部署无监督培训的步伐。然而,现实中的未标记数据通常是不平衡的并且显示出长尾部分布,目前尚不清楚最新的对比学习方法可以在实际情况下表现出色。本文建议通过称为自我损害对比学习SDCLR的原则框架明确解决这一挑战,而不知道课程,自动平衡代表学习。我们的主要灵感来自最近发现深层模型难以记忆样品,并且这些可能通过网络修剪暴露。它进一步自然地假设长尾样品对于模型而言,由于示例不足,学习的模型也更加艰难。因此,SDCLR中的关键创新是创建一个动态自竞争对手模型,与目标模型形成对比,这是后者的修剪版本。在培训期间,对比这两种模型将导致适应性在线挖掘当前目标模型最容易被遗忘的样本,并在对比损失中隐含地强调它们更加强调它们。跨多个数据集和不平衡设置的广泛实验表明,在全拍摄和少量拍摄设置的线性评估方面,SDCLR不仅提高了整体准确性,而且还具有平衡。我们的代码可供选择

Visual Search Asymmetry: Deep Nets and Humans Share Similar Inherent Biases
Authors Shashi Kant Gupta, Mengmi Zhang, Chia Chien Wu, Jeremy M. Wolfe, Gabriel Kreiman
视觉搜索是一项普遍存在的,经常具有挑战性的日常任务,是通过在家中寻找汽车钥匙或人群中的朋友。一些经典搜索任务的有趣特性是一种不对称性,使得在分散体B中找到目标A可以比发现B中的B.为了阐明对视觉搜索中不对称负责的机制,我们提出了一种占据目标和目标的计算模型将搜索图像作为输入,并在找到目标之前产生一系列眼睛运动。该模型将偏心依赖性视觉识别集成了目标相关的顶部提示。我们将六种范式搜索任务中的人类行为与人类的不对称性的六种范式搜索任务进行了比较。如果没有先前接触刺激或任务特定培训,该模型提供了搜索不对称的合理机制。我们假设搜索不对称的极性来自自然环境的经验。我们通过培训模型在想象中的增强版本上进行了测试了这一假设,其中自然图像的偏差被移除或逆转。根据训练协议,搜索不对称的极性消失或被改变。本研究突出了神经网络模型中可以出现古典感知性质的培养方式,而无需任务特定培训,而是由于馈送到模型的发育饮食的统计性质的结果。所有源代码和刺激都公开可用

Spectral Temporal Graph Neural Network for Trajectory Prediction
Authors Defu Cao, Jiachen Li, Hengbo Ma, Masayoshi Tomizuka
有效地理解周边代理的上下文环境和准确的运动预测对于自主车辆和社会移动机器人的发展至关重要。这项任务是具有挑战性,因为自主代理的行为不仅受到自己的意图影响,而且由静态环境和周围的动态交互代理的影响。以前的作品专注于利用时域中的空间和时间信息,同时不充分利用频域中的线索。为此,我们提出了一种光谱时间图神经网络SpectGnn,除了时域之外,可以在频域中同时捕获代理相关的相关性和时间依赖性。 Spectgnn在具有动态状态信息的代理图和环境图中运行,其中包含从两个流中的上下文图像中提取的功能。该模型集成了图形傅里叶变换,光谱图卷积和时间门控卷积,以编码历史信息和预测未来轨迹。此外,我们纳入了多头时空关注机制,以减轻误差传播在很长的时间范围内的影响。我们展示了Spectgnn对两个公共轨迹预测基准数据集的性能,这在预测准确性方面实现了最新性能的状态。

Feature Flow Regularization: Improving Structured Sparsity in Deep Neural Networks
Authors Yue Wu, Yuan Lan, Luchan Zhang, Yang Xiang
修剪是一种模型压缩方法,可以在保持精度的同时消除深神经网络DNN中的冗余参数。最可用的过滤器修剪方法需要复杂的处理,例如迭代修剪,功能统计排名,或在培训过程中的其他优化设计。在本文中,我们提出了一种简单有效的正则化策略,从功能的进化的新视角下,我们呼叫特征流正规化FFR,用于改善DNN中的结构化稀疏性和过滤器。具体地,FFR沿神经网络施加对梯度和曲率的梯度和曲率的控制,这隐含地增加了参数的稀疏性。 FFR背后的原理是,功能的连贯性和平滑演变将导致避免冗余参数的有效网络。从FFR获得的高结构稀疏性使我们能够有效地修剪过滤器。使用VGGNETS的实验,CIFAR 10 100上的RESENER和微小的想象数据集表明FFR可以显着提高非结构化和结构稀疏性。我们的修剪在减少参数和拖波方面的结果与艺术修剪方法的状态相当或甚至更好。

Dynamic Resolution Network
Authors Mingjian Zhu, Kai Han, Enhua Wu, Qiulin Zhang, Ying Nie, Zhenzhong Lan, Yunhe Wang
深度卷积神经网络CNNS通常具有复杂的设计,具有许多卷积层和学习参数,用于准确性原因。为了减轻将它们部署到移动设备上的昂贵成本,最近的作品使挖掘预定架构中的冗余造成了巨大努力。然而,尚未完全研究现代CNN的输入分辨率的冗余,即,输入图像的分辨率是固定的。在本文中,我们观察到使用相同的神经网络的准确预测给定图像的最小分辨率。为此,我们提出了一种新颖的动态分辨率网络DRNET,其中分辨率基于每个输入样本动态确定。因此,通过所需网络共同地探讨具有可忽略不计的计算成本的分辨率预测器。在实践中,预测器学习可以保留的最小分辨率,甚至超过每个图像的原始识别准确性。在推理期间,每个输入图像将被调整为其预测的分辨率,以最小化整体计算负担。然后,我们对几个基准网络和数据集进行了广泛的实验。结果表明,我们的DRNET可以嵌入在货架网络架构中的任何偏移中,以获得相当大降低的计算复杂性。例如,DRNET通过大约34个计算减少实现了类似的性能,同时增加了1.4在ImageNet上的原始Reset 50相比增加了10个计算减少的精度。

Category Contrast for Unsupervised Domain Adaptation in Visual Tasks
Authors Jiaxing Huang, Dayan Guan, Aoran Xiao, Shijian Lu
无监督代表学习的例子对比近年来取得了巨大的成功。在这项工作中,我们探讨了对无监督域适应UDA的实例对比学习的想法,并提出了一种新型对比度技术Caco,其在视觉UDA任务的实例辨别之上引入语义前瞻。通过考虑实例对比学习作为文字典查找操作,我们构建一个语义意识词,其中来自两个源和目标域的样本,其中每个目标样本都基于源样本的类别代理分配伪类标签。这允许类别查询与类别对比学学习与类别判别且域名字典中的类别级别字典从任一源或目标域中的相同类别的样本较近,而不同类别的同时被推开。多种视觉任务的广泛UDA实验例如,分割,分类和检测表明,与高度优化的现有技术相比,Caco的简单实现达到了卓越的性能。在分析和经验上,实验还证明了Caco与现有的UDA方法互补,并概括为其他学习设置,例如半监督学习,无监督的模型适应等。

RDA: Robust Domain Adaptation via Fourier Adversarial Attacking
Authors Jiaxing Huang, Dayan Guan, Aoran Xiao, Shijian Lu
无监督的域适应UDA涉及标记的源域中的监督损失以及未标记的目标领域的无监督损失,这通常面临比经典监督学习更严重的过度,因为监督源损失具有明显的域间隙,无监督的目标损失往往是嘈杂的由于缺乏注释。本文介绍了RDA,一种强大的域适应技术,介绍了对UDA中的过度装备缓解过度攻击。我们通过新型傅里叶逆势攻击FAA方法实现了强大的域改性,其允许大量的扰动噪声,但具有最小的图像语义的修改,因此由于域间隙的存在,前者对其产生的对抗性样本的有效性至关重要。具体地,FAA通过仅扰乱捕获几乎语义信息的某些FC来将图像分解成多个频率分量FCS并产生对抗性样本。通过FAA生成的样本,培训可以继续随机步行并漂移到具有平坦损失景观的区域,导致更强大的域适应。通过多个域适应任务的广泛实验表明RDA可以使用具有卓越性能的不同计算机视觉任务。

An End-to-End Breast Tumour Classification Model Using Context-Based Patch Modelling- A BiLSTM Approach for Image Classification
Authors Suvidha Tripathi, Satish Kumar Singh, Hwee Kuan Lee
研究整体幻灯片图像计算分析的研究人员在组织病理学中,由于每个WSI的大量分辨率,主要采用基于补丁的建模。由于计算限制,大量的分辨率使得直接进入机器学习模型即可。但是,由于基于补丁的分析,大多数当前方法都无法利用补丁之间的底层空间关系。在我们的工作中,我们试图将这种关系与来自特定肿瘤区域的提取的斑块之间的特征相关联。对于定分的任务,我们已经使用Bilstms来模拟前向和向后的上下文关系。基于RNN的模型通过允许在深度学习模型中建模可变尺寸图像来消除序列大小的限制。我们还通过探索用于样品贴片的不同扫描技术来融入空间连续性的影响。为了建立我们的方法的效率,我们在两个数据集,显微镜图像和WSI肿瘤区域上培训并测试了我们的模型。与当代文献进行比较后,我们以微小图像数据集的精度实现了更好的性能。对于WSI肿瘤区域数据集,我们将分类结果与诸如Reset,DenSenet和Incepionv3等深度学习网络进行了比较。我们实现了84的最高性能准确性。我们发现具有CNN特征的Bilstms在将补丁建模到结束到结束图像分类网络中的情况下更好地表现了更好。另外,WSI肿瘤区域的可变尺寸用于分类而无需调整大小。这表明我们的方法独立于肿瘤图像尺寸,并且可以在不丢失分辨率细节的情况下处理大的尺寸图像。

Convolutional Neural Networks with Gated Recurrent Connections
Authors Jianfeng Wang, Xiaolin Hu
卷积神经网络CNN已成为解决许多计算机视觉问题的基本模型。近年来,提出了一种新的CNN,经常性卷积神经网络RCNN,受到动物视觉系统的丰富反复连接的启发。 RCNN的临界元件是复发卷积层RCl,其含有标准卷积层中神经元之间的复发性连接。随着经常性计算数量越来越多的,RCL中神经元的接受田RFS不合适地扩展,这与生物学事实不一致。我们建议通过将栅极引入复发连接来调节神经元的RFS。门控制输入到神经元的上下文信息的量,因此神经元RFS变为自适应。得到的层称为门控复发卷积层GRCL。多个GRCLS构成一个名为Gated RCNN GRCNN的深层模型。在包括对象识别,场景文本识别和对象检测的几个计算机视觉任务上评估GRCNN,并获得比RCNN更好的结果。另外,当与其他自适应RF技术相结合时,GRCN在基准数据集上对本任务的基准数据集的状态表现出竞争性能。代码在HREF释放

Region-aware Adaptive Instance Normalization for Image Harmonization
Authors Jun Ling, Han Xue, Li Song, Rong Xie, Xiao Gu
图像构成在照片编辑中起着常见但重要的作用。要获得照片现实的复合图像,必须调整前景的外观和视觉风格,以与背景兼容。用于协调合成图像的现有深度学习方法直接从综合到真实的图像映射网络,无需明确探索背景和前台图像之间的视觉样式一致性。为了确保前景与背景之间的视觉风格一致性,在本文中,我们将图像协调视为风格转移问题。特别是,我们提出了一个简单但有效的区域意识的自适应实例标准化雨模块,它明确地从背景中制定了视觉风格,并自适应地将它们应用于前景。通过我们的设置,我们的雨模块可以用作现有图像协调网络的模块中的下降,并且能够带来显着的改进。对现有图像协调基准数据集的广泛实验显示了该方法的优异能力。代码可用

Patch Slimming for Efficient Vision Transformers
Authors Yehui Tang, Kai Han, Yunhe Wang, Chang Xu, Jianyuan Guo, Chao Xu, Dacheng Tao
本文通过在给定网络中挖掘冗余计算来研究视觉变压器的效率问题。最近的变压器架构表明了实现在一系列计算机视觉任务上实现出色性能的有效性。然而,类似于卷积神经网络的巨大计算成本仍然是一个严峻的问题。考虑到注意力机制通过层汇总不同的贴片层,我们提出了一种新颖的贴片纤细方法,丢弃在顶部下落范式中的无用斑块。我们首先识别最后一层中的有效补丁,然后使用它们来指导先前层的补丁选择过程。对于每层,贴片对最终输出特征的影响是近似的,并且将删除具有较少影响的补丁。基准数据集的实验结果表明,该方法可以显着降低视觉变压器的计算成本,而不会影响其性能。例如,VIT TI模型的超过45幅拖鞋可以在ImageNet DataSet上仅用0.2前1个精度下降减少。

Semi-Supervised Domain Adaptation via Adaptive and Progressive Feature Alignment
Authors Jiaxing Huang, Dayan Guan, Aoran Xiao, Shijian Lu
当代域自适应语义细分旨在通过假设目标域完全未定位来解决数据注释挑战。然而,注释几个目标样本通常是非常可管理的,并且特别是如果它基本上提高了适应性的性能。本文提出了SSDA,一个半监督域自适应图像分割网络,其中一些标记的目标样本是用于标记源样本和未标记的目标样本之间的自适应和渐进特征对准的锚点。我们将少数标记的目标样本定位为参考文献,该参考资料衡量源和目标特征之间的相似性,并指导自适应域对齐以用于学习更类似的源特征。此外,我们在迭代训练过程中连续替换不同意的源特征,在迭代训练过程中持续高度置信目标,这在自信和不吻合目标特征之间实现了逐步的域域对齐。广泛的实验表明,所提出的SSDA大大优于许多基线,即基于UDA的语义分割和基于SSDA的图像分类。此外,SSDA是互补的,可以轻松地纳入基于UDA的方法,具有域自适应语义分割的一致性改进。

Multi-Camera Vehicle Counting Using Edge-AI
Authors Luca Ciampi, Claudio Gennaro, Fabio Carrara, Fabrizio Falchi, Claudio Vairo, Giuseppe Amato
本文介绍了一种新的解决方案,可以使用智能摄像头捕获的图像自动计算停车场中的车辆。与此任务的大多数文献不同,这侧重于对单幅图像的分析,本文提出了使用多种视觉源来监测不同的视角的更宽停车区。所提出的多相机系统能够在边缘设备上直接估计整个停车场中存在的汽车数量。它包括关于基于设备的深度学习的检测器,其定位和计数来自捕获的图像的车辆和基于分散的基于几何的方法,可以分析相机间共享区域并合并由所有设备获取的数据。我们对CNRPark Ext DataSet的扩展版本进行了实验评估,一系列从意大利比萨的国家研究委员会CNR的停车场拍摄的图像。我们表明我们的系统是强大的,并且利用来自不同摄像机的冗余信息,从而提高了整体性能,而无需任何额外的受监控场景的几何信息。

Making CNNs Interpretable by Building Dynamic Sequential Decision Forests with Top-down Hierarchy Learning
Authors Yilin Wang, Shaozuo Yu, Xiaokang Yang, Wei Shen
在本文中,我们提出了一种通用模型转移方案,使令人恼火的神经网络CNN解释,同时保持其高分类精度。我们通过在CNN的顶部构建一个可微分的决定森林来实现这一目标,该森林在培训期间享有两个特征1,森林的树层次在嵌入在预训练的CNN重量2中的类别语义的指导下以顶级方式学习在推理期间,从森林中动态地选择单个决策树,用于每个输入样本,使得传送的模型能够使与由语义相似类别共享的属性相对应的顺序决策,而不是直接执行平坦分类。我们命名转让的模型深动态顺序决策林DDSDF。实验结果表明,DDSDF不仅可以达到更高的分类精度,而不是原始的CNN,而且具有更好的可解释性,如定性,它具有合理的层次结构和定量,它导致更精确的显着性图。

Web based disease prediction and recommender system
Authors Harish Rajora, Narinder Singh Punn, Sanjay Kumar Sonbhadra, Sonali Agarwal
在全球范围内,由于偏远地区的医疗保健支持良好,几例案件未能。在这种情况下,需要一个集中式系统,以便有效监测和分析病历。基于Web的患者诊断系统是一种用于存储病史的中心平台,并根据患者经历的目前症状预测可能疾病,以确保更快和准确的诊断。早期疾病预测可以帮助用户确定疾病的严重程度并采取快速行动。所提出的基于网的疾病预测系统利用基于机器学习的分类技术,从国家疾病控制NCDC中获取的数据集。 k最近邻居K NN,随机森林和天真凸床分类方法,还提出了一个集合投票算法,其中每个分类器基于预测置信度动态分配权重。建议的系统还配备了推荐方案,以推荐基于患者现有症状的测试类型,从而可以采取必要的预防措施。集中式数据库可确保保留医疗数据,系统中存在透明度。通过在创建诊断一旦创建诊断时,无法防止篡改系统。

T-Net: Deep Stacked Scale-Iteration Network for Image Dehazing
Authors Lirong Zheng, Yanshan Li, Kaihao Zhang, Wenhan Luo
朦胧图像降低了图像内容的可见性,并且雾霾将导致处理后续计算机视觉任务的失败。在本文中,我们通过提出名为T NET的脱水网络来解决图像脱水的问题,该网络是基于U NET架构和双关注模块的骨干网络组成。它可以通过使用具有新融合策略的跳过连接来实现多尺度特征融合。此外,通过反复展开普通T网,提出堆栈T Net通过递归策略利用深度特征的依赖性。为了减少网络参数,我们的堆栈T Net采用Reset的级常常递归计算。我们将阶段明智结果和原始朦胧图像作为输入作为每个T网,最后输出清洁图像的预测。合成和现实世界形象的实验结果表明,我们的普通T网和先进的堆栈T网对艺术脱水算法的状态有利地表现出,并表明我们的堆栈T网可以进一步提高脱水效果,展示了效果递归策略。

Points2Polygons: Context-Based Segmentation from Weak Labels Using Adversarial Networks
Authors Kuai Yu, Hakeem Frank, Daniel Wilson
在应用的图像分割任务中,提供众多和精确标签用于训练的能力对于推理时间来说是模型的准确性。然而,这种开销通常被忽视,最近提出的分割架构严重依赖于地面真理标签的可用性和保真度,以实现最新的艺术准确性的状态。未能承认创造足够的地面真理的难度可能导致过度依赖预训练的模型或在现实世界应用中缺乏采用。我们引入Point2PolyGons P2P,一种模型,它利用直接解决这个问题的上下文度量学习技术。 Points2PolyGons针对现有的完全监督分段基线对具有有限培训数据的现有完全监督的分段基线进行良好,尽管使用轻量级分割模型U Net与Reset18骨架,并且只能以对象质心的形式访问弱标签,并且没有预先培训。我们在几个不同的小但非琐碎的数据集中展示了这一点。我们表明,使用上下文数据的度量学习提供了一般的自我监督任务的关键见解,并且允许分段模型在计算机视觉中轻松地拓展传统标记的强化域。

IPS300+: a Challenging Multimodal Dataset for Intersection Perception System
Authors Huanan Wang, Xinyu Zhang, Jun Li, Zhiwei Li, Lei Yang, Shuyue Pan, Yongqiang Deng
由于具有高复杂性和闭塞,在拥挤的城市交叉路口中的感知不足可能是人类驱动程序和自主算法的严重安全风险,而CVIS合作车辆基础设施系统是一个提出的解决方案,以便在这种情况下进行全面参与者的感知。但是,对路边多式化感知的研究仍处于起步阶段,并且此类方案没有开源数据集。因此,本文填补了差距。通过安装在交叉口对角线上的IPS交叉口感知系统,本文提出了一种用于交叉口感知任务的高质量多峰数据集。实验交叉点的中心占地3000m2,延伸距离达到300米,这对于CVIS是典型的。第一批开源数据包括14198帧,每个帧的平均标签平均为2019年最拥挤的数据集H3D数据集的9.6倍。为了方便进一步研究,该数据集尝试将标签文档保留与基蒂数据集一致,并为算法评估创建标准化的基准。我们的数据集可用

Radar-Camera Pixel Depth Association for Depth Completion
Authors Yunfei Long, Daniel Morris, Xiaoming Liu, Marcos Castro, Punarjay Chakravarty, Praveen Narayanan
虽然雷达和视频数据可以在检测水平处易于融合,但在像素级别融合它们可能更有益。由于雷达的稀疏性,这也是更具挑战性的,而且还因为汽车雷达梁比相机和雷达之间的典型像素相结合的典型像素,这导致雷达像素和彩色像素之间的差。结果是,为雷达和视频而设计的LIDAR和视频票价设计的深度完成方法。在这里,我们向像素关联阶段提出了一种雷达,它学习从雷达返回到像素的映射。此映射还用于致密雷达返回。使用这作为第一阶段,其次是更传统的深度完成方法,我们能够通过雷达和视频实现图像引导深度完成。我们展示了在NUSCENES DataSet上单独使用相机和雷达的性能。我们的源代码可用

Visual communication of object concepts at different levels of abstraction
Authors Justin Yang, Judith E. Fan
人们可以生产特定实体的图纸,例如,加菲尔德以及一般类别,例如,猫。什么可以解释产生甚至熟悉的对象概念的这种变化的能力我们假设不同水平的抽象绘制对象取决于感官信息和代表性目标,使得旨在描绘最近看到的物体比预期的更多细节更加细节代表一个类别。参与者使用照片或类别标签绘制了对象。对于每个CUE类型,参与者的一半旨在绘制另一个目标的特定示例,旨在绘制该类别。我们发现标签CUED类别图形是基本级别最识别的,而照片被提示的示例图案是最不可识别的。这些发现共同突出了任务环境的重要性,以便解释人们如何使用图纸以不同方式传达视觉概念。

GLSD: The Global Large-Scale Ship Database and Baseline Evaluations
Authors Zhenfeng Shao, Jiaming Wang, Lianbing Deng, Xiao Huang, Tao Lu, Ruiqian Zhang, Xianwei Lv, Qing Ding, Zhiqiang Wang
在本文中,我们介绍了一个挑战的全球大规模船舶数据库,称为GLSD,专为船舶检测任务而设计。设计的GLSD数据库总共包括来自100,729个图像的140,616个注释实例。根据收集的图像,我们提出了13个在国际航线中广泛存在的类别。这些类别包括帆船,渔船,客船,战舰,一般货船,集装箱船,散货货船,驳船,矿石承运人,速度船,独木舟,油载体和拖船。开发GLSD的动机包括以下1,提供了一个完整的船舶检测数据库2,在一个统一的全球数据库中提供船舶检测和详尽标签信息边界框和船舶类标签的全球研究人员,以及提供带地理信息端口的大型船舶数据库以及利益多模态分析的国家信息。此外,我们讨论了GLSD中给定图像特征的评估协议,并分析了GSLD上的最佳物体检测算法的所选状态的性能,为未来的研究提供基线。有关设计GLSD的更多信息可以在

Predify: Augmenting deep neural networks with brain-inspired predictive coding dynamics
Authors Bhavin Choksi, Milad Mozafari, Callum Biggs O May, Benjamin Ador, Andrea Alamia, Rufin VanRullen
深度神经网络在图像分类中Excel Excel,但它们的性能远对输入扰动而不是人类的感知。在这项工作中,我们可以通过将脑在深度卷积网络中的脑引发的经常性动态纳入这种缺点来部分地解决这种缺点。我们从神经科学预测编码中的一个流行框架中获取灵感。在分层模型的每层,生成反馈预测即,重建前一层中的活动模式。重建错误用于迭代地更新时间步骤中的网络S表示,并优化通过天然图像数据集的网络的反馈权重,这是一种无监督的训练。我们展示将此策略实施到两个流行的网络中,VGG16和WeffernowNetB0,提高了对各种损坏的鲁棒性。我们假设其他前馈网络可以类似地受益于所提出的框架。为了促进朝着这种方向促进研究,我们提供一种称为PRIGEIFY的开放的基于PYTORCH的包,其可用于实施和研究预测编码动态在任何卷积神经网络中的影响。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页



pic from pexels.com

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值