【AI视野·今日CV 计算机视觉论文速览 第236期】Tue, 28 Sep 2021

AI视野·今日CS.CV 计算机视觉论文速览
Tue, 28 Sep 2021 (showing first 100 of 106 entries)
Totally 100 papers
👉上期速览更多精彩请移步主页

在这里插入图片描述

Interesting:

****📚PASS, 代替ImageNet数据集的自监督预训练数据集,参考学习如何做数据集的文章。(from VGG 牛津)
在这里插入图片描述

code:https://www.robots.ox.ac.uk/ vgg/research/pass/

📚压缩视觉表示, (from 谷歌)
在这里插入图片描述
在这里插入图片描述

从自监督学习表示的两种主要添加显式信息压缩算法以获取更为鲁棒的表示。

📚MLIM, 基于语言掩膜和视觉建模的视觉语言模型预训练。(from 亚马逊)
在这里插入图片描述


📚LFPNet, 基于长程特征传播的自然图像抠图matting。(from HIT哈工大)
在这里插入图片描述
在这里插入图片描述


📚基于语言的任务检索, (from 西北工业大学 )
在这里插入图片描述
在这里插入图片描述


📚TreeNet, 新型卷积聚合网络结构(from 南京大学)。
在这里插入图片描述


**📚VQA-MHUG Gaze Dataset, 视觉问答视线注意力数据集。利用眼动仪采集。(from 德国vis 挪威clcg)
在这里插入图片描述

code:https://perceptualui.org/publications/sood21_conll/

📚HarriZ+ 新型图像匹配特征描述子。 (from Universit`a Degli Studi di Palermo, Italy)


Daily Computer Vision Papers

PASS: An ImageNet replacement for self-supervised pretraining without humans
Authors Yuki M. Asano, Christian Rupprecht, Andrew Zisserman, Andrea Vedaldi
计算机视觉长期以来一直依赖 ImageNet 和其他从互联网上采样的大型图像数据集来进行预训练模型。然而,这些数据集存在道德和技术缺陷,例如包含未经同意获取的个人信息、许可证使用不明确、偏见,在某些情况下甚至包含有问题的图像内容。另一方面,目前最先进的预训练是通过无监督方法获得的,这意味着标记数据集(如 ImageNet)对于模型预训练可能不是必需的,甚至可能不是最佳的。因此,我们提出了一个未标记的数据集 PASS Pictures without humAns for Self Supervision。 PASS 仅包含具有 CC BY 许可和完整属性元数据的图像,解决版权问题。最重要的是,它根本不包含人的图像,并且还避免了对数据保护或道德有问题的其他类型的图像。我们表明 PASS 可用于使用 MoCo v2、SwAV 和 DINO 等方法进行预训练。在迁移学习设置中,即使在涉及人类的任务(例如人体姿势估计)上,它也能产生与 ImageNet 预训练相似的下游性能。 PASS 不会使现有数据集过时,例如它不足以进行基准测试。

TSM: Temporal Shift Module for Efficient and Scalable Video Understanding on Edge Device
Authors Ji Lin, Chuang Gan, Kuan Wang, Song Han
视频流的爆炸性增长需要高精度和低计算成本的视频理解。传统的 2D CNN 计算成本低,但无法捕获时间关系基于 3D CNN 的方法可以获得良好的性能,但计算量大。在本文中,我们提出了一种通用且有效的 Temporal Shift Module TSM,它兼具高效率和高性能。 TSM 的关键思想是沿时间维度移动部分通道,从而促进相邻帧之间的信息交换。它可以插入到 2D CNN 中以实现零计算和零参数的时间建模。 TSM 提供了几个独特的优势。首先,TSM 的性能很高,提交后在Something Something 的排行榜上排名第一。其次,TSM效率高,在Jetson Nano和Galaxy Note8上实现了74fps和29fps的高帧率在线视频识别。第三,与 3D 网络相比,TSM 具有更高的可扩展性,可在 1536 个 GPU 上在 15 分钟内实现大规模 Kinetics 训练。最后,TSM 实现了动作概念学习,而 2D 网络无法建模,我们将类别注意力图可视化,并发现在分类任务的训练过程中会出现时空动作检测器。

Predicting Driver Self-Reported Stress by Analyzing the Road Scene
Authors Cristina Bustos, Neska Elhaouij, Albert Sole Ribalta, Javier Borge Holthoefer, Agata Lapedriza, Rosalind Picard
几项研究表明生物信号在驾驶员压力识别中的相关性。在这项工作中,我们研究了一些鲜为人知的重要内容 我们开发了测试视觉驾驶场景是否可用于估计驾驶员主观压力水平的方法。为此,我们使用了 AffectiveROAD 视频记录及其相应的压力标签,这是一个连续的人类司机提供的压力指标。我们对压力使用普通类离散化,将其连续值分为低、中和高三类。我们设计并评估了三种计算机视觉建模方法来对驾驶员的压力水平 1 对象存在特征进行分类,其中使用自动场景分割 2 端到端图像分类和 3 端到端视频分类计算特征。所有三种方法都显示出有希望的结果,这表明可以从视觉场景中发现的信息中估计驾驶员的主观压力。

Comparison of Object Detection Algorithms Using Video and Thermal Images Collected from a UAS Platform: An Application of Drones in Traffic Management
Authors Hualong Tang, Joseph Post, Achilleas Kourtellis, Brian Porter, Yu Zhang
无人驾驶飞行器无人机在交通管理中的应用增长迅速,例如交通监视、监控和事件检测。然而,现有文献在解决实践中的隐私问题的同时,缺乏实时事件检测的解决方案。本研究探索了视觉和红外摄像机上的实时车辆检测算法,并进行了比较其性能的实验。红绿蓝 RGB 视频和热图像是从佛罗里达州坦帕地区高速公路沿线的 UAS 平台收集的。实验旨在量化基于实时背景减法的方法在自由流动条件下悬停 UAV 的静止摄像机车辆检测中的性能。实验中根据无人机和传感器相对于道路的几何形状设置了几个参数。结果表明,在大多数情况下,基于背景减法的方法可以在 RGB 图像 F1 得分约 0.9 上实现良好的检测性能,并且在不同方位角的热图像上可以看到更多样化的性能。

Visual Anomaly Detection for Images: A Survey
Authors Jie Yang, Ruijie Xu, Zhiquan Qi, Yong Shi
视觉异常检测是机器学习和计算机视觉领域的一个重要且具有挑战性的问题。这个问题引起了相关研究界的广泛关注。特别是近年来,深度学习的发展引发了人们对视觉异常检测问题的日益关注,并带来了各种各样的新方法。在本文中,我们对文献中基于经典和深度学习的视觉异常检测方法进行了全面调查。我们根据其基本原则对相关方法进行分组,并仔细讨论它们的假设、优点和缺点。

Multimodal Integration of Human-Like Attention in Visual Question Answering
Authors Ekta Sood, Fabian K gel, Philipp M ller, Dominike Thomas, Mihai Bace, Andreas Bulling
类似人类的注意力作为指导神经注意力的监督信号已显示出显着的前景,但目前仅限于单模态整合,即使对于视觉问答 VQA 等固有的多模态任务也是如此。我们提出了 Multimodal Human like Attention Network MULAN,这是第一种在 VQA 模型训练期间对图像和文本的人类注意力进行多模态整合的方法。 MULAN 将来自两个最先进的文本和图像显着性模型的注意力预测集成到最近基于 Transformer 的 VQA 模型的神经自注意力层中。通过对具有挑战性的 VQAv2 数据集的评估,我们表明 MULAN 在测试标准上达到了 73.98 的准确率,在测试开发上达到了 73.72,同时,与之前的工作相比,可训练参数减少了大约 80 个。

GANiry: Bald-to-Hairy Translation Using CycleGAN
Authors Fidan Samet, Oguz Bakir
这项工作展示了我们的计算机视觉课程项目,称为使用 CycleGAN 将秃头男子翻译为多毛男子。在 CycleGAN 架构之上,我们利用感知损失来获得更真实的结果。我们还整合了条件约束,以获得秃头男人的不同风格和颜色的头发。我们进行了广泛的实验,并在本文中给出了定性结果。

An End-to-end Entangled Segmentation and Classification Convolutional Neural Network for Periodontitis Stage Grading from Periapical Radiographic Images
Authors Tanjida Kabir, Chun Teh Lee, Jiman Nelson, Sally Sheng, Hsiu Wan Meng, Luyao Chen, Muhammad F Walji, Xioaqian Jiang, Shayan Shams
牙周炎是一种与生物膜相关的慢性炎症性疾病,其特征是牙齿区域的牙龈炎和骨质流失。在美国,大约有 6100 万 30 岁以上的成年人患有牙周炎 42.2,其中 7.8 人患有严重的牙周炎。放射学骨丢失 RBL 的测量对于做出正确的牙周诊断是必要的,尤其是在全面和纵向牙周标测不可用的情况下。但是,医生可以根据他们的经验和知识对 X 射线进行不同的解释。为医生提供计算机化诊断支持,有助于做出高精度和一致性的诊断,并制定适当的治疗计划,以预防或控制牙周炎。我们通过集成分割和分类任务,从根尖周放射图像对牙周炎进行分级,开发了一个端到端的深度学习网络 HYNETS 混合网络,用于射线照相的牙周炎阶段。 HYNETS 通过结合一组分割网络和分类网络来利用多任务学习策略,以提供端到端的可解释解决方案以及高度准确和一致的结果。 HYNETS 的骨面积和牙齿分割的平均骰子系数为 0.96 和 0.94,牙周炎分期分配的平均 AUC 为 0.97。此外,传统的图像处理技术提供 RBL 测量并建立模型预测的透明度和信任度。

VQA-MHUG: A Gaze Dataset to Study Multimodal Neural Attention in Visual Question Answering
Authors Ekta Sood, Fabian K gel, Florian Strohm, Prajit Dhar, Andreas Bulling
我们在使用高速眼动仪收集的视觉问答 VQA 期间,向 VQA MHUG 展示了一个新的 49 位参与者多模态人类注视图像和问题的数据集。我们使用我们的数据集来分析五个最先进的 VQA 模型 Modular Co Attention Network MCAN、Pythia、Bilinear Attention Network BAN 和 Multimodal Factorized Bilinear Pooling Network MFB 学习的人类注意力策略和神经注意力策略之间的相似性.虽然之前的工作侧重于研究图像模态,但我们的分析首次表明,对于所有模型,与人类对文本的注意力的更高相关性是 VQA 性能的重要预测指标。

MFEViT: A Robust Lightweight Transformer-based Network for Multimodal 2D+3D Facial Expression Recognition
Authors Hanting Li, Mingzhe Sui, Zhaoqing Zhu, Feng Zhao
Vision Transformer ViT 因其自注意力机制帮助获得自第一层以来的全局感受野,因此在许多领域得到了广泛的应用。它甚至在某些视觉任务中取得了超过 CNN 的惊人性能。然而,在将视觉变换器用于 2D 3D 面部表情识别 FER 时存在一个问题,即 ViT 训练需要大量数据。尽管如此,公共 2D 3D FER 数据集中的样本数量远不足以进行评估。如何利用在 RGB 图像上预训练的 ViT 来处理 2D 3D 数据成为一个挑战。为了解决这个问题,我们为多模态 2D 3D FER 提出了一个健壮的轻量级纯基于变压器的网络,即 MFEViT。为了缩小 RGB 和多模态数据之间的差距,我们设计了一种替代融合策略,该策略将 RGB 图像的三个通道中的每一个都替换为深度图通道,并在将它们输入到转换器编码器之前将它们融合。此外,设计的样本过滤模块为每个表达式添加了几个子类,并将噪声样本移动到其相应的子类中,从而消除了它们在训练阶段对网络的干扰。大量实验表明,我们的 MFViT 优于最先进的方法,在 BU 3DFE 上的准确度为 90.83,在博斯普鲁斯海峡上的准确度为 90.28。具体来说,所提出的 MFEViT 是一个轻量级模型,需要比多分支 CNN 少得多的参数。据我们所知,这是将视觉变换器引入多模态 2D 3D FER 的第一项工作。

Experience feedback using Representation Learning for Few-Shot Object Detection on Aerial Images
Authors Pierre Le Jeune, Mustapha Lebbah, Anissa Mokraoui, Hanene Azzag
本文提出了一种基于 Faster R CNN 和表示学习的少量拍摄方法,用于航拍图像中的物体检测。 Faster R CNN 的两个分类分支被用于在线适应新类别的原型网络所取代。这些网络为每个生成的框生成嵌入向量,然后与类原型进行比较。嵌入和原型之间的距离决定了相应的分类分数。由此产生的网络以情节方式进行训练。在每个时期随机采样一个新的检测任务,包括仅检测数据集中注释的类的子集。这种训练策略鼓励网络像在测试时一样适应新的课程。此外,探索了一些想法来改进所提出的方法,例如硬反例挖掘策略和背景对象的自监督聚类。我们的方法的性能是在 DOTA 上评估的,这是一个大规模的遥感图像数据集。进行的实验提供了对表征学习能力的更广泛理解。它特别强调了少镜头对象检测任务的一些内在弱点。

Attention Gate in Traffic Forecasting
Authors Anh Lam, Anh Nguyen, Bac Le
由于城市复杂性的增加和人口的增长,越来越多的关于预测城市范围内的移动行为的挑战正在被组织起来。 2020年交通地图电影预测挑战赛在第三十四届神经信息处理系统NeurIPS大会赛场上第二次举办。与 Traffic4Cast 2019 类似,任务是预测柏林、伊斯坦布尔和莫斯科三大城市地理区域的交通流量、主要方向的平均速度。在本文中,我们将注意力机制应用于基于 U Net 的模型,特别是我们在收缩路径和扩展路径之间的跳过连接上添加了一个注意门。注意门在与扩展路径上的特征结合之前从收缩路径过滤特征,它使我们的模型能够减少非交通区域特征的影响,并更多地关注关键区域特征。除了比赛数据,我们还提出了两个经常影响交通流量的额外特征,即时间和工作日。我们在比赛数据集上试验我们的模型,并在相同的环境中重现获胜者的解决方案。

Semi-Supervised Adversarial Discriminative Domain Adaptation
Authors Thai Vu Nguyen, Anh Nguyen, Bac Le
域适应是训练强大的深度神经网络的一种潜在方法,可以处理没有标记数据的情况。更准确地说,当训练数据集和测试数据集非常不同时,域自适应解决了称为数据集偏差或域偏移的限制。对抗性适应方法在其他领域适应方法中变得流行。依赖于 GAN 的思想,对抗域自适应尝试基于对抗对象最小化训练和测试数据集之间的分布。然而,一些传统的对抗域自适应方法无法处理两个数据集之间的大域转移,或者这些方法的泛化能力低下。在本文中,我们提出了一种改进的对抗域自适应方法,称为半监督对抗判别域自适应 SADDA,它可以克服其他域自适应的局限性。

Text-based Person Search in Full Images via Semantic-Driven Proposal Generation
Authors Shizhou Zhang, Duo Long, Yitao Gao, Liying Gao, Qian Zhang, Kai Niu, Yanning Zhang
通过文本描述的查询在全场景图像中寻找目标人物在智能视频监控中具有重要的实际应用。 然而,与边界框不可用的现实世界场景不同,现有的基于文本的人物检索方法主要集中在交叉模态查询文本描述与裁剪行人图像库之间的匹配。为了缩小差距,我们通过提出一种新的端到端学习框架来研究基于文本的全图像人物搜索问题,该框架联合优化行人检测、识别和视觉语义特征嵌入任务。为了充分利用查询文本,利用语义特征来指示区域提议网络更多地关注文本描述的提议。此外,利用跨尺度视觉语义嵌入机制来提高性能。为了验证所提出的方法,我们基于广泛采用的基于图像的人物搜索数据集 CUHK SYSU 和 PRW 收集并注释了两个大型基准数据集。

Fusion-GCN: Multimodal Action Recognition using Graph Convolutional Networks
Authors Michael Duhme, Raphael Memmesheimer, Dietrich Paulus
在本文中,我们介绍了 Fusion GCN,这是一种使用图卷积网络 GCN 进行多模态动作识别的方法。基于 GCN 的动作识别方法最近为基于骨架的动作识别带来了最先进的性能。使用 Fusion GCN,我们建议将各种传感器数据模态集成到使用 GCN 模型训练的图形中,以进行多模态动作识别。额外的传感器测量被合并到图形表示中,在引入额外节点属性的通道维度或引入新节点的空间维度上。 Fusion GCN 在两个公共可用数据集 UTD MHAD 和 MMACT 数据集上进行了评估,并展示了 RGB 序列、惯性测量和骨架序列的灵活融合。

Sparse Spatial Transformers for Few-Shot Learning
Authors Haoxing Chen, Huaxiong Li, Yaohui Li, Chunlin Chen
从有限的数据中学习是一项具有挑战性的任务,因为数据的稀缺导致训练模型的泛化能力较差。经典的全局池化表示可能会丢失有用的局部信息。最近,许多少数镜头学习方法通​​过使用深度描述符和学习像素级度量来解决这一挑战。然而,使用深度描述符作为特征表示可能会丢失图像的上下文信息。并且这些方法中的大多数独立处理支持集中的每个类,不能充分利用判别信息和特定于任务的嵌入。在本文中,我们提出了一种新的基于 Transformer 的神经网络架构,称为 Sparse Spatial Transformers SSFormers,它可以找到与任务相关的特征并抑制与任务无关的特征。具体来说,我们首先将每个输入图像分成几个不同大小的图像块,以获得密集的局部特征。这些特征在表达局部信息的同时保留了上下文信息。然后,提出了一个稀疏空间变换器层来查找查询图像和整个支持集之间的空间对应关系,以选择与任务相关的图像块并抑制与任务无关的图像块。最后,我们提出了一个图像块匹配模块来计算密集局部表示之间的距离,以确定查询图像在支持集中属于哪个类别。对流行的小样本学习基准进行的大量实验表明,我们的方法达到了最先进的性能。

Harrisz+: Harris Corner Selection for Next-Gen Image Matching Pipelines
Authors Fabio Bellavia, Dmytro Mishkin
由于它在许多计算机视觉任务中的作用,研究人员对图像匹配进行了积极的研究,这导致了更好和更具判别力的特征描述符以及更强大的匹配策略,这也归功于深度学习的出现和增加了现代硬件的计算能力。尽管取得了这些成就,但图像匹配管道基础的关键点提取过程还没有取得同等的进展。本文介绍了 Harrisz,它是 HarrisZ 角点检测器的升级版,经过优化以协同推进图像匹配管道其他步骤的最新改进。 Harrisz 不仅包括对设置参数的调整,而且还对 HarrisZ 描绘的选择标准进行了进一步改进,从而提供了更多但具有辨别力的关键点,这些关键点更好地分布在图像上并具有更高的定位精度。

Wasserstein Patch Prior for Image Superresolution
Authors Johannes Hertrich, Antoine Houdard, Claudia Redenbach
在本文中,我们为二维和三维图像的超分辨率引入了先验的 Wasserstein 补丁。在这里,我们假设我们已经为低分辨率观察额外提供了一个参考图像,该图像具有与重建的基本事实相似的补丁分布。这个假设是例如在处理纹理图像或材质数据时实现。然后,所提出的正则化器在不同尺度下惩罚重建的补丁分布与某些参考图像的补丁分布的 W 2 距离。

Meta-Aggregator: Learning to Aggregate for 1-bit Graph Neural Networks
Authors Yongcheng Jing, Yiding Yang, Xinchao Wang, Mingli Song, Dacheng Tao
在本文中,我们研究了一种新的元聚合方案,用于二值化图神经网络 GNN。我们首先开发一个普通的 1 位 GNN 框架,该框架将 GNN 参数和图特征二值化。尽管采用了轻量级架构,但我们观察到这个普通框架在区分图拓扑方面的判别能力不足,导致性能急剧下降。这一发现促使我们设计元聚合器来提高普通二值化 GNN 的表达能力,其中聚合方案可以基于二值化特征以可学习的方式自适应改变。为此,我们提出了两种专用形式的元邻域聚合器,称为 Greedy Gumbel Neighborhood Aggregator GNA 的专有元聚合器和称为 Adaptable Hybrid Neighborhood Aggregator ANA 的扩散元聚合器。 GNA 学习从候选池中专门挑选一个最佳聚合器,而 ANA 学习混合聚合行为以同时保留多个单独聚合器的好处。此外,所提出的元聚合器可以很容易地用作现有全精度 GNN 的通用插件模块。

Deep Structured Instance Graph for Distilling Object Detectors
Authors Yixin Chen, Pengguang Chen, Shu Liu, Liwei Wang, Jiaya Jia
有效地构建深度知识在从教师到学生的转移中起着举足轻重的作用,尤其是在语义视觉任务中。在本文中,我们提出了一个简单的知识结构来利用和编码检测系统内部的信息,以促进检测器知识蒸馏。具体来说,为了解决特征不平衡问题,同时进一步挖掘语义实例内部缺失的关系,我们设计了一个图,其节点对应于实例提议级别的特征,边代表节点之间的关系。为了进一步细化该图,我们设计了一个自适应背景损失权重来减少节点噪声和背景样本挖掘以修剪琐碎的边缘。我们将整个图作为编码知识表示从教师转移到学生,同时捕获局部和全局信息。我们在具有挑战性的 COCO 对象检测任务上取得了新的最先进的结果,在一级和二级检测器上使用不同的学生教师对。我们还试验了实例分割以证明我们方法的鲁棒性。值得注意的是,使用 ResNet18 FPN 和 ResNet50 FPN 蒸馏的 Faster R CNN 在 COCO 基准测试中分别产生了 38.68 和 41.82 Box AP,使用 ResNet101 FPN 的 Faster R CNN 显着达到了 43.38 AP,比 ResNet152 FPN 教师高出约 0.7。

A General Gaussian Heatmap Labeling for Arbitrary-Oriented Object Detection
Authors Zhanchao Huang, Wei Li, Xiang Gen Xia, Ran Tao
近年来,提出了许多面向任意对象检测的AOOD方法,并在许多领域引起了广泛关注。然而,它们中的大多数是基于锚框或标准高斯热图。这种标签分配策略可能不仅不能反映任意定向对象的形状和方向特征,而且参数调整工作量很大。在本文中,提出了一种称为通用高斯热图标记 GGHL 的新型 AOOD 方法。具体而言,提出了一种基于无锚对象自适应标签分配 OLA 策略来定义基于二维二维高斯热图的正候选项,该热图反映了任意定向对象的形状和方向特征。基于OLA,开发了定向边界框OBB表示组件ORC,用于指示OBB并通过神经网络学习自适应调整高斯中心先验权重以适应不同对象的特征。此外,设计了具有区域归一化和动态置信权重的联合优化损失 JOL,以细化不同子任务的失准最优结果。对公共数据集的大量实验表明,所提出的 GGHL 以较低的参数调整和时间成本提高了 AOOD 性能。

Bayesian deep learning of affordances from RGB images
Authors Lorenzo Mur Labadia, Ruben Martinez Cantin
自主代理,例如机器人或智能设备,需要了解如何与对象及其环境进行交互。可供性被定义为代理、对象和环境中可能的未来动作之间的关系。在本文中,我们提出了一种贝叶斯深度学习方法来直接从 RGB 图像预测环境中可用的可供性。基于之前关于社会接受的可供性的工作,我们的模型基于多尺度 CNN,它结合了来自对象和完整图像的局部和全局信息。然而,之前的工作假设了一个确定性模型,但不确定性量化是稳健检测、基于可供性的推理、持续学习等的基础。我们的贝叶斯模型能够捕捉场景中的任意不确定性和与模型相关的认知不确定性,之前的学习过程。为了进行比较,我们使用两种最先进的技术 Monte Carlo dropout 和 deep ensemble 来估计不确定性。我们还比较了不同类型的 CNN 编码器进行特征提取。我们已经在一个关于社会可接受行为的可供性数据库上进行了几次实验,与以前的工作相比,我们已经显示出改进的性能。此外,不确定性估计与对象和场景的类型一致。

N-shot Palm Vein Verification Using Siamese Networks
Authors Felix Marattukalam, Waleed H. Abdulla, Akshya Swain
近年来,研究人员对使用深度学习方法从手掌表面提取血管生物特征模式感兴趣。在许多生物识别任务中,训练样本的数量是有限制的。这是因为可供研究的静脉生物特征数据库有限。这限制了深度学习方法在设计算法上的应用,这些算法可以有效地识别或验证人的静脉识别。本文提出了一种使用连体神经网络结构进行少量手掌静脉识别的架构。提议的网络使用来自手掌的图像,并由两个共享权重的子网组成,以识别一个人。架构性能在香港理工大学多光谱手掌静脉数据库上以有限的样本进行了测试。

Effect Of Personalized Calibration On Gaze Estimation Using Deep-Learning
Authors Nairit Bandyopadhyay, S bastien Riou, Didier Schwab
随着计算能力的提高和最先进的深度学习算法的发展,基于外观的注视估计变得越来越流行。据信,它可以很好地处理精选的实验室数据集,但在实际场景中部署时,它面临着一些挑战。其中一个挑战是估计一个人的注视,而针对注视估计而训练的深度学习模型对此一无所知。为了分析这种情况下的性能,我们尝试模拟校准机制。在这项工作中,我们使用 MPIIGaze 数据集。

Machine Learning based Medical Image Deepfake Detection: A Comparative Study
Authors Siddharth Solaiyappan, Yuxin Wen
近年来,深度生成网络加强了在使用各种形式的数字信息时谨慎的必要性。 Deepfake 创建的一种途径是通过医学扫描注射和去除肿瘤。未能检测到医疗深度造假可能会导致医院资源严重受挫,甚至导致生命损失。本文试图通过结构化案例研究来解决此类攻击的检测问题。我们评估了不同的机器学习算法和预训练的卷积神经网络,以区分篡改和未篡改的数据。

Joint Multimedia Event Extraction from Video and Article
Authors Brian Chen, Xudong Lin, Christopher Thomas, Manling Li, Shoya Yoshida, Lovish Chum, Heng Ji, Shih Fu Chang
视觉和文本模式提供有关多媒体文档中描述的事件的补充信息。视频包含丰富的动态和事件的详细展开,而文本描述了更高级和抽象的概念。然而,现有的事件提取方法要么不处理视频,要么只针对视频而忽略其他模态。相比之下,我们提出了从视频和文本文章中联合提取事件的第一种方法。我们介绍了视频多媒体事件提取视频 M2E2 的新任务,并提出了两个新颖的组件来构建第一个系统来完成此任务。首先,我们提出了第一个自监督多模态事件共指模型,该模型可以在没有任何手动注释对的情况下确定视频事件和文本事件之间的共指。其次,我们介绍了第一个多模态转换器,它从视频和文本文档中联合提取结构化事件信息。我们还将构建并将公开发布一个新的视频文章对基准,由 860 个视频文章对组成,并带有大量注释,用于评估此任务的方法。我们的实验结果证明了我们提出的方法在我们新的基准数据集上的有效性。

Improving the Thermal Infrared Monitoring of Volcanoes: A Deep Learning Approach for Intermittent Image Series
Authors Jeremy Diaz, Guido Cervone, Christelle Wauthier
活火山分布于全球,在多个地理尺度上构成社会风险,从局部危害到区域性国际破坏。许多火山没有连续的地面监测网络,这意味着卫星观测提供了火山行为和动荡的唯一记录。在这些遥感观测中,火山观测站每天都会检查热成像,以检查喷发活动的早期迹象、发生和演变。然而,热场景通常会被云层遮挡,这意味着必须根据图像序列进行预测,这些图像序列的场景只能随时间间歇性地使用。在这里,我们使用现有的架构从深度学习的角度探索预测这个热数据流,这些架构对具有不同时空考虑的序列进行建模。此外,我们提出并评估了对间歇图像序列进行显式建模的新架构。使用 1999 年至 2020 年间 9 座火山的 ASTER 动力学表面温度数据,我们发现所提出的架构 ConvLSTM Time LSTM U Net 预测火山温度图像的 RMSE 最低为 4.164 circ C,其他方法为 4.217 5.291 circ C。此外,我们还检查了从热成像得出的多个时间序列的性能以及使用奇异火山数据进行训练的效果。最终,我们发现在预测图像上具有最低 RMSE 的模型在重新创建从该图像派生的时间序列方面没有最低的 RMSE,并且相对于多火山数据集,对单个火山的训练通常会降低性能。

A novel network training approach for open set image recognition
Authors Md Tahmid Hossaina, Shyh Wei Teng, Guojun Lu, Ferdous Sohel
卷积神经网络 CNN 通常设计用于封闭集布置,其中测试实例仅属于训练中使用的一些已知 KK 类。因此,他们根据 KK 类的分布预测测试样本的类标签。然而,当在开放集识别 OSR 设置下使用时,其中输入可能属于未知未知或 UU 类,这样的网络将始终将测试实例分类为 KK 类之一,即使它来自 UU 类。作为解决方案,最近使用了基于生成对抗网络 GAN 的数据增强。在这项工作中,我们提出了一种挖掘已知未知训练器或 KUT 集的新方法,并设计了一个深度 OSR 网络 OSRNet 来利用该数据集。目标是通过 KUT 集向 OSRNet 教授 UU 的本质,KUT 集实际上是一个已挖掘的硬性已知未知底片的集合。经过训练后,OSRNet 可以检测 UU,同时在 KK 上保持高分类精度。

Research on facial expression recognition based on Multimodal data fusion and neural network
Authors Yi Han, Xubin Wang, Zhengyu Lu
当神经网络应用于模式识别时,面部表情识别是一项具有挑战性的任务。目前的识别研究大多基于单源人脸数据,普遍存在准确率低、鲁棒性低的缺点。本文提出了一种基于多模态数据融合的人脸表情识别神经网络算法。该算法基于多模态数据,以人脸图像、图像定向梯度直方图和人脸标志为输入,建立CNN、LNN和HNN三个子神经网络提取数据特征,利用多模态数据特征融合机制,提高人脸表情识别准确率。实验结果表明,该算法受益于多模态数据的互补性,与传统的面部表情识别算法相比,在准确率、鲁棒性和检测速度上都有很大的提高。

Automated Multi-Process CTC Detection using Deep Learning
Authors Elena Ivanova, Kam W. Leong, Andrew F. Laine
循环肿瘤细胞 CTC 作为肿瘤预后的生物标志物具有广阔的前景。然而,CTC 的识别和后续枚举过程需要人工,容易出错且耗时。通过使用 Mask RCNN 进行深度学习的对象检测的最新发展以及预训练模型的更广泛可用性使得此类数据有限的敏感任务能够以前所未有的准确度进行处理。在本报告中,我们提出了一种新的 3 阶段检测模型,用于自动识别多通道暗场显微图像中的循环肿瘤细胞,包括基于 RetinaNet 的细胞角蛋白 CK 染色识别、基于 Mask RCNN 的 DAPI 细胞核细胞检测和 Otsu 阈值检测 CD 45 秒。训练数据集由 46 个高方差数据点组成,其中包含 10 个 Negative 和 36 个 Positive 数据点。测试集由 420 个负数据点组成。

Nesterov Accelerated ADMM for Fast Diffeomorphic Image Registration
Authors Alexander Thorley, Xi Jia, Hyung Jin Chang, Boyang Liu, Karina Bunting, Victoria Stoll, Antonio de Marvao, Declan P. O Regan, Georgios Gkoutos, Dipak Kotecha, Jinming Duan
使用迭代优化的确定性方法在微分形态图像配准 DiffIR 中历来是成功的。尽管这些方法非常准确,但它们通常会带来很大的计算负担。基于深度学习的随机方法的最新发展已经实现了具有竞争力的配准精度的 DiffIR 亚秒运行时间,提供了传统迭代方法的快速替代方案。在本文中,我们试图减少这种速度差异,同时保留 DiffIR 中迭代方法的性能优势。我们首先提出了一个简单的迭代方案,该方案在功能上组合中间非平稳速度场来处理图像中的大变形,同时保证合成变形中的微分同胚。然后,我们提出了一个凸优化模型,该模型使用任意阶数的正则化项对这些速度场施加平滑度,并使用结合 Nesterov 梯度下降和乘法器 ADMM 交替方向方法的快速算法求解该模型。最后,我们利用 GPU 的计算能力在 3D 心脏 MRI 数据集上实现这个加速的 ADMM 求解器,进一步将运行时间缩短到不到 2 秒。

Logo Generation Using Regional Features: A Faster R-CNN Approach to Generative Adversarial Networks
Authors Aram Ter Sarkisov, Eduardo Alonso
在本文中,我们介绍了 Local Logo Generative Adversarial Network LL GAN,它使用从 Faster Regional Convolutional Neural Network Faster R CNN 中提取的区域特征来生成标识。我们通过在在线收集的小型风格丰富的数据集上训练框架以生成令人印象深刻的大型徽标来证明这种方法的优势。

Using Soft Labels to Model Uncertainty in Medical Image Segmentation
Authors Jo o Louren o Silva, Arlindo L. Oliveira
医学图像分割本质上是不确定的。对于给定的图像,可能存在多个似是而非的分割假设,并且医生通常会在病变和器官边界上存在分歧。为了适应现实世界的应用,自动分割系统必须能够捕捉到这种不确定性和可变性。到目前为止,已经通过构建深度学习模型解决了这个问题,这些模型通过 dropout、多头或变分推理,可以为任何给定的图像生成一个无限的、在某些情况下合理的分割假设。然而,在临床实践中,浏览所有假设可能不切实际。此外,最近的工作表明,在经过一定数量的独立注释后,分割变异性平稳,这表明足够多的医生组可能能够表示可能分割的整个空间。受此启发,我们提出了一种从多个医生的注释中获取软标签并训练模型的简单方法,该模型针对每张图像生成一个经过良好校准的输出,该输出可以根据每个应用程序的精确召回率在多个置信水平上进行阈值处理要求。

A Video Summarization Method Using Temporal Interest Detection and Key Frame Prediction
Authors Yubo An, Shenghui Zhao
在本文中,提出了一种使用时间兴趣检测和关键帧预测的视频摘要方法用于监督视频摘要,其中视频摘要被制定为序列标记和时间兴趣检测问题的组合。在我们的方法中,我们首先构建了一个灵活的通用网络框架来同时预测帧级重要性分数和时间兴趣段,然后将两个具有不同权重的组件组合起来以实现更详细的视频摘要。对两个基准数据集的大量实验和分析证明了我们方法的有效性。

Vision Transformer Hashing for Image Retrieval
Authors Shiv Ram Dubey, Satish Kumar Singh, Wei Ta Chu
深度学习在用于图像检索的散列技术方面取得了巨大的发展。最近,Transformer 已经成为一种新的架构,它利用无卷积的自注意力。 Transformer 还扩展到 Vision Transformer ViT,用于视觉识别,在 ImageNet 上具有良好的性能。在本文中,我们提出了一种基于视觉变换器的哈希 VTS 用于图像检索。我们利用 ImageNet 上预训练的 ViT 作为主干网络并添加哈希头。所提出的 VTS 模型针对六种不同图像检索框架下的哈希进行了微调,包括深度监督哈希 DSH、HashNet、GreedyHash、改进的深度哈希网络 IDHN、深度极化网络 DPN 和中心相似性量化 CSQ 及其目标函数。我们在 CIFAR10、ImageNet、NUS Wide 和 COCO 数据集上进行了大量实验。所提出的基于 VTS 的图像检索以很大的优势优于最近最先进的散列技术。

Frequency Disentangled Residual Network
Authors Satya Rajendra Singh, Roshan Reddy Yedla, Shiv Ram Dubey, Rakesh Sanodiya, Wei Ta Chu
残差网络 ResNets 已被用于各种计算机视觉和图像处理应用程序。残差连接以更好的梯度流改进了网络的训练。残差块由几个具有可训练参数的卷积层组成,这会导致过拟合。此外,目前的残差网络不能适当地利用高频和低频信息,这也挑战了网络的泛化能力。在本文中,提出了一种频率解缠结残差网络 FDResNet 来解决这些问题。具体来说,FDResNet 在残差块中分别包含低频和高频分量的单独连接。基本上,所提出的模型解开低频和高频分量以增加泛化能力。此外,使用固定滤波器计算低频和高频分量进一步避免了过度拟合。所提出的模型在用于图像分类的基准 CIFAR10 100、Caltech 和 TinyImageNet 数据集上进行了测试。所提出模型的性能也在图像检索框架中进行了测试。值得注意的是,所提出的模型优于其对应的残差模型。还评估了内核大小和标准偏差的影响。

Disentangled Feature Representation for Few-shot Image Classification
Authors Hao Cheng, Yufei Wang, Haoliang Li, Alex C. Kot, Bihan Wen
学习可泛化的特征表示对于少镜头图像分类至关重要。虽然最近的工作使用元任务来利用任务特定的特征嵌入进行少量镜头学习,但它们在许多具有挑战性的任务中受到限制,因为它们会被图像样本的背景、域和风格等移动特征分散注意力。在这项工作中,我们提出了一种新颖的 Disentangled Feature Representation 框架,称为 DFR,用于少数镜头学习应用程序。 DFR 可以自适应地将分类分支建模的判别特征与变异分支的类无关组件解耦。一般来说,大多数流行的深度少镜头学习方法都可以作为分类分支插入,因此 DFR 可以提高它们在各种少镜头任务上的性能。此外,我们提出了一种基于 DomainNet 的新型 FS DomainNet 数据集,用于对少镜头域泛化任务进行基准测试。我们使用相应的四个基准,即迷你 ImageNet、分层 ImageNet、CUB 以及提议的 FS DomainNet,进行了广泛的实验,以评估在一般和细粒度少镜头分类以及少镜头域泛化方面提出的 DFR。

DAMix: Density-Aware Data Augmentation for Unsupervised Domain Adaptation on Single Image Dehazing
Authors Chia Ming Chang, Chang Sung Sung, Tsung Nan Lin
近年来,基于学习的方法在单幅图像去雾方面取得了巨大成功。然而,当遇到领域转移时,这些方法往往会导致性能下降。具体而言,现有数据集之间存在雾度密度差距,当这些方法在数据集之间进行测试时,通常会导致性能不佳。为了解决这个问题,我们提出了一种密度感知数据增强方法 DAMix,它根据目标域的雾度密度水平生成合成的雾度样本。这些样本是通过从密度感知分布中采样的组合比率将朦胧图像与其相应的地面实况相结合而生成的。它们不仅符合大气散射模型,而且还弥合了源域和目标域之间的雾度密度差距。 DAMix 确保模型从具有不同雾度密度的示例中学习。为了更好地利用 DAMix 生成的各种朦胧样本,我们开发了一个双分支去雾网络,涉及两个分支,可以根据区域的雾度密度自适应地去除雾度。此外,双分支设计扩大了整个网络的学习能力,因此我们的网络可以充分利用 DAMix ed 样本。我们通过将 DAMix 应用于现有的开源去雾方法来评估 DAMix 的有效性。实验结果表明,所有方法在应用 DAMix 后都显示出显着的改进。

Structure-Preserving Image Super-Resolution
Authors Cheng Ma, Yongming Rao, Jiwen Lu, Jie Zhou
结构在单幅图像超分辨率 SISR 中很重要。受益于生成对抗网络 GAN,最近的研究通过恢复照片逼真的图像促进了 SISR 的发展。然而,恢复的图像中仍然存在不希望的结构失真。在本文中,我们提出了一种保留结构的超分辨率 SPSR 方法来缓解上述问题,同时保持基于 GAN 的方法的优点,以生成可感知的令人愉悦的细节。首先,我们通过利用图像的梯度图从两个方面引导恢复,提出了具有梯度引导的 SPSR G SPSR。一方面,我们通过梯度分支恢复高分辨率梯度图,为 SR 过程提供额外的结构先验。另一方面,我们提出梯度损失对超分辨图像施加二阶限制,这有助于生成网络更多地关注几何结构。其次,由于梯度图是手工制作的,并且可能只能捕获结构信息的有限方面,我们通过引入可学习的神经结构提取器 NSE 来进一步扩展 SPSR G,以挖掘更丰富的局部结构并为 SR 提供​​更强的监督。我们提出了两种自监督结构学习方法,对比预测和解决拼图,来训练 NSE。我们的方法是模型不可知的,可以潜在地用于现成的 SR 网络。在五个基准数据集上的实验结果表明,在 LPIPS、PSNR 和 SSIM 指标下,所提出的方法优于最先进的感知驱动 SR 方法。视觉结果证明了我们的方法在生成自然 SR 图像的同时恢复结构的优越性。

Partial to Whole Knowledge Distillation: Progressive Distilling Decomposed Knowledge Boosts Student Better
Authors Xuanyang Zhang, Xiangyu Zhang, Jian Sun
知识蒸馏领域精心设计了各种类型的知识,以缩小紧凑型学生和大规模教师之间的性能差距。这些现有的蒸馏方法只关注文本知识质量的提高,而忽略了文本知识数量对蒸馏过程的显着影响。与传统的蒸馏方法从固定的教师计算图中提取知识相反,本文从文本知识量的新角度探索了一个不可忽略的研究方向,以进一步提高知识蒸馏的效率。我们引入了知识分解的新概念,进一步提出了textbf Partial to textbf Whole textbf Knowledge textbf D isstillation textbf PWKD范式。具体来说,我们将教师重构为具有相同深度但增加通道宽度的权重共享子网络,并联合训练子网络以获得具有更多通道代表更多知识的分解知识子网络。然后,学生在多个训练阶段从预训练的教师那里提取部分或全部知识,其中利用循环学习率来加速收敛。一般来说,textbf PWKD 可以看作是一个插件,以兼容现有的离线知识蒸馏方法。

A Simple Self-calibration Method for The Internal Time Synchronization of MEMS LiDAR
Authors Yu Zhang, Xiaoguang Di, Shiyu Yan, Bin Zhang, Baoling Qi, Chunhui Wang
本文针对MEMS微机电系统LiDAR在研发过程中的内部时间同步提出了一种简单的自校准方法。首先,我们介绍了MEMS激光雷达的内部时间错位问题。然后,提出了一种鲁棒的最小垂直梯度MVG先验来校准激光和MEMS反射镜之间的时间差,该时间差可以自动计算,无需任何人工参与或专门设计的合作目标。最后,在 MEMS LiDAR 上进行了实际实验,以证明所提出方法的有效性。

Self-Supervised Learning for MRI Reconstruction with a Parallel Network Training Framework
Authors Chen Hu, Cheng Li, Haifeng Wang, Qiegen Liu, Hairong Zheng, Shanshan Wang
来自欠采样 k 空间数据的图像重建在加速 MR 数据的获取方面起着重要作用,并且最近已经开发了许多基于深度学习的方法。尽管取得了令人鼓舞的结果,但这些方法的优化通常依赖于完全采样的参考数据,这些数据既耗时又难以收集。为了解决这个问题,我们提出了一种新颖的自监督学习方法。具体来说,在模型优化过程中,通过从欠采样数据中随机选取部分k空间数据构建两个子集,然后馈入两个并行的重建网络进行信息恢复。在所有扫描的数据点上定义了两个重建损失,以增强网络恢复频率信息的能力。同时,为了约束网络学习到的未扫描数据点,设计了差异损失以加强两个并行网络之间的一致性。通过这种方式,可以仅使用欠采样数据来正确训练重建模型。在模型评估期间,欠采样数据被视为输入,并且两个训练网络中的任何一个都有望重建高质量的结果。所提出的方法是灵活的,可以在任何现有的基于深度学习的方法中使用。该方法的有效性在开放的大脑 MRI 数据集上进行评估。实验结果表明,与相应的监督学习方法相比,所提出的自监督方法可以在高加速度 4 和 8 下实现具有竞争力的重建性能。

PETA: Photo Albums Event Recognition using Transformers Attention
Authors Tamar Glaser, Emanuel Ben Baruch, Gilad Sharir, Nadav Zamir, Asaf Noy, Lihi Zelnik Manor
近年来,个人照片的拍摄量大幅增加,对多图像理解和高层次图像理解提出了新的挑战。个人相册中的事件识别提出了一种具有挑战性的场景,即从无序的图像集合中识别生活事件,包括相关和不相关的图像。图像中的事件识别也提出了高级图像理解的挑战,而不是低级图像对象分类。在没有分析多个输入的方法的情况下,以前的方法采用了时间机制,包括各种形式的循环神经网络。然而,它们的有效时间窗口是局部的。此外,鉴于相册的无序特性,它们也不是自然的选择。我们通过量身定制的解决方案解决了这一差距,结合了用于图像表示的 CNN 和用于相册表示的转换器的强大功能,以对图像收集进行全局推理,为相册事件识别提供实用且高效的解决方案。我们的解决方案在 3 个突出的基准测试中达到了最先进的结果,在所有数据集上都达到了 90 mAP 以上。

Self-Supervised Video Representation Learning by Video Incoherence Detection
Authors Haozhi Cao, Yuecong Xu, Jianfei Yang, Kezhi Mao, Lihua Xie, Jianxiong Yin, Simon See
本文介绍了一种新颖的自监督方法,该方法利用不相干检测进行视频表示学习。它源于人类的视觉系统可以根据他们对视频的全面理解轻松识别视频不连贯性的观察。具体来说,训练样本,表示为不连贯剪辑,由从同一原始视频分层采样的多个子剪辑构成,这些子剪辑彼此之间具有不同长度的不连贯性。该网络被训练为通过将不连贯剪辑作为输入来预测不连贯的位置和长度来学习高级表示。此外,引入了视频内对比学习以最大化来自同一原始视频的不连贯剪辑之间的互信息。我们通过使用各种骨干网络的动作识别和视频检索的广泛实验来评估我们提出的方法。

ISF-GAN: An Implicit Style Function for High-Resolution Image-to-Image Translation
Authors Yahui Liu, Yajing Chen, Linchao Bao, Nicu Sebe, Bruno Lepri, Marco De Nadai
最近,人们对使用预先训练的无条件图像生成器(例如 StyleGAN)的图像编辑方法越来越感兴趣。然而,应用这些方法将图像转换到多个视觉域仍然具有挑战性。现有作品通常不保留图像的域不变部分,例如人脸翻译中的身份,它们通常不处理多个域,或者不允许多模态翻译。这项工作提出了一种隐式风格函数 ISF,可以直接从预训练的无条件生成器实现多模态和多域图像到图像的转换。 ISF 操纵输入潜在代码的语义,使由此生成的图像位于所需的视觉域中。我们在人脸和动物操作中的结果显示出比基线显着改善的结果。我们的模型使用预训练的无条件 GAN 实现了具有成本效益的多模态无监督图像到高分辨率图像的转换。

Excavating the Potential Capacity of Self-Supervised Monocular Depth Estimation
Authors Rui Peng, Ronggang Wang, Yawen Lai, Luyang Tang, Yangang Cai
由于其巨大的潜力和较低的注释成本,自监督方法在单目深度估计中发挥着越来越重要的作用。为了缩小与监督方法的差距,最近的工作利用了额外的约束,例如语义分割。但是,这些方法不可避免地会增加模型的负担。在本文中,我们展示了理论和经验证据,表明可以在不增加此成本的情况下挖掘自监督单目深度估计的潜在能力。特别是,我们提出了 1 一种称为数据嫁接的新型数据增强方法,它迫使模型探索更多线索来推断垂直图像位置之外的深度,2 探索性自蒸馏损失,由我们生成的自蒸馏标签监督新的后处理方法选择性后处理,3 全尺度网络,旨在赋予编码器深度估计任务的专业性,增强模型的表示能力。

Two Souls in an Adversarial Image: Towards Universal Adversarial Example Detection using Multi-view Inconsistency
Authors Sohaib Kiani, Sana Awan, Chao Lan, Fengjun Li, Bo Luo
在对深度神经网络 DNN 的逃避攻击中,攻击者生成在视觉上与良性样本无法区分的对抗性实例,并将它们发送到目标 DNN 以触发错误分类。在本文中,我们基于新颖的观察提出了一种新颖的多视图对抗性图像检测器,即 Argos。也就是说,在对抗性实例中存在两个灵魂,即视觉上不变的内容,对应于真实标签,以及添加的不可见扰动,对应于错误分类的标签。这种不一致可以通过自回归生成方法进一步放大,该方法生成的图像具有从原始图像中选择的种子像素、选定的标签和从训练数据中学习的像素分布。如果标签是对抗性的,生成的图像即视图将与原始图像显着不同,这表明 Argos 期望检测到的不一致。为此,Argos 首先使用一组再生机制放大图像的视觉内容与其由攻击引起的错误分类标签之间的差异,然后如果再现的视图偏离预设程度,则将图像识别为对抗性的。我们的实验结果表明,Argos 在对抗六种众所周知的对抗性攻击的检测准确性和鲁棒性方面明显优于两个具有代表性的对抗性检测器。

Contrastive Unpaired Translation using Focal Loss for Patch Classification
Authors Bernard Spiegl
图像到图像转换模型将图像从输入域转移到输出域,以努力保留图像的原始内容。对比不成对翻译是解决此类问题的现有方法之一。与竞争对手相比,这种方法的显着优势是能够在输入和输出域都只是单个图像的情况下进行训练并表现良好。这种方法与其前辈不同的另一个关键是使用图像补丁而不是整个图像。事实证明,与从数据集中的其他图像采样负片的情况相比,从同一图像计算损失所需的采样负片补丁可以获得更好的结果。与使用的 CycleGAN 方法相比,这种方法鼓励将相应的补丁映射到与其他补丁底片相关的相同位置,同时提高输出图像质量并显着减少内存使用以及训练模型所需的时间一个基线。

Vehicle Detection and Tracking From Surveillance Cameras in Urban Scenes
Authors Oumayma Messoussi, Felipe Gohring de Magalhaes, Francois Lamarre, Francis Perreault, Ibrahima Sogoba, Guillaume Alexandre Bilodeau, Gabriela Nicolescu
在城市场景中检测和跟踪车辆是许多交通相关应用中的关键步骤,因为它有助于提高道路使用者的安全以及其他好处。多目标跟踪 MOT 中的各种挑战仍未解决,包括目标信息描述、长期遮挡和快速运动。我们提出了一个多车辆检测和跟踪系统,遵循检测范式的跟踪来解决前面提到的挑战。我们的 MOT 方法扩展了具有车辆重新识别特征的基于联合 IOU 的跟踪器的交叉点。这使我们能够利用外观信息在长时间遮挡阶段之后和/或当对象位置由于快速运动而显着移动时更好地匹配对象。

Multi-source Few-shot Domain Adaptation
Authors Xiangyu Yue, Zangwei Zheng, Colorado Reed, Hari Prasanna Das, Kurt Keutzer, Alberto Sangiovanni Vincentelli
多源域适应 MDA 旨在将预测模型从多个完全标记的源域转移到未标记的目标域。但是,在许多应用程序中,相关的标记源数据集可能不可用,并且收集源标记可能与标记目标数据本身一样昂贵。在本文中,我们研究了多源少镜头域适应 MFDA 一种新的域适应场景,具有有限的多源标签和未标记的目标数据。正如我们所展示的,现有方法通常无法在 MFDA 设置中学习源域和目标域的判别特征。因此,我们提出了一个新的框架,称为多源少镜头自适应网络 MSFAN,它可以以非对抗性的方式进行端到端的训练。 MSFAN 首先使用一种原型的、多领域的、自我监督的学习来学习不仅领域不变而且具有类别判别性的特征。其次,MSFAN 使用一个小的、标记的支持集来强制跨域的特征一致性和域不变性。最后,利用来自多个来源的原型来学习更好的分类器。

A Compositional Feature Embedding and Similarity Metric for Ultra-Fine-Grained Visual Categorization
Authors Yajie Sun, Miaohua Zhang, Xiaohan Yu, Yi Liao, Yongsheng Gao
细粒度视觉分类 FGVC 旨在对类间差异较小的对象进行分类,近年来取得了显着进展。然而,以识别模式极其相似的子类为目标的超细粒度视觉分类ultra FGVC并没有受到太多关注。在超 FGVC 数据集中,随着粒度的向下移动,每个类别的样本总是稀缺的,这将导致过拟合问题。而且,不同类别之间的差异太微妙,即使是专业专家也无法区分。受这些问题的启发,本文提出了一种新的组合特征嵌入和相似性度量 CECS。具体来说,在组合特征嵌入模块中,我们随机选择原始输入图像中的补丁,然后这些补丁被来自不同类别的图像的补丁替换或屏蔽掉。然后使用替换和屏蔽的图像来增强原始输入图像,可以提供更多样的样本,从而在很大程度上缓解由于训练样本有限而导致的过拟合问题。此外,对不同样本的学习迫使模型不仅学习最具辨别力的特征,还学习其余区域的其他信息特征,增强了模型的泛化性和鲁棒性。在成分相似性度量模块中,开发了一种新的相似性度量,通过缩小类内距离和扩大类间距离来提高分类性能。

Contrastive Learning for Mitochondria Segmentation
Authors Zhili Li, Xuejin Chen, Jie Zhao, Zhiwei Xiong
电子显微镜图像中的线粒体分割在神经科学中至关重要。然而,由于成像过程中的图像退化、线粒体结构的多样性以及噪声、伪影和其他亚细胞结构的存在,线粒体分割非常具有挑战性。在本文中,我们提出了一种新颖有效的对比学习框架,以从困难示例中学习更好的特征表示以改进分割。具体来说,我们采用点采样策略从训练阶段的困难示例中挑选出具有代表性的像素。基于这些采样像素,我们引入了一个基于像素标记的对比损失,它由一个相似性损失项和一个一致性损失项组成。相似项可以增加同一类像素的相似度和不同类像素在特征空间中的可分离性,而一致性项可以增强3D模型对逐帧图像内容变化的敏感度。

TreeNet: A lightweight One-Shot Aggregation Convolutional Network
Authors Lu Rao, Qinglong Zhang, Yubin Yang
深度卷积网络 CNN 的架构已经发展多年,变得更加准确和快速。然而,设计合理的网络结构以在有限的计算预算下获得最佳精度仍然具有挑战性。在本文中,我们提出了一种以其外观命名的 Tree 块,它扩展了 One Shot Aggregation OSA 模块,同时更加轻量和灵活。具体来说,Tree block 将 OSA 中的 3 times3 Conv 层分别替换成浅残差块 SRB 和 1 times1 Conv 层的堆栈。 1×1 Conv 层负责维数增加,SRB 被送入下一步。通过这样做,当聚合相同数量的后续特征图时,树块具有更深的网络结构,同时具有更小的模型复杂度。此外,在Tree块中加入了残差连接和高效的通道注意力ECA,进一步提升了网络的性能。基于 Tree 块,我们构建了调用 TreeNets 的高效主干模型。 TreeNet 具有与 ResNet 类似的网络架构,可以灵活地替换各种计算机视觉框架中的 ResNet。我们在常用基准上全面评估 TreeNet,包括用于分类的 ImageNet 1k、用于对象检测的 MS COCO 和实例分割。

Distribution-sensitive Information Retention for Accurate Binary Neural Network
Authors Haotong Qin, Xiangguo Zhang, Ruihao Gong, Yifu Ding, Yi Xu, XianglongLiu
模型二值化是一种压缩神经网络并加速其推理过程的有效方法,它使最先进的模型能够在资源有限的设备上运行。但是,1 位模型和 32 位模型之间仍然存在显着的性能差距。实证研究表明,二值化在前向和反向传播中会造成大量的信息丢失,损害了二值神经网络 BNN 的性能,二值化参数的信息表示能力有限是 BNN 性能的瓶颈之一。我们提出了一种新颖的分布敏感信息保留网络 DIR Net 来保留前向激活和后向梯度的信息,它通过分布敏感优化改进了 BNN,而不会增加推理过程中的开销。 DIR Net 主要依赖两个技术贡献 1 Information Maximized Binarization IMB 通过平衡和标准化前向传播中的权重分布来同时最小化权重激活的信息损失和量化误差 2 分布敏感 两阶段估计器 DTE 最小化梯度的信息损失通过反向传播中符号函数的渐进分布敏感逼近,联合考虑更新能力和精确梯度。 DIR Net 从统一信息的角度研究 BNN 的前向和后向过程,从而为网络二值化机制提供了新的见解。在 CIFAR 10 和 ImageNet 数据集上的综合实验表明,我们的 DIR Net 在主流和紧凑架构下始终优于 SOTA 二值化方法。

Hard-sample Guided Hybrid Contrast Learning for Unsupervised Person Re-Identification
Authors Zheng Hu, Chuang Zhu, Gang He
无监督人员重新识别 Re ID 是计算机视觉中一个很有前途且极具挑战性的研究问题。使用未标记的数据学习鲁棒性和判别性特征对于 Re ID 至关重要。最近,基于聚类伪标签的无监督 Re ID 算法受到更多关注。然而,以前的方法并没有充分利用困难样本的信息,只是使用聚类质心或所有实例进行对比学习。在本文中,我们提出了一种硬样本引导混合对比学习 HHCL 方法,该方法将集群级损失与无监督人员 Re ID 的实例级损失相结合。我们的方法应用簇质心对比损失来确保网络以更稳定的方式更新。同时,硬实例对比损失的引入进一步挖掘了判别信息。在两个流行的大规模 Re ID 基准上进行的大量实验表明,我们的 HHCL 优于先前最先进的方法,并显着提高了无监督人员 Re ID 的性能。

Multi-Modal Multi-Instance Learning for Retinal Disease Recognition
Authors Xirong Li, Yang Zhou, Jie Wang, Hailan Lin, Jianchun Zhao, Dayong Ding, Weihong Yu, Youxin Chen
本文针对多模态视网膜疾病识别的新挑战提出了挑战。给定一个由彩色眼底照片 CFP 和在眼科检查期间获得的一系列 OCT B 扫描图像组成的多模态案例,我们的目标是构建一个深度神经网络,以识别给定案例的多种威胁视力的疾病。由于 CFP 和 OCT 的诊断功效取决于疾病,因此网络具有选择性和可解释性的能力很重要。此外,由于数据采集和手动标记在医学领域都非常昂贵,因此网络必须相对轻量级才能从有限的标记多模态样本集中学习。关于视网膜疾病识别的现有技术集中于单一疾病或单一模态,使得多模态融合很大程度上未得到充分探索。我们在本文中提出了多模态多实例学习 MM MIL,用于选择性地融合 CFP 和 OCT 模态。与当前的多头注意力模块相比,其轻量级架构使其适合从相对较小的数据集学习。为了有效使用 MM MIL,我们建议通过对给定 CFP 进行过采样来生成 CFP 的伪序列。这种策略的好处包括在不同模式之间很好地平衡实例,提高 CFP 输入的分辨率,以及找出与最终诊断最相关的 CFP 区域。

A Novel Patch Convolutional Neural Network for View-based 3D Model Retrieval
Authors Zan Gao, Yuxiang Shao, Weili Guan, Meng Liu, Zhiyong Cheng, Shengyong Chen
最近,已经提出了许多基于视图的 3D 模型检索方法,并取得了最先进的性能。这些方法中的大多数侧重于提取更具辨别力的视图级别特征并有效地聚合 3D 模型的多视图图像,但并未充分探索这些多视图图像之间的潜在关系。因此,我们从利用补丁特征之间的关系来捕获多视图图像之间的长距离关联的角度来解决这个问题。为了捕捉视图之间的关联,在这项工作中,我们提出了一种新的补丁卷积神经网络 PCNN,用于基于视图的 3D 模型检索。具体来说,我们首先使用 CNN 分别提取每个视图图像的补丁特征。其次,一个名为 PatchConv 的新型神经网络模块旨在利用特征空间中相邻块之间的内在关系来捕获多视图图像之间的长距离关联。然后,将自适应加权视图层进一步嵌入到 PCNN 中,根据每个视图特征与视图池化特征之间的相似性自动为每个视图分配权重。最后,使用判别损失函数来提取判别性 3D 模型特征,该特征由融合分类器和特定分类器生成的 softmax 损失值组成。

Learning Stereopsis from Geometric Synthesis for 6D Object Pose Estimation
Authors Jun Wu, Lilu Liu, Yue Wang, Rong Xiong
当前基于单眼的 6D 物体姿态估计方法通常比基于 RGBD 的方法获得的结果竞争性较低,这主要是由于缺乏 3D 信息。为了弥补这一差距,本文提出了一种基于 3D 几何体积的姿势估计方法,具有短基线两视图设置。通过在 3D 空间中构建几何体积,我们将两个相邻图像的特征组合到同一个 3D 空间。然后训练一个网络来学习物体关键点在体积中的位置分布,并部署一个强大的软 RANSAC 求解器来求解封闭形式的姿势。为了平衡准确性和成本,我们提出了一个从粗到细的框架,以迭代方式提高性能。

Data, Assemble: Leveraging Multiple Datasets with Heterogeneous and Partial Labels
Authors Mintong Kang, Yongyi Lu, Alan L. Yuille, Zongwei Zhou
深度学习的成功在很大程度上依赖于具有广泛标签的大型数据集,但我们通常只能访问几个与部分标签相关的小型异构数据集,尤其是在医学成像领域。从多个数据集学习时,现有的挑战包括跨数据集的无与伦比、异构甚至冲突的标签协议。在本文中,我们提出了一种新的主​​动数据 assemble,旨在释放部分标记数据和来自一组数据集的大量未标记数据的全部潜力。为了适应部分标签的监督学习范式,我们引入了一个动态适配器,它编码多个视觉任务并以问答方式聚合图像特征。此外,我们采用伪标签和一致性约束来利用缺少标签的图像并减少数据集之间的域差距。通过对三个自然成像数据集的概念研究和对两个大型胸部 X 射线基准的严格评估,我们发现从反例中学习有助于对感兴趣的类别进行分类和分割。这为罕见疾病和新出现的流行病的计算机辅助诊断提供了新的思路,其中正例很难收集,而反例相对更容易收集。因此,除了在 NIH ChestXray 基准测试中超过现有技术外,我们的模型在识别少数类疾病方面特别强大,平均提高了 3 分以上。

An embarrassingly simple comparison of machine learning algorithms for indoor scene classification
Authors Bhanuka Manesha Samarasekara Vitharana Gamage
随着自主室内机器人的出现,室内场景识别的计算机视觉任务受到关注。室内场景识别是计算机视觉中的一个具有挑战性的问题,它依赖于场景中的局部和全局特征。本研究旨在比较五种机器学习算法在室内场景分类任务上的性能,以识别每种分类器的优缺点。它还提供了低延迟特征提取器与巨大特征提取器的比较,以了解性能影响。

Tensor Full Feature Measure and Its Nonconvex Relaxation Applications to Tensor Recovery
Authors Hongbing Zhang, Xinyi Liu, Hongtao Fan, Yajing Li, Yinlin Ye
张量稀疏建模作为一种很有前途的方法,在整个科学和工程领域已经取得了巨大的成功。众所周知,实际应用中的各种数据往往是由多因素产生的,因此用张量来表示包含多因素内部结构的数据就应运而生了。然而,与矩阵情况不同,构造合理的张量稀疏测度是一项相对困难且非常重要的任务。因此,在本文中,我们提出了一种新的张量稀疏度量,称为 Tensor Full Feature Measure FFM 。它可以同时描述张量各个维度的特征信息以及两个维度之间的相关特征,并将Tucker秩与张量管秩联系起来。这种测量方法可以更全面地描述张量的稀疏特征。在此基础上,我们建立了它的非凸松弛,并将FFM应用于低秩张量完成LRTC和张量鲁棒主成分分析TRPCA。提出了基于FFM的LRTC和TRPCA模型,并开发了两种高效的交替方向乘法器ADMM算法来求解所提出的模型。

Long-Range Feature Propagating for Natural Image Matting
Authors Qinglin Liu, Haozhe Xie, Shengping Zhang, Bineng Zhong, Rongrong Ji
自然图像抠图估计trimap 中未知区域的alpha 值。最近,基于深度学习的方法根据它们之间的相似性将 alpha 值从已知区域传播到未知区域。然而,我们发现由于普通卷积神经网络的有效接收场较小,未知区域中超过50个像素无法与已知区域中的像素相关联,这导致当未知区域中的像素无法与已知区域中的像素关联时,导致估计不准确。仅通过接收场中的像素进行推断。为了解决这个问题,我们提出了远程特征传播网络 LFPNet,它学习接收场之外的远程上下文特征以进行 alpha 遮罩估计。具体来说,我们首先设计了从下采样图像中提取上下文特征的传播模块。然后,我们提出了中心环绕金字塔池化 CSPP,它明确地将上下文特征从周围的上下文图像块传播到内部中心图像块。最后,我们使用 matting 模块,它采用图像、trimap 和上下文特征来估计 alpha 遮罩。

Bringing Generalization to Deep Multi-view Detection
Authors Jeet Vora, Swetanjal Dutta, Shyamgopal Karthik, Vineet Gandhi
Multi view Detection MVD对于遮挡推理非常有效,是各种需要精确顶视图占用图的应用中的主流解决方案。虽然最近使用深度学习的工作在该领域取得了重大进展,但它们忽略了泛化方面,这使得它们在现实世界部署中显得不切实际。我们工作的关键新颖之处在于将三种关键形式的泛化形式化,并提出实验来研究它们:i 跨不同数量的相机的泛化,ii 不同相机位置的泛化,最后,iii 对新场景的泛化。我们发现现有的 sota 模型由于过度拟合单个场景和相机配置而表现出较差的泛化能力。我们建议在预训练、池化策略、正则化和损失函数方面对现有最先进的框架进行修改,从而在新的相机配置和新场景中成功泛化。我们对 Wildtrack 和 multiviewx 数据集进行了一系列全面的实验,以激发评估 MVD 方法对泛化能力的必要性,并证明所提出方法的有效性。

Ground material classification and for UAV-based photogrammetric 3D data A 2D-3D Hybrid Approach
Authors Meida Chen, Andrew Feng, Yu Hou, Kyle McCullough, Pratusha Bhuvana Prasad, Lucio Soibelman
近年来,摄影测量已广泛应用于许多领域,以创建代表物理环境的逼真 3D 虚拟数据。小型无人机 sUAV 的创新以低成本提供了额外的高分辨率成像能力,用于绘制相对较大的感兴趣区域。这些尖端技术以快速3D战场重建、虚拟训练和模拟为目的,引起了美国陆军和海军的关注。我们之前的工作已经证明了从派生的摄影测量数据中提取信息对于创建语义丰富的虚拟环境的重要性 Chen et al., 2019。例如,通过使用游戏就绪树模型分割和替换摄影测量树来提高模拟真实性和保真度。在这项工作中,我们进一步研究了语义信息提取问题,并专注于地面材料分割和目标检测任务。这项工作的主要创新是我们利用原始 2D 图像和派生的 3D 摄影测量数据来克服使用每个单独数据源时面临的挑战。对于地面材料分割,我们利用了现有的卷积神经网络架构,即 3DMV,其最初设计用于分割 RGB D 感测的室内数据。我们通过在架构中引入深度池化层来考虑源图像和重建地形模型之间的距离,提高了其室外摄影测量数据的性能。为了测试我们改进的 3DMV 的性能,我们使用 One World Terrain OWT 数据存储库中的数据创建了地面实况地面材料数据库。

MLIM: Vision-and-Language Model Pre-training with Masked Language and Image Modeling
Authors Tarik Arici, Mehmet Saygin Seyfioglu, Tal Neiman, Yi Xu, Son Train, Trishul Chilimbi, Belinda Zeng, Ismail Tutar
视觉和语言预训练 VLP 提高了需要图像和文本输入的下游任务的模型性能。当前的 VLP 方法在 i 模型架构上有所不同,尤其是图像嵌入器、ii 损失函数和 iii 屏蔽策略。图像嵌入器要么是像 ResNet 这样的深度模型,要么是直接将图像像素输入到转换器中的线性投影。通常,除了 Masked Language Modeling MLM loss,基于对齐的目标用于跨模态交互,以及用于 Masked Image Region Modeling MIRM 的 RoI 特征回归和分类任务。对齐和 MIRM 目标大多都没有基本事实。基于对齐的目标需要图像和文本的配对以及启发式目标函数。 MIRM 依赖于物体检测器。掩码策略要么不利用多模态,要么与其他模型生成的对齐严格耦合。在本文中,我们介绍了用于 VLP 的掩码语言和图像建模 MLIM。 MLIM 使用了两个损失函数 Masked Language Modeling MLM loss 和图像重建 RECON loss。我们提出了 Modality Aware Masking MAM 来促进跨模态交互,并利用 MLM 和 RECON 损失分别捕获文本和图像重建质量。

Attentive Contractive Flow: Improved Contractive Flows with Lipschitz-constrained Self-Attention
Authors Avideep Mukherjee, Badri Narayan Patro, Sahil Sidheekh, Maneesh Singh, Vinay P. Namboodiri
标准化流提供了一种优雅的方法,可通过使用可逆变换从分布中获得易于处理的密度估计。主要挑战是在保持可逆性约束不变的同时提高模型的表现力。我们建议通过结合局部自我注意来做到这一点。然而,传统的自注意力机制不能满足获得可逆流的要求,也不能天真地合并到归一化流中。为了解决这个问题,我们引入了一种称为注意力收缩流 ACF 的新方法,它利用了一种特殊的基于流的生成模型收缩流。我们证明了 ACF 可以以即插即用的方式引入各种最先进的流模型。事实证明,这不仅可以提高这些模型的表示能力,提高了每个维度度量的位数,而且还可以显着加快训练它们的收敛速度。定性结果,包括测试图像之间的插值,表明样本更真实,并能很好地捕捉数据中的局部相关性。

Automatic Map Update Using Dashcam Videos
Authors Aziza Zhanabatyrova, Clayton Souza Leite, Yu Xiao
自动驾驶需要 3D 地图,以提供有关语义地标的准确和最新信息。由于与激光扫描仪相比,相机具有更广泛的可用性和更低的成本,基于视觉的地图绘制引起了学术界和工业界的广泛关注。在现有的解决方案中,Motion SfM 技术的 Structure 已被证明对于从众包数据构建 3D 地图是可行的,因为它允许无序图像作为输入。

SAU: Smooth activation function using convolution with approximate identities
Authors Koushik Biswas, Sandeep Kumar, Shilpak Banerjee, Ashish Kumar Pandey
众所周知的激活函数,如 ReLU 或 Leaky ReLU,在原点是不可微的。多年来,人们使用各种平滑技术提出了许多 ReLU 的平滑近似。我们通过将其与近似身份卷积来提出不可微激活函数的新平滑近似。特别是,我们提出了 Leaky ReLU 的平滑近似,并表明它们在各种数据集和模型中优于几个众所周知的激活函数。我们称这个函数为平滑激活单元 SAU。

Spiking neural networks trained via proxy
Authors Saeed Reza Kheradpisheh, Maryam Mirsadeghi, Timoth e Masquelier
我们提出了一种新的学习算法,使用传统的人工神经网络 ANN 作为代理来训练尖峰神经网络 SNN。我们分别耦合了两个 SNN 和 ANN 网络,它们由具有相同网络架构和共享突触权重的集成和激发 IF 和 ReLU 神经元组成。两个网络的前向传播是完全独立的。通过假设具有速率编码的 IF 神经元作为 ReLU 的近似值,我们反向传播代理 ANN 中 SNN 的误差以更新共享权重,只需将 ANN 最终输出替换为 SNN 的最终输出即可。我们将所提出的代理学习应用于深度卷积 SNN,并在 Fahion MNIST 和 Cifar10 的两个基准数据集上对其进行评估,分类准确度分别为 94.56 和 93.11。所提出的网络可以胜过使用串联学习、替代梯度学习或从深度 ANN 转换而来的其他深度 SNN。

DAReN: A Collaborative Approach Towards Reasoning And Disentangling
Authors Pritish Sahu, Vladimir Pavlovic
用于解决视觉推理测试的计算学习方法,例如 Raven 的渐进矩阵 RPM,严重依赖于计算方法识别测试中使用的视觉概念的能力,即基于这些概念的表示和潜在规则,即,推理。然而,表示和推理的学习是一项具有挑战性和不适定的任务,通常以先表示再推理的阶段性方式进行。在这项工作中,我们提出了一个端到端的联合表示推理学习框架,它利用一种弱形式的归纳偏差来共同改进这两个任务。具体来说,我们提出了一个通用的 RPM 生成图模型 GM RPM,并将其应用于解决推理测试。我们使用基于 GM RPM 原理的新型学习框架 Disentangling 抽象推理网络 DAReN 来实现这一点。我们在几个基准数据集上对 DAReN 进行了实证评估。 DAReN 在推理和解开任务上都表现出优于最先进的 SOTA 模型的持续改进。

Towards the Classification of Error-Related Potentials using Riemannian Geometry
Authors Yichen Tang, Jerry J. Zhang, Paul M. Corballis, Luke E. Hallum
错误相关电位 ErrP 是实验参与者在任务执行过程中对错误的识别所诱发的事件相关电位 ERP。 ErrPs 最初由认知心理学家描述,已被用于脑机接口 BCI 以检测和纠正错误,以及解码算法的在线改进。基于黎曼几何的特征提取和分类是 BCI 的一种新方法,它在一系列实验范式中表现出良好的性能,但尚未应用于 ErrP 的分类。在这里,我们描述了一项实验,该实验在执行视觉辨别任务的 7 名正常参与者中引发 ErrP。每次试验都提供音频反馈。我们使用多通道脑电图 EEG 记录对 ErrPs 成功失败进行分类,将基于黎曼几何的方法与计算时间点特征的传统方法进行比较。总体而言,黎曼方法优于传统方法 78.2 和 75.9 的准确度,p = 0.05 这种差异在七名参与者中的三名中具有统计学显着性 p = 0.05。

Optimising for Interpretability: Convolutional Dynamic Alignment Networks
Authors Moritz B hle, Mario Fritz, Bernt Schiele
我们引入了一个新的神经网络模型系列,称为卷积动态对齐网络 CoDA Nets,它们是具有高度固有可解释性的高性能分类器。它们的核心构建块是动态对齐单元 DAU,它们经过优化,可以使用与任务相关模式对齐的动态计算权重向量来转换其输入。因此,CoDA Nets 通过一系列依赖于输入的线性变换对分类预测进行建模,从而允许将输出线性分解为单个输入贡献。给定 DAU 的对齐方式,生成的贡献图与判别输入模式对齐。这些模型固有的分解具有很高的视觉质量,并且在定量指标下优于现有的归因方法。此外,CoDA Nets 构成了高性能分类器,在例如 ResNet 和 VGG 模型上实现了相同的结果。 CIFAR 10 和 TinyImagenet。最后,CoDA Nets 可以与传统的神经网络模型结合产生强大的分类器,这些分类器更容易​​扩展到复杂的数据集,如 Imagenet,同时表现出增加的可解释深度,即输出可以根据中间层的贡献得到很好的解释。

CT-ICP: Real-time Elastic LiDAR Odometry with Loop Closure
Authors Pierre Dellenbach, Jean Emmanuel Deschaud, Bastien Jacquet, Fran ois Goulette
多光束 LiDAR 传感器越来越多地用于机器人技术,特别是用于定位和感知任务的自动驾驶汽车。然而,感知与定位任务和机器人构建其环境精细地图的能力密切相关。为此,我们提出了一种新的实时 LiDAR 里程计方法,称为 CT ICP,以及具有闭环的完整 SLAM。 CT ICP 的原理是使用轨迹的弹性公式,具有扫描内姿势的连续性和扫描之间的不连续性,以便对传感器运动中的高频更加鲁棒。配准是基于扫描映射到密集点云作为以稀疏体素结构化的实时操作的映射。同时,使用高程图像和通过图形优化姿态的快速回环检测方法允许纯粹在 LiDAR 上获得完整的 SLAM。为了展示该方法的稳健性,我们在驾驶和高频运动场景中在七个数据集 KITTI、KITTI raw、KITTI 360、KITTI CARLA、ParisLuco、Newer College 和 NCLT 上对其进行了测试。 CT ICP 里程计是用 C 语言实现的,可在线获取。循环检测和姿态图优化位于 Python 框架 pyLiDAR SLAM 中,也可在线获取。

Optimized Automated Cardiac MR Scar Quantification with GAN-Based Data Augmentation
Authors Didier R.P.R.M. Lustermans, Sina Amirrajab, Mitko Veta, Marcel Breeuwer, Cian M. Scannell
背景 由于缺乏标准化和耗时的后处理,晚期钆增强 LGE 心脏 MRI 的临床应用受到限制。

ClipMatrix: Text-controlled Creation of 3D Textured Meshes
Authors Nikolay Jetchev
如果一张图片值一千字,一个移动的 3d 形状必须值一百万。我们建立在最近成功的生成方法的基础上,这些方法创建了适合文本提示语义的图像,并将其扩展到 3d 对象的受控生成。我们提出了一种用于创建带纹理的 3d 网格的新算法,由文本提示控制。我们的方法创建了美观的高分辨率铰接 3d 网格,并为 3d 资产的自动化和 AI 控制开辟了新的可能性。我们称它为 ClipMatrix 是因为它利用 CLIP 文本嵌入来培育新的数字 3d 生物,这是对单词 matrix mom 的拉丁含义的一种认可。

Compressive Visual Representations
Authors Kuang Huei Lee, Anurag Arnab, Sergio Guadarrama, John Canny, Ian Fischer
为了将机器学习应用于各种任务,学习在没有人工监督的情况下可以很好地泛化的有效视觉表示是一个基本问题。最近,以 SimCLR 和 BYOL 为代表的两类自监督方法,对比学习和潜在自举,取得了重大进展。在这项工作中,我们假设向这些算法添加显式信息压缩会产生更好、更健壮的表示。我们通过开发与条件熵瓶颈 CEB 目标兼容的 SimCLR 和 BYOL 公式来验证这一点,允许我们测量和控制学习表示中的压缩量,并观察它们对下游任务的影响。此外,我们探索了 Lipschitz 连续性和压缩之间的关系,显示了我们学习的编码器的 Lipschitz 常数的易处理下限。由于 Lipschitz 连续性与稳健性密切相关,这为压缩模型更稳健的原因提供了新的解释。我们的实验证实,向 SimCLR 和 BYOL 添加压缩可显着提高线性评估精度和模型在广泛的域转换范围内的稳健性。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页


pic from pexels.com

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值