【AI视野·今日CV 计算机视觉论文速览第236期】Tue, 28 Sep 2021_vision transformer hashing for image retrieval-CSDN博客

本文链接：https://blog.csdn.net/u014636245/article/details/120531094

AI视野·今日CS.CV 计算机视觉论文速览
Tue, 28 Sep 2021 (showing first 100 of 106 entries)
Totally 100 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Interesting:

****📚PASS, 代替ImageNet数据集的自监督预训练数据集,参考学习如何做数据集的文章。(from VGG 牛津)
在这里插入图片描述

code:https://www.robots.ox.ac.uk/ vgg/research/pass/

📚压缩视觉表示, (from 谷歌)
在这里插入图片描述

从自监督学习表示的两种主要添加显式信息压缩算法以获取更为鲁棒的表示。

📚MLIM, 基于语言掩膜和视觉建模的视觉语言模型预训练。(from 亚马逊)
在这里插入图片描述

📚LFPNet, 基于长程特征传播的自然图像抠图matting。(from HIT哈工大)
在这里插入图片描述

📚基于语言的任务检索, (from 西北工业大学 )
在这里插入图片描述

📚TreeNet, 新型卷积聚合网络结构(from 南京大学)。
在这里插入图片描述

**📚VQA-MHUG Gaze Dataset, 视觉问答视线注意力数据集。利用眼动仪采集。(from 德国vis 挪威clcg)
在这里插入图片描述

code:https://perceptualui.org/publications/sood21_conll/

📚HarriZ+ 新型图像匹配特征描述子。 (from Universit`a Degli Studi di Palermo, Italy)

Daily Computer Vision Papers

PASS: An ImageNet replacement for self-supervised pretraining without humans
Authors Yuki M. Asano, Christian Rupprecht, Andrew Zisserman, Andrea Vedaldi
计算机视觉长期以来一直依赖 ImageNet 和其他从互联网上采样的大型图像数据集来进行预训练模型。然而，这些数据集存在道德和技术缺陷，例如包含未经同意获取的个人信息、许可证使用不明确、偏见，在某些情况下甚至包含有问题的图像内容。另一方面，目前最先进的预训练是通过无监督方法获得的，这意味着标记数据集（如 ImageNet）对于模型预训练可能不是必需的，甚至可能不是最佳的。因此，我们提出了一个未标记的数据集 PASS Pictures without humAns for Self Supervision。 PASS 仅包含具有 CC BY 许可和完整属性元数据的图像，解决版权问题。最重要的是，它根本不包含人的图像，并且还避免了对数据保护或道德有问题的其他类型的图像。我们表明 PASS 可用于使用 MoCo v2、SwAV 和 DINO 等方法进行预训练。在迁移学习设置中，即使在涉及人类的任务（例如人体姿势估计）上，它也能产生与 ImageNet 预训练相似的下游性能。 PASS 不会使现有数据集过时，例如它不足以进行基准测试。

TSM: Temporal Shift Module for Efficient and Scalable Video Understanding on Edge Device
Authors Ji Lin, Chuang Gan, Kuan Wang, Song Han
视频流的爆炸性增长需要高精度和低计算成本的视频理解。传统的 2D CNN 计算成本低，但无法捕获时间关系基于 3D CNN 的方法可以获得良好的性能，但计算量大。在本文中，我们提出了一种通用且有效的 Temporal Shift Module TSM，它兼具高效率和高性能。 TSM 的关键思想是沿时间维度移动部分通道，从而促进相邻帧之间的信息交换。它可以插入到 2D CNN 中以实现零计算和零参数的时间建模。 TSM 提供了几个独特的优势。首先，TSM 的性能很高，提交后在Something Something 的排行榜上排名第一。其次，TSM效率高，在Jetson Nano和Galaxy Note8上实现了74fps和29fps的高帧率在线视频识别。第三，与 3D 网络相比，TSM 具有更高的可扩展性，可在 1536 个 GPU 上在 15 分钟内实现大规模 Kinetics 训练。最后，TSM 实现了动作概念学习，而 2D 网络无法建模，我们将类别注意力图可视化，并发现在分类任务的训练过程中会出现时空动作检测器。

Predicting Driver Self-Reported Stress by Analyzing the Road Scene
Authors Cristina Bustos, Neska Elhaouij, Albert Sole Ribalta, Javier Borge Holthoefer, Agata Lapedriza, Rosalind Picard
几项研究表明生物信号在驾驶员压力识别中的相关性。在这项工作中，我们研究了一些鲜为人知的重要内容我们开发了测试视觉驾驶场景是否可用于估计驾驶员主观压力水平的方法。为此，我们使用了 AffectiveROAD 视频记录及其相应的压力标签，这是一个连续的人类司机提供的压力指标。我们对压力使用普通类离散化，将其连续值分为低、中和高三类。我们设计并评估了三种计算机视觉建模方法来对驾驶员的压力水平 1 对象存在特征进行分类，其中使用自动场景分割 2 端到端图像分类和 3 端到端视频分类计算特征。所有三种方法都显示出有希望的结果，这表明可以从视觉场景中发现的信息中估计驾驶员的主观压力。

Comparison of Object Detection Algorithms Using Video and Thermal Images Collected from a UAS Platform: An Application of Drones in Traffic Management
Authors Hualong Tang, Joseph Post, Achilleas Kourtellis, Brian Porter, Yu Zhang
无人驾驶飞行器无人机在交通管理中的应用增长迅速，例如交通监视、监控和事件检测。然而，现有文献在解决实践中的隐私问题的同时，缺乏实时事件检测的解决方案。本研究探索了视觉和红外摄像机上的实时车辆检测算法，并进行了比较其性能的实验。红绿蓝 RGB 视频和热图像是从佛罗里达州坦帕地区高速公路沿线的 UAS 平台收集的。实验旨在量化基于实时背景减法的方法在自由流动条件下悬停 UAV 的静止摄像机车辆检测中的性能。实验中根据无人机和传感器相对于道路的几何形状设置了几个参数。结果表明，在大多数情况下，基于背景减法的方法可以在 RGB 图像 F1 得分约 0.9 上实现良好的检测性能，并且在不同方位角的热图像上可以看到更多样化的性能。

Visual Anomaly Detection for Images: A Survey
Authors Jie Yang, Ruijie Xu, Zhiquan Qi, Yong Shi
视觉异常检测是机器学习和计算机视觉领域的一个重要且具有挑战性的问题。这个问题引起了相关研究界的广泛关注。特别是近年来，深度学习的发展引发了人们对视觉异常检测问题的日益关注，并带来了各种各样的新方法。在本文中，我们对文献中基于经典和深度学习的视觉异常检测方法进行了全面调查。我们根据其基本原则对相关方法进行分组，并仔细讨论它们的假设、优点和缺点。

Multimodal Integration of Human-Like Attention in Visual Question Answering
Authors Ekta Sood, Fabian K gel, Philipp M ller, Dominike Thomas, Mihai Bace, Andreas Bulling
类似人类的注意力作为指导神经注意力的监督信号已显示出显着的前景，但目前仅限于单模态整合，即使对于视觉问答 VQA 等固有的多模态任务也是如此。我们提出了 Multimodal Human like Attention Network MULAN，这是第一种在 VQA 模型训练期间对图像和文本的人类注意力进行多模态整合的方法。 MULAN 将来自两个最先进的文本和图像显着性模型的注意力预测集成到最近基于 Transformer 的 VQA 模型的神经自注意力层中。通过对具有挑战性的 VQAv2 数据集的评估，我们表明 MULAN 在测试标准上达到了 73.98 的准确率，在测试开发上达到了 73.72，同时，与之前的工作相比，可训练参数减少了大约 80 个。

GANiry: Bald-to-Hairy Translation Using CycleGAN
Authors Fidan Samet, Oguz Bakir
这项工作展示了我们的计算机视觉课程项目，称为使用 CycleGAN 将秃头男子翻译为多毛男子。在 CycleGAN 架构之上，我们利用感知损失来获得更真实的结果。我们还整合了条件约束，以获得秃头男人的不同风格和颜色的头发。我们进行了广泛的实验，并在本文中给出了定性结果。

An End-to-end Entangled Segmentation and Classification Convolutional Neural Network for Periodontitis Stage Grading from Periapical Radiographic Images
Authors Tanjida Kabir, Chun Teh Lee, Jiman Nelson, Sally Sheng, Hsiu Wan Meng, Luyao Chen, Muhammad F Walji, Xioaqian Jiang, Shayan Shams
牙周炎是一种与生物膜相关的慢性炎症性疾病，其特征是牙齿区域的牙龈炎和骨质流失。在美国，大约有 6100 万 30 岁以上的成年人患有牙周炎 42.2，其中 7.8 人患有严重的牙周炎。放射学骨丢失 RBL 的测量对于做出正确的牙周诊断是必要的，尤其是在全面和纵向牙周标测不可用的情况下。但是，医生可以根据他们的经验和知识对 X 射线进行不同的解释。为医生提供计算机化诊断支持，有助于做出高精度和一致性的诊断，并制定适当的治疗计划，以预防或控制牙周炎。我们通过集成分割和分类任务，从根尖周放射图像对牙周炎进行分级，开发了一个端到端的深度学习网络 HYNETS 混合网络，用于射线照相的牙周炎阶段。 HYNETS 通过结合一组分割网络和分类网络来利用多任务学习策略，以提供端到端的可解释解决方案以及高度准确和一致的结果。 HYNETS 的骨面积和牙齿分割的平均骰子系数为 0.96 和 0.94，牙周炎分期分配的平均 AUC 为 0.97。此外，传统的图像处理技术提供 RBL 测量并建立模型预测的透明度和信任度。

VQA-MHUG: A Gaze Dataset to Study Multimodal Neural Attention in Visual Question Answering
Authors Ekta Sood, Fabian K gel, Florian Strohm, Prajit Dhar, Andreas Bulling
我们在使用高速眼动仪收集的视觉问答 VQA 期间，向 VQA MHUG 展示了一个新的 49 位参与者多模态人类注视图像和问题的数据集。我们使用我们的数据集来分析五个最先进的 VQA 模型 Modular Co Attention Network MCAN、Pythia、Bilinear Attention Network BAN 和 Multimodal Factorized Bilinear Pooling Network MFB 学习的人类注意力策略和神经注意力策略之间的相似性.虽然之前的工作侧重于研究图像模态，但我们的分析首次表明，对于所有模型，与人类对文本的注意力的更高相关性是 VQA 性能的重要预测指标。

MFEViT: A Robust Lightweight Transformer-based Network for Multimodal 2D+3D Facial Expression Recognition
Authors Hanting Li, Mingzhe Sui, Zhaoqing Zhu, Feng Zhao
Vision Transformer ViT 因其自注意力机制帮助获得自第一层以来的全局感受野，因此在许多领域得到了广泛的应用。它甚至在某些视觉任务中取得了超过 CNN 的惊人性能。然而，在将视觉变换器用于 2D 3D 面部表情识别 FER 时存在一个问题，即 ViT 训练需要大量数据。尽管如此，公共 2D 3D FER 数据集中的样本数量远不足以进行评估。如何利用在 RGB 图像上预训练的 ViT 来处理 2D 3D 数据成为一个挑战。为了解决这个问题，我们为多模态 2D 3D FER 提出了一个健壮的轻量级纯基于变压器的网络，即 MFEViT。为了缩小 RGB 和多模态数据之间的差距，我们设计了一种替代融合策略，该策略将 RGB 图像的三个通道中的每一个都替换为深度图通道，并在将它们输入到转换器编码器之前将它们融合。此外，设计的样本过滤模块为每个表达式添加了几个子类，并将噪声样本移动到其相应的子类中，从而消除了它们在训练阶段对网络的干扰。大量实验表明，我们的 MFViT 优于最先进的方法，在 BU 3DFE 上的准确度为 90.83，在博斯普鲁斯海峡上的准确度为 90.28。具体来说，所提出的 MFEViT 是一个轻量级模型，需要比多分支 CNN 少得多的参数。据我们所知，这是将视觉变换器引入多模态 2D 3D FER 的第一项工作。

Experience feedback using Representation Learning for Few-Shot Object Detection on Aerial Images
Authors Pierre Le Jeune, Mustapha Lebbah, Anissa Mokraoui, Hanene Azzag
本文提出了一种基于 Faster R CNN 和表示学习的少量拍摄方法，用于航拍图像中的物体检测。 Faster R CNN 的两个分类分支被用于在线适应新类别的原型网络所取代。这些网络为每个生成的框生成嵌入向量，然后与类原型进行比较。嵌入和原型之间的距离决定了相应的分类分数。由此产生的网络以情节方式进行训练。在每个时期随机采样一个新的检测任务，包括仅检测数据集中注释的类的子集。这种训练策略鼓励网络像在测试时一样适应新的课程。此外，探索了一些想法来改进所提出的方法，例如硬反例挖掘策略和背景对象的自监督聚类。我们的方法的性能是在 DOTA 上评估的，这是一个大规模的遥感图像数据集。进行的实验提供了对表征学习能力的更广泛理解。它特别强调了少镜头对象检测任务的一些内在弱点。

Attention Gate in Traffic Forecasting
Au