【AI视野·今日CV 计算机视觉论文速览第235期】Mon, 27 Sep 2021

本文链接：https://blog.csdn.net/u014636245/article/details/120503796

这篇博客汇总了近期计算机视觉领域的论文，涵盖了目标检测、语义分割、图像生成、3D重建等多个方向的创新方法。亮点包括用于点云分割的多层核卷积算子、基于草图的图像生成、从诗句生成图像的技术以及对抗性训练在图像识别中的应用。此外，还探讨了在中风筛查、音频源分离、3D手部姿态估计和自动驾驶等领域中深度学习的进展。研究强调了模型的鲁棒性、效率和泛化能力的重要性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

AI视野·今日CS.CV 计算机视觉论文速览
Mon, 27 Sep 2021
Totally 42 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Interesting:

📚SPNet, 用于点云分割的多层核卷积算子，一种径向的多尺度分层思想。(from University of Missouri)
在这里插入图片描述

📚Paint4Poem,从诗句生成描述古诗的小图。 (from )
在这里插入图片描述

📚ZSD-YOLO, 基于语义描述的目标检测。(from Dawnlight )
在这里插入图片描述

Daily Computer Vision Papers

ZSD-YOLO: Zero-Shot YOLO Detection using Vision-Language KnowledgeDistillation
Authors Johnathan Xie, Shuai Zheng
现实世界的对象采样会产生长尾分布，需要为稀有类型成倍增加图像。旨在检测看不见的物体的零镜头检测是解决这个问题的一个方向。诸如 COCO 之类的数据集在许多图像上进行了广泛的注释，但类别数量很少，并且对跨不同域的所有对象类进行注释既昂贵又具有挑战性。为了推进零镜头检测，我们开发了一种视觉语言蒸馏方法，该方法将来自零镜头预训练模型（如 CLIP）的图像和文本嵌入与来自单级检测器（如 YOLOv5）的修改后的语义预测头对齐。使用这种方法，我们能够训练一个物体检测器，该检测器在 COCO 零镜头检测分裂上以较少的模型参数达到最先进的精度。在推理过程中，我们的模型可以适用于检测任意数量的对象类，而无需额外训练。我们还发现，我们方法的缩放提供的改进在各种 YOLOv5 尺度上是一致的。

DeepStroke: An Efficient Stroke Screening Framework for Emergency Rooms with Multimodal Adversarial Deep Learning
Authors Tongan Cai, Haomiao Ni, Mingli Yu, Xiaolei Huang, Kelvin Wong, John Volpi, James Z. Wang, Stephen T.C. Wong
在急诊室 ER 环境中，中风的诊断是一个常见的挑战。由于过多的执行时间和成本，急诊室通常不提供 MRI 扫描。中风筛查中通常会提到临床测试，但神经科医生可能无法立即获得。我们提出了一种新的多模式深度学习框架 DeepStroke，通过识别急性情况下怀疑中风的患者的面部运动不协调和言语障碍的模式，实现计算机辅助中风存在评估。我们提出的 DeepStroke 将视频数据用于局部面部麻痹检测，将音频数据用于全局语音障碍分析。它进一步利用多模态横向融合来结合低层和高层特征，并为联合训练提供相互正则化。还引入了一种新的对抗性训练损失来获得身份独立和中风判别特征。在我们的视频音频数据集上对实际 ER 患者进行的实验表明，所提出的方法优于最先进的模型，并且比 ER 医生获得了更好的性能，当特异性一致时，灵敏度提高了 6.60，准确度保持了 4.62。

From images in the wild to video-informed image classification
Authors Marc B hlen, Varun Chandola, Wawan Sujarwo, Raunaq Jain
图像分类器在应用于结构化图像时有效，但当应用于具有非常高视觉复杂度的图像时，它们通常会失败。本文描述了将最先进的对象分类器应用于在巴厘岛收集的具有高视觉复杂性的一组独特的野外图像的实验。

Visual Scene Graphs for Audio Source Separation
Authors Moitreya Chatterjee, Jonathan Le Roux, Narendra Ahuja, Anoop Cherian
用于视觉引导的音频源分离的现有技术方法通常假设具有特征声音的源，例如乐器。这些方法通常会忽略这些声源的视觉上下文或避免对可能有助于更好地表征声源的对象交互进行建模，尤其是当同一对象类可能从不同的交互中产生不同的声音时。为了解决这个具有挑战性的问题，我们提出了视听场景图分割器 AVSGS，这是一种新颖的深度学习模型，将场景的视觉结构嵌入为图并将该图分割为子图，每个子图与通过共同分割获得的独特声音相关联音频频谱图。在其核心，AVSGS 使用递归神经网络，该网络使用多头注意力发出视觉图的相互正交的子图嵌入。这些嵌入用于调节音频编码器解码器以实现源分离。我们的管道通过自监督任务进行端到端训练，该任务包括使用视觉图从人工混合的声音中分离音频源。在本文中，我们还介绍了一个用于声源分离的野外视频数据集，其中包含多个非音乐源，我们将其称为野外音频分离 ASIW。该数据集改编自 AudioCaps 数据集，并为源分离提供了具有挑战性、自然和日常生活的设置。

Two-Stage Mesh Deep Learning for Automated Tooth Segmentation and Landmark Localization on 3D Intraoral Scans
Authors Tai Hsien Wu, Chunfeng Lian, Sanghee Lee, Matthew Pastewait, Christian Piers, Jie Liu, Fang Wang, Li Wang, Christina Jackson, Wei Lun Chao, Dinggang Shen, Ching Chang Ko
在计算机辅助正畸治疗中，准确分割牙齿并识别牙网模型上相应的解剖标志是必不可少的。手动执行这两项任务既费时又乏味，更重要的是，由于患者牙齿的异常和大规模差异，高度依赖正畸医生的经验。一些基于机器学习的方法已被设计并应用于正畸领域，以自动分割牙齿网格，例如口内扫描。相比之下，关于牙齿标志定位的研究数量仍然有限。本文提出了一个基于网格深度学习的两阶段框架，称为 TS MDL，用于对原始口腔扫描进行关节牙齿标记和界标识别。我们的 TS MDL 首先采用端到端 emph i MeshSegNet 方法，即现有 MeshSegNet 的变体，具有更高的准确性和效率，可以在下采样扫描中标记每个牙齿。在分割输出的指导下，我们的 TS MDL 进一步选择原始网格上每个牙齿的感兴趣区域 ROI，以构建先驱 PointNet 的轻量级变体，即 PointNet Reg，用于回归相应的地标热图。我们的 TS MDL 在真实的临床数据集上进行了评估，显示出有希望的分割和定位性能。具体而言，TS MDL 第一阶段的 emph i MeshSegNet 在 0.953 pm0.076 时达到了平均 Dice 相似系数 DSC，明显优于原始 MeshSegNet。在第二阶段，PointNet Reg 实现了 0.623 pm0.718 的平均绝对误差 MAE，44 个地标的预测和地面实况之间的距离为毫米，与其他地标检测网络相比，这是优越的。

RSDet++: Point-based Modulated Loss for More Accurate Rotated Object Detection
Authors Wen Qian, Xue Yang, Silong Peng, Junchi Yan, Xiujuan Zhang
我们将五参数和八参数旋转对象检测方法中的损失不连续性