AI视野·今日CS.CV 计算机视觉论文速览
Mon, 22 Jan 2024
Totally 64 papers
👉上期速览✈更多精彩请移步主页
Daily Computer Vision Papers
Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data Authors Lihe Yang, Bingyi Kang, Zilong Huang, Xiaogang Xu, Jiashi Feng, Hengshuang Zhao 这项工作提出了 Depth Anything,这是一种用于鲁棒单目深度估计的高度实用的解决方案。在不追求新颖的技术模块的情况下,我们的目标是建立一个简单而强大的基础模型,处理任何情况下的任何图像。为此,我们通过设计数据引擎来收集并自动注释大规模未标记数据 62M 来扩展数据集,这显着扩大了数据覆盖范围,从而能够减少泛化误差。我们研究了两种简单而有效的策略,使数据扩展前景光明。首先,利用数据增强工具创建更具挑战性的优化目标。它迫使模型主动寻求额外的视觉知识并获得稳健的表示。其次,开发了辅助监督来强制模型从预先训练的编码器继承丰富的语义先验。我们广泛评估了其零拍摄能力,包括六个公共数据集和随机捕获的照片。它表现出了令人印象深刻的泛化能力。此外,通过使用 NYUv2 和 KITTI 的度量深度信息对其进行微调,设置了新的 SOTA。我们更好的深度模型也会产生更好的深度调节 ControlNet。 |
Event detection from novel data sources: Leveraging satellite imagery alongside GPS traces Authors Ekin Ugurel, Steffen Coenen, Minda Zhou Chen, Cynthia Chen 快速识别和应对突发事件,特别是那些对人类生命构成威胁的事件,例如自然灾害或冲突,至关重要。移动设备的流行和网络连接的普遍存在产生了大量的时间和空间标记数据。许多研究都使用移动数据来得出各种应用的个体人类移动模式。同样,轨道卫星数量的增加使得收集高分辨率图像变得更加容易,这些图像以次日时间频率捕捉地理区域的快照。我们提出了一种新颖的数据融合方法,将卫星图像与隐私增强的移动数据相结合,以增强事件推理任务,无论是实时的还是历史的。在地面上没有靴子的情况下,移动数据能够大致了解人类的流动性、彼此的接近程度以及建筑环境。另一方面,卫星图像可以提供有关建筑和自然环境物理变化的视觉信息。我们的方法的预期用例包括小规模灾害检测,即农村地区的龙卷风、野火和洪水,增强偏远荒野地区失踪徒步旅行者的搜救行动,以及识别活跃冲突地区和饱受战争蹂躏的国家的人口流离失所。 |
Synthesizing Moving People with 3D Control Authors Boyi Li, Jathushan Rajasegaran, Yossi Gandelsman, Alexei A. Efros, Jitendra Malik 在本文中,我们提出了一种基于扩散模型的框架,用于针对给定的目标 3D 运动序列从单个图像中制作人物动画。我们的方法有两个核心组成部分:a 学习关于人体和衣服的不可见部分的先验知识;b 用适当的衣服和纹理渲染新颖的身体姿势。对于第一部分,我们学习一个填充扩散模型,以在给定单个图像的情况下产生人看不见的部分的幻觉。我们在纹理贴图空间上训练这个模型,这使得它的样本效率更高,因为它对于姿势和视点来说是不变的。其次,我们开发了一个基于扩散的渲染管道,它由 3D 人体姿势控制。这会产生人物新颖姿势的逼真渲染,包括衣服、头发,以及对看不见的区域的合理填充。这种解开的方法使我们的方法能够生成一系列图像,这些图像忠实于 3D 姿势中的目标运动,并且在视觉相似性方面忠实于输入图像。除此之外,3D 控制还允许使用各种合成摄像机轨迹来渲染人物。我们的实验表明,与之前的方法相比,我们的方法在生成长时间运动以及各种具有挑战性和复杂的姿势方面具有弹性。 |
SCENES: Subpixel Correspondence Estimation With Epipolar Supervision Authors Dominik A. Kloepfer, Jo o F. Henriques, Dylan Campbell 从场景的两个或多个视图中提取点对应关系是一个基本的计算机视觉问题,对于相对相机姿态估计和运动结构特别重要。现有的局部特征匹配方法通过大规模数据集上的对应监督进行训练,可以在测试集上获得高度准确的匹配。然而,与经典特征提取器不同,它们不能很好地泛化到与训练数据集具有不同特征的新数据集。相反,它们需要微调,假设地面实况对应或地面实况相机姿势和 3D 结构可用。我们通过消除 3D 结构(例如深度图或点云)的要求来放宽这一假设,并且只需要相机姿态信息,该信息可以从里程计获得。我们通过用极线损失替换对应损失来实现这一点,这鼓励假定的匹配位于相关的极线上。虽然弱于对应监督,但我们观察到这一线索足以根据新数据微调现有模型。然后,我们通过在新颖的引导方法中使用姿势估计来进一步放宽已知相机姿势的假设。 |
Motion Consistency Loss for Monocular Visual Odometry with Attention-Based Deep Learning Authors Andr O. Fran ani, Marcos R. O. A. Maximo 深度学习算法推动了许多复杂任务的表达进步。损失函数是深度学习技术的核心组成部分,指导神经网络的学习过程。本文通过基于深度学习的方法引入视觉里程计的一致性损失来做出贡献。运动一致性损失探索连续重叠视频剪辑中出现的重复运动。 |
Source-Free and Image-Only Unsupervised Domain Adaptation for Category Level Object Pose Estimation Authors Prakhar Kaushik, Aayush Mishra, Adam Kortylewski, Alan Yuille 我们考虑仅从 RGB 图像到目标域的无源无监督类别级别姿态估计问题,在适应过程中无需访问源域数据或 3D 注释。收集和注释现实世界的 3D 数据和相应的图像是费力、昂贵但不可避免的过程,因为即使是 3D 姿态域自适应方法也需要目标域中的 3D 数据。我们引入 3DUDA,这是一种无需 3D 或深度数据即可适应充满麻烦的目标域的方法。我们的关键见解源于对特定对象子部分在域外 OOD 场景中保持稳定的观察,从而能够战略性地利用这些不变的子组件来进行有效的模型更新。我们将对象类别表示为简单的长方体网格,并利用在使用差分渲染学习的每个网格顶点建模的神经特征激活生成模型。我们专注于各个局部鲁棒的网格顶点特征,并根据它们与目标域中相应特征的接近程度迭代更新它们,即使全局姿态不正确也是如此。然后我们的模型以 EM 方式进行训练,交替更新顶点特征和特征提取器。我们表明,我们的方法在温和的假设下模拟了全局伪标记数据集的微调,该数据集渐近地收敛到目标域。 |
Understanding Video Transformers via Universal Concept Discovery Authors Matthew Kowal, Achal Dave, Rares Ambrus, Adrien Gaidon, Konstantinos G. Derpanis, Pavel Tokmakov 本文研究了视频变压器表示的基于概念的可解释性问题。具体来说,我们试图根据自动发现的高级时空概念来解释视频转换器的决策过程。先前基于概念的可解释性的研究仅集中在图像级任务上。相比之下,视频模型处理增加的时间维度,增加了复杂性,并对随着时间的推移识别动态概念提出了挑战。在这项工作中,我们通过引入第一个 Video Transformer Concept Discovery VTCD 算法来系统地解决这些挑战。为此,我们提出了一种有效的方法来无监督地识别视频变换器表示概念的单元,并对其对模型输出的重要性进行排序。由此产生的概念具有高度可解释性,揭示了非结构化视频模型中的时空推理机制和以对象为中心的表示。通过对一组不同的监督和自监督表示联合执行此分析,我们发现其中一些机制在视频转换器中是通用的。 |
ActAnywhere: Subject-Aware Video Background Generation Authors Boxiao Pan, Zhan Xu, Chun Hao Paul Huang, Krishna Kumar Singh, Yang Zhou, Leonidas J. Guibas, Jimei Yang 生成适合前景主体运动的视频背景是电影行业和视觉效果社区的一个重要问题。此任务涉及合成与前景主体的运动和外观一致的背景,同时也符合艺术家的创作意图。我们引入了 ActAnywhere,这是一种生成模型,可以自动化这个传统上需要繁琐的手动工作的过程。我们的模型利用了大规模视频扩散模型的强大功能,并且是专门针对此任务量身定制的。 ActAnywhere 将一系列前景主体分割作为输入,并将描述所需场景的图像作为条件,以生成具有真实前景背景交互的连贯视频,同时遵循条件框架。我们在人类场景交互视频的大规模数据集上训练我们的模型。广泛的评估证明了我们模型的卓越性能,显着优于基线。此外,我们还表明 ActAnywhere 可以推广到不同的分布样本,包括非人类受试者。 |
RAD-DINO: Exploring Scalable Medical Image Encoders Beyond Text Supervision Authors Fernando P rez Garc a, Harshita Sharma, Sam Bond Taylor, Kenza Bouzid, Valentina Salvatelli, Maximilian Ilse, Shruthi Bannur, Daniel C. Castro, Anton Schwaighofer, Matthew P. Lungren, Maria Wetscherek, Noel Codella, Stephanie L. Hyland, Javier Alvarez Valle, Ozan Oktay 语言监督预训练已被证明是从图像中提取语义上有意义的特征的一种有价值的方法,可作为计算机视觉和医学成像领域内多模态系统的基础元素。然而,所得到的特征受到文本中包含的信息的限制。这在医学成像中尤其成问题,因为放射科医生的书面发现集中于特定的观察结果,由于担心个人健康信息泄露,配对成像文本数据的稀缺加剧了这一挑战。在这项工作中,我们从根本上挑战了学习通用生物医学成像编码器时普遍依赖语言监督的现象。我们推出了 RAD DINO,这是一种仅针对单峰生物医学成像数据进行预训练的生物医学图像编码器,它在各种基准上获得了与最先进的生物医学语言监督模型相似或更好的性能。具体来说,学习表示的质量是根据标准成像任务分类和语义分割以及从图像生成视觉语言对齐任务文本报告来评估的。为了进一步证明语言监督的缺点,我们表明 RAD DINO 的特征与其他医疗记录(例如性别或年龄)的相关性比语言监督模型更好,而放射学报告中通常没有提到这些特征。最后,我们进行了一系列消融,显着确定了 RAD DINO 性能的因素,我们观察到 RAD DINO 的下游性能与训练数据的数量和多样性很好地扩展,这表明仅图像监督是训练基础模型的可扩展方法。 |
Learning to Visually Connect Actions and their Effects Authors Eric Peh, Paritosh Parmar, Basura Fernando 在这项工作中,我们介绍了视频理解中视觉连接动作及其效果 CATE 的新颖概念。 CATE 可应用于任务规划和演示学习等领域。我们提出了不同的基于 CATE 的任务公式,例如动作选择和动作规范,其中视频理解模型在语义和细粒度级别连接动作和效果。我们观察到不同的公式产生捕获直观动作属性的表示。我们还设计了用于动作选择和动作规范的各种基线模型。尽管这项任务具有直观性,但我们观察到模型很挣扎,而人类的表现却远远超过了它们。 |
Measuring the Impact of Scene Level Objects on Object Detection: Towards Quantitative Explanations of Detection Decisions Authors Lynn Vonder Haar, Timothy Elvira, Luke Newcomb, Omar Ochoa 尽管准确性和其他常见指标可以提供了解对象检测模型性能的有用窗口,但它们缺乏对模型决策过程的更深入了解。无论训练数据和过程的质量如何,都无法保证目标检测模型学习到的特征。模型可以学习某些背景上下文(即场景级对象)与标记类的存在之间的关系。此外,标准性能验证和指标无法识别这种现象。本文提出了一种新的黑盒可解释性方法,通过发现场景级对象对图像内对象识别的影响,对对象检测模型进行额外验证。通过比较模型在具有和不具有某些场景级对象的测试数据上的准确性,这些对象对模型性能的贡献变得更加清晰。这里介绍的实验将通过微调的 YOLOv8 模型评估图像环境中的建筑物和人员对紧急道路车辆检测的影响。场景级对象存在时准确度的大幅提高将表明模型依赖该对象进行检测。 |
Sat2Scene: 3D Urban Scene Generation from Satellite Images with Diffusion Authors Zuoyue Li, Zhenqiang Li, Zhaopeng Cui, Marc Pollefeys, Martin R. Oswald 直接从卫星图像生成场景为集成到游戏和地图服务等应用程序中提供了令人兴奋的可能性。然而,显着的视图变化和场景规模带来了挑战。之前的工作主要集中在图像或视频生成上,缺乏对场景生成对任意视图的适应性的探索。现有的 3D 生成工作要么在对象级别运行,要么难以利用从卫星图像获得的几何形状。为了克服这些限制,我们通过将扩散模型引入 3D 稀疏表示并将其与神经渲染技术相结合,提出了一种用于直接 3D 场景生成的新颖架构。具体来说,我们的方法首先使用 3D 扩散模型在给定几何体的点级别生成纹理颜色,然后以前馈方式将其转换为场景表示。该表示可用于渲染任意视图,这在单帧质量和帧间一致性方面都表现出色。 |