1、Cameras as Rays: Pose Estimation via Ray Diffusion
中文标题:相机作为光线:通过光线扩散进行姿势估计
简介:相机位姿的估计是进行三维重建的基本任务,但在视角稀疏的情况下(小于10),仍然面临挑战。与现有的自上而下预测全局相机外参的方法不同,我们提出了一种分布式表示相机位姿的方法,将相机视为一束光线。这种表示方法允许与空间图像特征密切耦合,从而提高位姿的准确性。
我们观察到,这种表示方法自然适用于集合级别的变换器,并开发了一种基于回归的方法,将图像块映射到相应的光线上。为了捕捉稀疏视角位姿推断中固有的不确定性,我们将该方法调整为学习去噪扩散模型,从而在提高性能的同时对可能的模式进行采样。
我们提出的基于回归和扩散的方法在CO3D相机位姿估计任务上展示了最先进的性能,同时也在未见过的物体类别和野外捕捉方面进行了推广。
2、WeakSAM: Segment Anything Meets Weakly-supervised Instance-level Recognition
中文标题:WeakSAM:分割任何东西满足弱监督实例级识别
简介:本文介绍了一种名为WeakSAM的方法,它利用视觉基础模型中预先学习的世界知识来解决弱监督目标检测(WSOD)和分割的问题。与传统的多实例学习和伪标签方法相比,WeakSAM能够显著降低人工标注成本。它通过自适应伪标签生成和感兴趣区域(RoI)丢弃规则来解决传统WSOD重新训练中存在的两个关键限制,即伪标签不完整和含有噪声的伪标签实例。此外,WeakSAM还解决了SAM在自动目标检测和分割时需要提示和类别不确定性的问题。实验结果表明,WeakSAM在WSOD和WSIS基准测试中显著优于以往的最先进方法,平均提升分别为7.4%和8.5%。您可以在{https://github.com/hustvl/WeakSAM}上获取该方法的代码。
3、Snap Video: Scaled Spatiotemporal Transformers for Text-to-Video Synthesis
中文标题:Snap Video:用于文本到视频合成的缩放时空转换器
简介:当代的图像生成模型展现了惊人的质量和多样性,这使得研究界开始将它们应用于视频生成。然而,由于视频内容的高度冗余,简单地将图像模型应用于视频生成领域可能会降低动态保真度、视觉质量并影响可扩展性。因此,在这项工作中,我们构建了 Snap Video,这是一个以视频为先的模型,系统地解决了这些挑战。
为了实现这一目标,我们首先扩展了EDM框架,以考虑空间和时间上的像素冗余,并自然地支持视频生成。其次,我们发现U-Net在生成视频时缺乏可扩展性,需要大量的计算开销。因此,我们提出了一种基于Transformer的新架构,它的训练速度比U-Net快3.31倍(推理速度约快4.5倍)。这使我们首次能够高效地训练一个具有数十亿个参数的文本到视频模型,在许多基准测试中取得了最先进的结果,并生成了更高质量、时间一致性和运动复杂性的视频。
用户研究表明,我们的模型比最新的方法更受欢迎。欲了解更多详细信息,请访问我们的网站https://snap-research.github.io/snapvideo/。