ICCV 2023｜小红书 4 篇入选论文亮点解读，「开集视频目标分割」获得 Oral

最新推荐文章于 2025-01-24 00:15:00 发布

我爱计算机视觉

最新推荐文章于 2025-01-24 00:15:00 发布

阅读量424

点赞数

原文链接：https://mp.weixin.qq.com/s?__biz=MzIwMTE1NjQxMQ==&mid=2247617003&idx=1&sn=c0b982a89bc11edbc0fddb7395331eb8&chksm=96f17bbfa186f2a9a9db4d4e0c9e2c6275281c7a81ae2b58ab4385121fc52fdffae4baec715c&scene=126&sessionid=0

版权

关注公众号，发现CV技术之美

近日，ICCV 正式揭晓 2023 年论文接收结果，小红书技术团队共有 4 篇论文入选，其中 1 篇为 Oral 论文（Oral 接收率仅为 1.88%），最新科研成果涵盖了视频目标分割、3D 数字人重建、人体运动预测、视频分析等领域。

国际计算机视觉大会 ICCV 由 IEEE 主办，被誉为“计算机视觉三大顶级会议”之一，每两年召开一次，其论文集代表了计算机视觉领域最新的发展方向和研究水平。ICCV 2023 将于今年 10 月在法国巴黎举行，本届会议共收到全球 8068 篇论文投稿，2161 篇被接收，接收率为 26.78%。

以下为入选论文亮点解读，欢迎大家关注：

Towards Open-Vocabulary Video Instance Segmentation (Oral)

面向开放任务的视频实例分割（ Oral )

论文作者：王昊臣（小红书实习生&阿姆斯特丹大学）、莱戈（小红书）、汤神（小红书）、夏侯（小红书）等

我们首次将视频目标分割能力从少数封闭的训练类别扩展到不受限的开放类别，并为这个全新任务提供了评测 Benchmark 和 Baseline模型，提高了视频目标分割的实用性，为开放类别上的通用视频目标分割研究打下了基础。

“视频目标分割”作为一项基础视频级任务，其目标是识别、分割和跟踪出现在一段视频中的物体。它既是视频内容理解、视频表征学习等上层任务的基础，亦可应用于视频抠图、编辑等创作工具。然而，传统的视频目标分割任务受限于获取训练集困难，仅限于某些特定的常见类别，因此其泛化能力和使用价值较低。

得益于近年来多模态模型的快速发展，计算机视觉领域的各项研究逐渐从封闭类别集合转变为开放类别集合，提高了深度学习模型的泛化能力，并能在不同应用场景下快速部署。受此启发，我们首次提出将视频目标分割任务从少数封闭的训练类别扩展到不受限的开放类别（Open-Vocabulary Video Instance Segmentation），并提供了相应的Benchmark集和Baseline模型。

● 论文引入开放词汇视频实例分割这一全新任务，通过允许对来自开放类别的对象进行分割、跟踪和分类，扩展了现有实例分割方法的能力，包括在训练过程中未见过的新类别。

● 为评估开放词汇视频实例分割，我们提出了一个大规模词汇视频实例分割数据集（LV-VIS），其中包括来自 1,196 个多样化类别的精确注释对象，显著超过现有数据集的类别数量。

● 我们提出了一种高效的内存引导 Transformer 架构（OV2Seg），用于实现端到端的开放词汇视频实例分割，并具有接近实时的推理速度。在 LV-VIS 和四个现有实例分割数据集上进行了大量实验，证明了 OV2Seg 在新类别上具有强大的零样本泛化能力。

扫描二维码即可查看论文：

论文

代码

One-shot Implicit Animatable Avatars with Model-based Priors

基于模型先验的隐式可动数字人单样本学习

论文作者：黄洋逸（小红书实习生&浙江大学），王浩帆（小红书），张德兵（小红书）等

我们提出了一种从单个图像中学习人类特定神经辐射场的新方法 ELICIT。ELICIT 从 SMPL 模型引入 3D 身体形状几何先验，并使用基于 CLIP 的预训练模型引入视觉语义先验。我们使用两个先验进行联合优化，从而实现在单个图像输入的情况，还原出不可见姿态下的人体。

现有用于创建人类化身的神经渲染方法，通常要么需要密集的输入信号（例如视频或多视图图像），要么利用从大规模特定 3D 人体数据集中学到的先验知识，以便可以使用稀疏视图输入进行重建。然而，当只有一张图像可用时，这些方法大多数都无法实现逼真的重建效果：身体形状不合理，或是背面不可见区域缺乏细节；这使得构建 3D 数字人的数据成本和门槛比较高。

为了能够高效创建逼真可动的 3D 数字化身，我们提出了一种名为 ELICIT 的新方法，用于从单张图像中学习人体特定的神经辐射场，以实现自由视角渲染，而无需依赖额外的训练数据。ELICIT 利用了两个先验知识：基于骨骼顶点的模板模型（即 SMPL ）的 3D 几何先验，提供人体几何形状；基于 CLIP 预训练模型的视觉语义先验，补全穿衣人体的全身外观。两个先验共同指导优化过程，以创建不可见区域中的合理内容。

为了进一步提高重建结果的视觉细节，我们还提出了一种基于分割的采样策略，用于局部细化数字化身的不同部分，增加模型的细节和真实感。ELICIT 在多个知名基准数据集上进行了全面评估，包括 ZJUMoCAP、Human3.6M 和 DeepFashion，结果显示：在只有一张图像可用时，ELICIT 优于基线方法，为重建可动 3D 数字人打开了一条无须额外训练数据的新思路。在未来，我们会继续对其重建质量、重建速度进一步地优化探索，让高质量数字人更好、更快、门槛更低地走向应用，服务于3D AIGC、视频、直播等多样化的业务场景。

扫描二维码即可查看论文：

论文

代码

Test-time Personalizable Forecasting of 3D Human Poses

面向分布外角色的个性化人体运动预测

论文作者：崔琼杰（小红书实习生&南京理工大学），王浩帆（小红书）等

由于数据有限或隐私限制，基于历史行为的运动预测模型往往无法很好地泛化到训练集中没有出现的人物，因此，我们提出一种名为"Helper-Predictor"测试时间个性化的新方法（即 H/P-TTP），在推理阶段根据个性化主体进行定制化，从而实现更准确的运动预测。

传统的运动预测方法，通常是从源域数据中训练一个端到端的深度模型，直接应用于目标对象。然而，出于隐私考虑，目标对象及其自然特性（如行为特征）在训练中是未知的。源预训练模型很难适应这些源外特征，无法针对未见目标人物的特定属性进行个性化处理，从而导致预测结果不可靠。

为了解决这一挑战，我们提出一种名为 “Helper-Predictor” 测试时间个性化的新方法（即 H/P-TTP），用于部署各种未知人物/未知动作样本的 3D 人体运动预测。H/P-TTP 根据各种未知主体的特征获得定制的参数，实现领域通用学习，以获得更真实的预测。具体而言，Helper-Predictor 由显式和隐式增强器组成，前者产生噪声序列以提高鲁棒性，后者采用对抗学习范式生成新领域数据。辅助模型通过增强器处理源之外的样本，获取跨主体的不变上下文，并将这些知识传递给预测模型进行更新。预测模型在测试过程中可以进一步更新，以适应未知的测试对象。

实验证明：通过辅助模型和预测模型的结合，H/P-TTP 在三个大规模人体动作数据集（H3.6M、GRAB、HumanEva-l）上显著超越了传统方法，无论是在精度还是可视化方面。它不仅实现了对未知测试对象的个性化预测，还提高预测性能，具有实际应用的潜力。未来，该方法将有利于各类大规模人体运动分析算法的部署，扩展各种 End-To-End 模型的实际应用边界。

扫描二维码即可查看论文：