ICCV 2023｜小红书 4 篇入选论文亮点解读，「开集视频目标分割」获得 Oral

最新推荐文章于 2024-10-16 00:00:43 发布

小红书技术REDtech

最新推荐文章于 2024-10-16 00:00:43 发布

阅读量315

点赞数

文章标签：算法

本文链接：https://blog.csdn.net/redtech_1024/article/details/134501692

版权

小红书技术团队在ICCV2023会议上提交的4篇论文分别涉及视频目标分割的开放词汇扩展、3D数字人重建、人体运动预测以及光流生成，展示了公司在计算机视觉领域的前沿成果，推动了AI技术在视频理解和创作工具中的应用。

摘要由CSDN通过智能技术生成

近日，ICCV 正式揭晓 2023 年论文接收结果，小红书技术团队共有 4 篇论文入选，其中 1 篇为 Oral 论文（Oral 接收率仅为 1.88%），最新科研成果涵盖了视频目标分割、3D 数字人重建、人体运动预测、视频分析等领域。

国际计算机视觉大会 ICCV 由 IEEE 主办，被誉为“计算机视觉三大顶级会议”之一，每两年召开一次，其论文集代表了计算机视觉领域最新的发展方向和研究水平。ICCV 2023 将于今年 10 月在法国巴黎举行，本届会议共收到全球 8068 篇论文投稿，2161 篇被接收，接收率为 26.78%。

以下为入选论文亮点解读，欢迎大家关注：

01 Towards Open-Vocabulary Video Instance Segmentation (Oral)

面向开放任务的视频实例分割（ Oral )

论文作者：王昊臣（小红书实习生&阿姆斯特丹大学）、莱戈（小红书）、汤神（小红书）、夏侯（小红书）等

我们首次将视频目标分割能力从少数封闭的训练类别扩展到不受限的开放类别，并为这个全新任务提供了评测 Benchmark 和 Baseline模型，提高了视频目标分割的实用性，为开放类别上的通用视频目标分割研究打下了基础。

“视频目标分割”作为一项基础视频级任务，其目标是识别、分割和跟踪出现在一段视频中的物体。它既是视频内容理解、视频表征学习等上层任务的基础，亦可应用于视频抠图、编辑等创作工具。然而，传统的视频目标分割任务受限于获取训练集困难，仅限于某些特定的常见类别，因此其泛化能力和使用价值较低。

得益于近年来多模态模型的快速发展，计算机视觉领域的各项研究逐渐从封闭类别集合转变为开放类别集合，提高了深度学习模型的泛化能力，并能在不同应用场景下快速部署。受此启发，我们首次提出将视频目标分割任务从少数封闭的训练类别扩展到不受限的开放类别（Open-Vocabulary Video Instance Segmentation）