包罗万象!V3Det:1.3W类全新目标检测数据集(港中文&上海AI Lab)

作者 | CV君  编辑 | 我爱计算机视觉

点击下方卡片,关注“自动驾驶之心”公众号

ADAS巨卷干货,即可获取

点击进入→自动驾驶之心【目标检测】技术交流群

后台回复【2D检测综述】获取鱼眼检测、实时检测、通用2D检测等近5年内所有综述!

介绍一篇今天新出的文章,来自上海人工智能实验室和香港中文大学的学者提出了一个海量类别的目标检测数据集V3Det,总类别数达到13029

0aa4960fbcb5f677d200ccf73ab9de45.png

▌V3Det: Vast Vocabulary Visual Detection Dataset1e0e960b95bd74427badae6f0f39070a.png

论文作者:Jiaqi Wang,Pan Zhang,Tao Chu,Yuhang Cao,Yujie Zhou,Tong Wu,Bin Wang,Conghui He,Dahua Lin

作者单位:Shanghai AI Laboratory(上海人工智能实验室); The Chinese University of Hong Kong(香港中文大学); Centre of Perceptual and Interactive Intelligence

论文链接:http://arxiv.org/abs/2304.03752v1

这个世界有多少种类别的物体?仅目前已经发现的昆虫,就有1000多万种。而目前计算机视觉领域大部分的数据集类别都是非常有限的,之前最多类别的LVIS有1203类,所以在真实世界中检测任意对象的研究往往是在类别受限的目标检测数据集上训练和评估的。

V3Det,正是为了应对这一挑战而开发的,不仅图像数量多(245k),而且类别个数多(13029),且具有精确的标注(1753k个包围框)。

相信构建这一数据集过程也是异常费时费力的!

为更好地理解数据,作者们还为V3Det构建了层次分类树,可以方便访问和研究类别之间的包含关系,每个类别都有专业的描述。

V3Det提供了广泛的探索空间,可以在广泛和开放的目标检测任务上进行广泛的基准测试,为研究提供新的观察、实践和见解。它有潜力成为开发更普遍的视觉感知系统的重要参考数据集!

V3Det与其他知名目标检测数据集的统计比较:019e2e109ffe8b6314b015b0e6043bdc.png

V3Det类别数是之前最大数据集的10倍!

如此大规模多类别的数据集标注过程肯定是异常艰辛的,为了保证标注数据的准确性,数据创建团队付出了大量的工作。

V3Det的标注过程:


74949e03cb15e3ffd451cb1a1a38ca6a.png

包括分组、粗粒度标注、合并与联合验证、细粒度标注、类别的验证、类别描述等过程。

比较有意思的是,在对类别进行描述的步骤中,ChatGPT也参与进来。

下图是对V3Det和其他数据集的统计分析:


4420bb5a83d4a47fde12dd5f8d51ae72.png

包括类别分布、均值分辨率、包围框分布。

下图展示了常见的目标检测算法在V3Det上评估的表现:

631ac2521316e1e5da61664443bcefee.png

作者还根据不同采样方法、表示方法、算法框架等对数据集进行了各种评估:


71af6647e28d4a1e90b614ebfbc9e3e9.png

38a59e630d81224aeb3599f5f86d59e3.png 6d06107d8f18e79251689da767bf35b4.png 541c2b1e5bcfb149dc87fb3b4475992a.png bbee8ae0ec76301a6e0d68f305ae6e21.png 8fa7119c70e1cc4a4ab26303d37434b3.png 79326ea588f2b6ab2ec7b9c8eadd7cf9.png 85ae493a2ab78a29eb5476d98dbe1d4d.png 8ede2e30f9033b565dd22f72dcc35311.png cd1ae66fec32144019cb3fd3a8716b0c.png

下面这张图展示了类别层次图的可视化,相当震撼!35816195e937b22c78f677ab64dfc1fb.png

V3Det数据集中“粗类别”的统计和描述:a6fbf45da02b9e7b1c4fc3e4bc0a1b95.png

可见Animal & Human 相关的类别是最多的,达到7485类,其次是Flower,1911类。

e1fe63b15df131c2b5e7a892af9b4f03.png 57c171ad7fb7e86a3f46bc9a02a92371.png

类别描述示例:


f423fe7a407fab794cb08f5bfd400ca9.png

标注示例:


43b956099123a64c9b22a063d5aa0c19.png

95b397991adf619af862cf916e5c7480.png

包围框真是密密麻麻!(数据创建团队辛苦了!!)

这是一项特别有意义的工作,也是非常有价值的资产,相信能够促进大规模海量类别目标检测的相关研究。

作者说数据集将于6月份公开,大家拭目以待!

往期回顾

史上最全综述 | 3D目标检测算法汇总!(单目/双目/LiDAR/多模态/时序/半弱自监督)

视频课程来了!

自动驾驶之心为大家汇集了毫米波雷达视觉融合、高精地图、BEV感知、传感器标定、传感器部署、自动驾驶协同感知、语义分割、自动驾驶仿真、L4感知、决策规划、轨迹预测等多个方向学习视频,欢迎大家自取(扫码进入学习)

2e28a7f15c4892fa7c65f1350caaaf35.png

(扫码学习最新视频)

国内首个自动驾驶学习社区

近1000人的交流社区,和20+自动驾驶技术栈学习路线,想要了解更多自动驾驶感知(分类、检测、分割、关键点、车道线、3D目标检测、Occpuancy、多传感器融合、目标跟踪、光流估计、轨迹预测)、自动驾驶定位建图(SLAM、高精地图)、自动驾驶规划控制、领域技术方案、AI模型部署落地实战、行业动态、岗位发布,欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频,期待交流!

48eca77b415552003a15d59847b950b0.jpeg

自动驾驶之心】全栈技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦目标检测、语义分割、全景分割、实例分割、关键点检测、车道线、目标跟踪、3D目标检测、BEV感知、多传感器融合、SLAM、光流估计、深度估计、轨迹预测、高精地图、NeRF、规划控制、模型部署落地、自动驾驶仿真测试、产品经理、硬件配置、AI求职交流等方向;

9179b7b221af5d2b6a83ef1f94d5bca6.jpeg

添加汽车人助理微信邀请入群

备注:学校/公司+方向+昵称

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值