遮挡场景下视频实例分割怎么做?牛津阿里最新开源OVIS数据集!

点击上方“CVer”,选择加"星标"置顶

重磅干货,第一时间送达

本文系CVer粉丝投稿,欢迎大家分享优质的工作

本文介绍一下我们最近公开的视频实例分割数据集OVIS

Occluded Video Instance Segmentation

论文:https://arxiv.org/abs/2102.01558

主页:http://songbai.site/ovis/

1. Motivation

对于被遮挡的物体,人类能够根据时序上下文来识别,定位和追踪被遮挡的物体,甚至能脑补出物体被遮住的部分,那么现有的深度学习方法对遮挡场景的处理能力如何呢?

为了探究这个问题,我们构建了一个针对强遮挡场景的大型视频实例分割数据集Occluded Video Instance Segmentation (OVIS)。视频实例分割(VIS)要求算法能检测、分割、跟踪视频里的所有物体。与现有的VIS数据集相比,OVIS最主要的特点就是视频里存在大量的多种多样的遮挡。因此,OVIS很适合用来衡量算法对于遮挡场景的处理能力。

实验表明,现有的方法并不能在强遮挡场景下取得令人满意的结果,相比于广泛使用的YouTube-VIS数据集,几乎所有算法在OVIS上的指标都下降了一半以上。

2. Dataset Statistics

我们一共采集了近万段视频,并最终从中挑选出了901段遮挡严重、运动较多、场景复杂的片段,每段视频都至少有两个相互遮挡的目标对象。其中大部分视频分辨率为1920x1080,时长在5s到60s之间。我们按每5帧标注一帧的密度进行了高质量标注,最终得到了OVIS数据集。

OVIS共包含25种生活中常见的类别,如下图所示,其中包括人,交通工具,以及动物。这些类别的目标往往处于运动状态,也更容易发生严重的遮挡。此外,OVIS的25个类别都可以在大型的图片级实例分割数据集(MS COCO,LVIS,Pascal VOC 等)中找到,方便研究人员进行模型的迁移和数据的复用。

OVIS包含5223个目标对象的296k个高质量mask标注。相比先前的Youtube-VIS数据集,OVIS拥有更多的mask和更多的目标对象。我们牺牲了一定的视频段数来标注更长更复杂的视频,以让它更具挑战性。

与先前的其他VIS数据集相比,OVIS最大的特点在于严重的遮挡。为了量化遮挡的严重程度,我们提出了一个指标mean Bounding-box Overlap Rate (mBOR)来粗略的反映遮挡程度。mBOR指图像中边界框重叠部分的面积占所有边界框面积的比例。从下表中可以看出,相比于YouTube-VIS,OVIS有着更严重的遮挡。

值得注意的是,除去上面提到的基础数据统计量,OVIS在视频时长、物体可见时长、每帧物体数、每段视频物体数等统计量上都显著高于YouTube-VIS,这与实际场景更为相近,同时也进一步提高了OVIS的难度。

3. Experiments

我们在OVIS上尝试了5种开源的现有算法,结果如下表。可以看到OVIS非常具有挑战性。使用同样的评价指标,MaskTrack R-CNN在Youtube-VIS验证集上mAP能达到30.3,在OVIS验证集上只有10.9;SipMask的mAP也从Youtube-VIS上的32.5下降到了OVIS上的10.3。5个现有算法中,STEm-Seg在OVIS上效果最好,但也只得到了13.8的mAP。

4. Visualization

OVIS中包含多种不同的遮挡类型,按遮挡程度可分为部分遮挡、完全遮挡,按被遮挡场景可分为被其他目标对象遮挡、被背景遮挡、被图片边界遮挡。不同类型的遮挡可能同时存在,物体之间的遮挡关系也比较复杂。

此外,从下面的可视化片段中也可以看出OVIS的标注质量很高,我们对笼子的网格、动物的毛发都做了精细的标注。

更多可视化样例请见该工作的主页:

http://songbai.site/ovis/

Visualization of the annotations.

5. Conclusion

我们针对遮挡场景下的视频实例分割任务构建了一个大型数据集OVIS。作为继YouTube-VIS之后的第二个视频实例分割benchmark,OVIS主要被设计用于衡量模型处理遮挡场景的能力。实验表明OVIS给现有算法带来了巨大的挑战。未来,我们还将把OVIS推广至视频物体分割(VOS),视频全景分割(VPS)等场景,期待OVIS能够启发更多的研究人员进行复杂场景下视频理解的研究。

更多细节请见论文

OVIS论文下载

后台回复:OVIS,即可下载上述论文PDF和数据集,肝起来!

重磅!CVer-图像分割交流群成立

扫码添加CVer助手,可申请加入CVer-图像分割方向 微信交流群,可申请加入CVer大群,细分方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、Transformer、PyTorch和TensorFlow等群。

一定要备注:研究方向+地点+学校/公司+昵称(如图像分割+上海+上交+卡卡),根据格式备注,才能通过且邀请进群

▲长按加微信群

▲长按关注CVer公众号

整理不易,请给CVer点赞和在看

  • 1
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
RTAB-Map是一种基于概率图优化的SLAM算法,可以用于建立环境地图和定位机器人。在RTAB-Map中,有三种定位模式可以选择: 1. Odometry模式:机器人的位姿是根据里程计信息计算出来的,没有使用传感器数据来进行校正。在这种模式下,机器人的定位精度通常较低。 2. Vision模式:机器人的位姿是根据图像数据通过视觉里程计计算出来的。在这种模式下,机器人的定位精度通常较高,但需要相机和计算能力较强的计算设备。 3. Localization模式:机器人的位姿是通过匹配地图和传感器数据来进行校正的。在这种模式下,机器人的定位精度通常较高,但需要预先建立地图。 在RTAB-Map中,定位模式可以通过launch文件进行设置。下面是一个例子: ``` <node pkg="rtabmap_ros" type="rtabmap" name="rtabmap" output="screen" args="--delete_db_on_start" respawn="false"> <param name="rtabmap/subscribe_rgbd" value="true"/> <param name="rtabmap/rgbd_cameras" value="$(arg rgbd_cameras)"/> <param name="rtabmap/odom_type" value="$(arg odom_type)"/> <param name="rtabmap/strategy" value="$(arg rtabmap_strategy)"/> <param name="rtabmap/detection_rate" value="$(arg detection_rate)"/> <param name="rtabmap/loop closure detection/strategy" value="$(arg loop_closure_detection_strategy)"/> <param name="rtabmap/loop closure detection/ovis2d/max_depth_error" value="1.0"/> <param name="rtabmap/loop closure detection/ovis2d/feature_type" value="ORB"/> <param name="rtabmap/loop closure detection/ovis2d/feature_size" value="400"/> <param name="rtabmap/loop closure detection/ovis2d/descriptor_type" value="ORB"/> <param name="rtabmap/loop closure detection/ovis2d/matching_type" value="BruteForce-Hamming"/> <param name="rtabmap/loop closure detection/ovis2d/max_depth" value="4.0"/> <param name="rtabmap/loop closure detection/ovis2d/max_new_keyframes" value="1"/> <param name="rtabmap/loop closure detection/ovis2d/cluster_radius" value="0.05"/> <param name="rtabmap/loop closure detection/ovis2d/min_inliers" value="15"/> <param name="rtabmap/loop closure detection/ovis2d/iterations" value="1000"/> <param name="rtabmap/loop closure detection/ovis2d/refine_iterations" value="5"/> <param name="rtabmap/loop closure detection/ovis2d/epipolar_error" value="0.1"/> <param name="rtabmap/loop closure detection/ovis2d/save_matches" value="false"/> <param name="rtabmap/loop closure detection/ovis2d/save_inliers" value="false"/> </node> ``` 其中,`<param name="rtabmap/odom_type" value="$(arg odom_type)"/>`即为设置定位模式的参数,`$(arg odom_type)`为参数变量,可以在launch文件中进行设置。如果需要选择Vision模式或Localization模式,则将`$(arg odom_type)`分别设置为`"RGBD"`和`"RGBD"`即可。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值