YCB-VIDEO DATASET

YCB-VIDEO DATASET

提供物体姿势和分割真值标记以物体为中心的数据集通常因为是人工标注的,所以数据量很小。例如常用的LINEMOD数据集提供大约1000图像的手工标记为数据集中的15个对象。虽然这样的数据集对于评估基于模型的姿态估计技术很有用, 它比用于训练最先进的深度神经网络的典型数据集小了好几个数量级。解决这个问题的一个办法是用合成图像来增加数据。然而,必须注意确保性能在真实场景和渲染场景之间的通用性。

  • A. 6D位姿标记
    为了避免手动注释所有的视频帧,我们只在第一帧中手动指定物体的姿势。利用每个物体的有符号距离函数(SDF)表示,我们在第一个深度帧中细化每个物体的姿势。接下来,通过固定物体的相对位置并通过深度视频跟踪物体的配置,初始化摄像机的轨迹。最后,在全局优化步骤中完善相机轨迹和相对物体的姿势。

符号距离函数(sign distance function),简称SDF,又可以称为定向距离函数(oriented distance function),在空间中的一个有限区域上fixing确fixing定一个点到区域边界的距离并同时对距离的符号进行定义:点在区域边界内部为正,外部为负,位于边界上时为0。

在这里插入图片描述

  • B. Dataset Characteristics
    我们使用的物体是图5所示的21个YCB物体的一个子集,由于高质量的三维模型和良好的深度可见度而被选中。视频的采集是使用一个华硕Xtion Pro Live RGB-D相机在快速剪裁模式下采集的。它提供了分辨率为640x480的RGB图像,速度为30FPS,在设备上捕获1280x960的图像,然后通过USB传输中心区域。这导致了 更高的RGB图像的有效分辨率,但代价是较低的FOV,但鉴于深度传感器的最小范围 这是一个可以接受的折衷方案。完整的数据集包括 133,827张图片,比起 LINEMOD数据集。有关该数据集的更多统计数据。见表一。图6显示了我们数据集中的一个注释例子 其中,我们根据注释的 地面真实姿态。。请注意,我们的注释准确性受到了 误差的几个来源,包括RGB传感器的滚动快门包括RGB传感器的滚动快门、物体模型的不准确、RGB和深度的轻微不同步。RGB和深度传感器之间的轻微不同步,以及本征和外征的不确定性。相机的内在和外在参数的不确定性。
    在这里插入图片描述
  • 模型文件举例
    在这里插入图片描述
### YCB 数据集图片下载及相关数据结构 #### 关于 Dex-YCB 工具包 `dex-ycb-toolkit` 是一个用于处理 YCB Video Dataset 的工具包,它提供了便捷的方法来加载和操作该数据集中包含的图像和其他资源。通过此工具包可以轻松访问 YCB 数据集中的 RGB-D 图像、相机参数以及标注信息[^1]。 以下是基于 `dex-ycb-toolkit` 实现的一个简单 Python 脚本示例,展示如何从 YCB 数据集中读取并显示一张图片: ```python from dex_ycb_toolkit.dataset import Dataset # 初始化数据集对象 dataset = Dataset() # 获取第一个样本的信息 sample_id = dataset.all_ids[0] # 加载RGB图像 rgb_image_path = dataset.get_color_path(sample_id) print(f"RGB Image Path: {rgb_image_path}") import cv2 import matplotlib.pyplot as plt # 使用OpenCV读取图像 image = cv2.imread(rgb_image_path) # 将BGR转换为RGB格式以便正确显示颜色通道顺序 image_rgb = cv2.cvtColor(image, cv2.COLOR_BGR2RGB) plt.imshow(image_rgb) plt.title('Sample RGB Image from YCB Dataset') plt.axis('off') # 隐藏坐标轴 plt.show() ``` #### YCB 数据集的数据结构概述 YCB Video Dataset 提供了一个丰富的多模态数据集合,其目录通常按照如下方式组织: - **color/** 存储彩色 (RGB) 图像文件; - **depth/** 包含对应的深度图; - **label/** 对象分割掩码标签; - **meta/** JSON 或其他格式元数据文件,记录了每帧中各目标的位置、方向等姿态信息。 具体到单个序列时,上述子文件夹会存在于对应编号的序列路径下。例如,在某个实验场景下的第 i 条时间线可能位于 `/path/to/YCB_Video_Dataset/data/<sequence_number>/...`. 对于每一帧而言,它的命名约定通常是按零填充固定长度整数表示索引号加上扩展名构成,比如 `000001-color.png`, `000001-depth.png` 和关联的 meta 文件如 `000001-meta.mat` 等. #### 类别级别 vs 实例级别的讨论 值得注意的是,虽然 YCB 主要被视作针对实例级六维位姿估计的任务设计而成,但它同样适用于某些类别层次上的探索工作。这是因为尽管原始版本聚焦单独物件的具体表现形式捕捉上做得较好,但当考虑跨相似物品种群间迁移能力评估的时候,则需额外注意训练策略调整以适应更广泛的泛化需求[^3]。 ---
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值