关于rgbd数据的知识汇总

1数据格式
点云数据一般是pcd,ply等等,下载的rgbd数据集是ply类型的,另外还有label和pose格式的数据文件。ply用matlab或者pcl打开。

通常深度数据使用整形数进行表示,范围在0-65535之间,类型为UINT16,即unsigned short,无符号2字节
单位为毫米(mm),但是某些SDK也支持使用100微米(um)来进行表示,如OpenNI支持的深度数据格式有PIXEL_FORMAT_DEPTH_1_MM,PIXEL_FORMAT_DEPTH_100_UM等。至于分辨率则通常是万年的640x480,有些甚至是320x240插值上去的。由于Depth有一定的有效工作范围,以PrimeSense Carmine 1.09为例,其工作范围只有0.35-1.4m,即数据范围是350-1400,通常会使用一个数值来表示无效的数据,如0或65535。
2存储读取
深度图的表示,如下:
char RGBData[640][480][3];
typedef unsigned short UINT16,PUINT16;
UINT16 DepthData[640][480];
我们可以自己实现保存与读取的方法,也可以借助一些第三方SDK,如OpenCV进行读写,
在操作深度图时,OpenCV使用的格式是 CV_16U
inline cv::Mat getMat(const VideoFrameRef &frame,int dataStride,int openCVFormat){
//深度图PNG16类型(short),Little-Endian(低位在低字节)
//RGB图BGR24类型
int h=frame.getHeight();
int w=frame.getWidth();
getMat(frame,2,CV_16U); //For Depth
getMat(frame,3,CV_8UC3); //For RGB
深度图的Mat可以保存为PNG16格式,直接保存即可,读取时记得加上cv::IMREAD_UNCHANGED的FLAG
3可视化
深度图的可视化有多种方法,如三维点云,Mesh等,但是通常获取的深度数据是一张二维的图像,需要转换成三维数据才可以显示,二维图像则采用colormap来进行显示。
获取三维坐标
在OpenNI中,有这样一个接口,如下:
UINT16 deep=depthImage.at(row,col);
float fx, fy, fz;
openni::CoordinateConverter::convertDepthToWorld(depth, col, row, deep, &fx, &fy, &fz);
这个是什么意思呢,我们来看一下具体实现:
OniStatus VideoStream::convertDepthToWorldCoordinates(float depthX, float depthY, float depthZ, float
pWorldX, float* pWorldY, float* pWorldZ)
一般来说我们直接将深度表示为Z坐标,而X与Y则与Z坐标有一个对应关系,未必是正比,可能是一个系数,m_worldConvertCache的数据结构如下,同时标注出了一个可能的参数列表,不同的相机可能不同:
struct WorldConversionCache
有时相机厂家提供的SDK可能封装了三维坐标的计算,我们可以根据获取到XYZ值进行反推coeffX与coeffY,从而得到相机相关的参数,具体的计算方式则如下:
m_worldConvertCache.xzFactor = tan(horizontalFov / 2) * 2;
m_worldConvertCache.yzFactor = tan(verticalFov / 2) * 2;
要计算出这些参数,我们需要知道相机在两个方向的视场角,并且知道图像的分辨率,一种可能的计算视场角的方式如下:

有了三维坐标我们就可以绘制点云或者Mesh,同时进行2D纹理贴图了,在此不赘述。
色彩图
colormap有很多种,主要思想是使用平滑过渡的不同颜色来表示不同范围的数值。
以常见的 MATLAB Jet 为例,我们可以指定越远的深度越蓝,越近的越红。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
将Kinetics数据集转换为RGBD数据集格式需要进行以下步骤: 1. 下载Kinetics数据集,并将其解压缩。 2. 安装OpenCV库,用于读取和处理视频帧。 3. 对于每个视频,将其分成RGB和深度图像。可以使用深度相机或者RGB-D相机来获取深度图像。 4. 将RGB和深度图像保存为PNG格式,命名为`rgb_{frame_number}.png`和`depth_{frame_number}.png`。 5. 创建一个`.txt`文件,其中每一行包含视频的路径、帧率和帧数。例如: ``` path/to/video1.mp4 24 120 path/to/video2.mp4 30 150 ``` 6. 将所有的RGB和深度图像以及`.txt`文件放入同一个文件夹中。 7. 运行代码,将Kinetics数据集转换为RGBD数据集格式。以下是一个Python脚本,可以将Kinetics数据集转换为RGBD数据集格式: ```python import cv2 import os import numpy as np input_folder = "path/to/kinetics/dataset" output_folder = "path/to/rgbd/dataset" if not os.path.exists(output_folder): os.makedirs(output_folder) for root, dirs, files in os.walk(input_folder): for file in files: if file.endswith(".mp4"): video_path = os.path.join(root, file) video_name = os.path.splitext(file)[0] output_dir = os.path.join(output_folder, video_name) if not os.path.exists(output_dir): os.makedirs(output_dir) cap = cv2.VideoCapture(video_path) fps = cap.get(cv2.CAP_PROP_FPS) num_frames = int(cap.get(cv2.CAP_PROP_FRAME_COUNT)) for i in range(num_frames): ret, frame = cap.read() if not ret: break # Convert frame to grayscale and apply a threshold gray_frame = cv2.cvtColor(frame, cv2.COLOR_BGR2GRAY) _, threshold_frame = cv2.threshold(gray_frame, 1, 255, cv2.THRESH_BINARY) # Split the thresholded frame into RGB and depth images depth_frame = np.stack((threshold_frame,)*3, axis=-1) rgb_frame = frame # Save the RGB and depth images as PNG files depth_filename = os.path.join(output_dir, "depth_{}.png".format(i)) rgb_filename = os.path.join(output_dir, "rgb_{}.png".format(i)) cv2.imwrite(depth_filename, depth_frame) cv2.imwrite(rgb_filename, rgb_frame) # Write the video information to a text file txt_filename = os.path.join(output_dir, "info.txt") with open(txt_filename, "w") as f: f.write("{} {} {}".format(video_path, fps, num_frames)) ``` 这个脚本将Kinetics数据集中的每个视频转换为RGBD数据集格式,并将其保存在指定的输出文件夹中。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值