基于图像的RGBD视频的等级分割注解（eficiency hierarchi graph-based segmentation of RGB-D videos）

最新推荐文章于 2023-04-03 18:29:45 发布

叩钉吧zz

最新推荐文章于 2023-04-03 18:29:45 发布

阅读量898

点赞数 1

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_40827685/article/details/80112006

版权

Efficency hierarchical segmentation 注解

2018年4月25日

15:08

首先这个题目叫做对于RGBD video的基于图像的层次分割

摘要：

我们通过结合深度颜色和时间信息来对3D RGBD 点云进行分割。(解释什么是基于图像，rgbd) 我们再点云上运用一个移动的窗口，对项次的region进行分组。这个分组让我们得出一个基础的过分割（就是分割了）。紧接着会凝聚成一个最小生成树算法，来融合成一个系统的树图。通过对这个分等级的分割术，来组成一个双向图。得到最终的分割。这个过程中运用的方法是一段给出的时间内的区域信息的继承和运用。

我们运用了先颜色后深度的多重分割，这个比简单的把颜色和深度进行分割有效很多。此外我们还可以对任意长度的视频进行处理。因此这个方法是讲究顺序的。

介绍：什么分割？就是对单一图片识别像素。但是现在是对视频进行分割了，它利用例如【11，7，23】这样的格式，对于样子相似和时间空间上连续的的像素进行分割。我们对这些无人监督的时间流上的3D点云分割很感兴趣。

但是voxel（体素）是3维的数据，所以我们为了加上时间这个因素，采用自己定义的toxel这个单元。toxel是时间上的voxel,就是4D 的超矩形单元。toxel怎么得来的呢？Voxel(体素)就是可以指代三维空间的体积，也可以指代二维的基于时间的帧。当我们结合一下，就得到了toxel, （XYZT）。

每8帧，我们都运用颜色，空间坐标，和RGBD 视觉流来建立一个分等级的区域树。然后按照顺序总结出属于每部分的连续信息。这些自底向上的设计，避免了视频时间长短或者存储量大带来的问题。我们的这个方法不是简单的按照深度分界线来进行分割。我们根据理论和自己的实践得出了结果。这个分割很有意义。

我们的成就：略

相关工作：

A、利用mean shift中心点移动的方法，和Tolotical persistence拓扑不变性解决视频分层分割的问题。

B 、聚类上：利用规范化切割来解决简单切割的问题

C、通过加权聚集分割来优化规范化分割。

D、利用基于图像的方法

E、对于视频分割，运用基于图像分层的方法。

略

我们的方法：一共有四步

1、利用深度和运动信息对8个连续的帧进行分割

2、在深度的基础上，利用颜色和运动信息进行超分割

3、结果区域的柱状图被用于建立一个系统树图，这个系统树图代表的是时空体积的分层分割。然后根据需要的分割等级，得出一个特殊的分层。

4、每8帧做出一个二分图，每4帧重叠一下，来实现时间的区域一致性。

原始方法是：

这个ɑ不好找，所以不用这个方法。

在RGBD视觉流上：每一队连续的RGBD图像都计算出一个视觉流。

1 深度转换成一个XYZ三维（3d空间）图像。这个过程是通过内外标准化可是特征和IR相机来得到的。，然后根据深度和RGB图像，每一对RGB图像，都要计算出视觉流。

我们利用基于多项式展开的两帧运动估计，每两个RGB图像，都由两个深度差来代表一个二维的视觉流（/\i，/\j），

这个视觉流的计算公式是

（在z不变的情况下）

我们紧接着利用IR相机的校准参数，得出了在3D空间上的运动状态。，因此将上式拓展，我们得到了

Fy 论文没提到，但我的猜想是帧数

3.1.1利用颜色和深度来分割：

我们的方法根据一个理论，这就是如果一个立体，每个深度不连续的点，都可以代表物体的边界。

第一次分割只是根据深度，然后才是颜色，在保持边界不变的情况下，然后进行merge

首先我们建立一个图，

这个图里，每个node，都代表一个toxel单元，每个node都和相邻的26个邻居相连，它的权重是2个toxel单元的深度差。

权重：

这个D是通过时空上的体积，来得到的深度值。，D（x',y'z',t'）代表了相邻单元的深度值。用来衡量两个节点之间的不相似度（dissimilarity）

通过根据计算出来的视觉流，每两个D（x,y,z,t-1）和D(x,y,z,t)之间就得到了链接toxel的边。

比如，Toxel(x,y,z,t-1) 和toxel (x+u,y+v,z+w,t) 链接的边的权重就是| D(x,y,z,t-1)- D(x+u,y+v,z+w,t) |。

这样的话，我们可以得到，一个区域R的内间距 InR(R）就被表示为在这个区域R的最小spanning tree 的最大边的权重。

（什么是smallise spanning tree）

区域之间是通过【5】合并了。这个【5】这个论文提到了，

对于一个

算法：

决定了深度大小的常数是K depth。

紧接着在深度分割完了之后，得出了一个图，称为C，

类似的node都一样，每个边都是通过和相邻26个node相邻得到的。视觉流就变成了 | C(x,y,z,t-1）- C(x+u,y+v,z+w,t) |

至于C（x,y,z,t）是怎么来的，是通过颜色上欧几里得差分（三维上两个点的直线距离）得到的。

我们用 LAB(明度，红色到深绿，蓝色到黄色) 和 CIE来确保颜色差的均匀度。

屏幕剪辑的捕获时间: 2018/4/26 20:54

决定颜色分割大小的是常量为Kdepth

在这一步做完之后我们有了一个超体素的超分割

3.2 分层处理：

一旦过分割结束后，每个超toxel地区的特征向量就显现出来了。我们用有颜色，3D位置，3D光流，特征的柱状图来统计每一个toxel。叫做LABXYZUVW柱状图。

我们计算九个1维的柱状图。

利用这些特征向量，第三个图S建好了。每一个region都是3.1.1超toxel分割好了的。边是用来连接地区的，（因为每个node都要和26个邻居相连。）

边的权重是相邻两个特征向量的差。我们利用最小权重，来证明两个region的最好的merge。

这次我们不会像5那样进行合并了，我们用。。方法来计算整块区域的最小生成树。

屏幕剪辑的捕获时间: 2018/4/27 9:47

该算法的结果是生成树，其捕获树的形式的合并的分层表示，其中根节点对应于整个集合的合并。

紧接着对最小生成树进行切割，通过选择不同的阈值，可以找到最小生成树中的不同切割。

为了使阈值参数直观，我们选择区域合并的百分比，这是我们用

ζ 表示。阙值决定了得出结果的粗糙度。当 ζ = 0，一个都没有merge。当 ζ = 100%，所有的region都被merge成了一部分。我们采用 ζ = 65%

3.3 二部图匹配

在当前这几帧对的树状图根据 ζ 进行阈值化之后，必须在该阈值树状图和前一对帧之间建立对应关系。因为这一帧的每个node要尽量个前一帧最好的对应，

为了实现这种对应关系，我们使用（6）稳定婚姻算法的gale解决王法在两个阈值树状图之间执行二分图匹配。

这个【6】。。

图2描述了二分图匹配过程，它考虑了区域大小的差异、区域质心位置的变化（应用3D光学光）之后，以及LabxZuVW直方图之间的差异。

通过区域R和区域S的直方图SAD差分方程，得到了每个区域的直方图匹配

质心移动的点：

两个区域的大小差：

权重：

通过利用权重对比，我们找到最小的权重分配，来merge两个区域

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。