【论文阅读】ICRA2022: Panoptic Multi-TSDFs: a Flexible Representation for Online Multi-resolution

最新推荐文章于 2024-07-13 12:46:57 发布

Kin-Zhang

最新推荐文章于 2024-07-13 12:46:57 发布

阅读量400

点赞数 5

分类专栏：论文阅读文章标签：论文阅读人工智能

本文链接：https://blog.csdn.net/qq_39537898/article/details/126895874

版权

论文阅读专栏收录该内容

30 篇文章 16 订阅

订阅专栏

Type: ICRA
Year: 2022
tag: SLAM

参考与前言

论文链接：https://arxiv.org/abs/2109.10165

代码链接：https://github.com/ethz-asl/panoptic_mapping

1. Motivation

为了和环境内其他机器人进行交互，access to volumetric and semantic maps是很重要的。而对于长时间段，环境多少都会发生变化，而构建地图时我们也应当考虑到这点

提出了一种针对变换环境的 novel representation panoptic multi-TSDFs for multi-resolution volumetric mapping

背景介绍

volumetric representations:

occupancy
Truncated Signed Distance Fields (TSDF)

但是这类fixed grid结构使得这一类方法耗memory 而且对于变化的东西渲染也不灵活变化，本篇工作主要是 invert this paradigm and explore how semantic information can be leveraged to improve the modeling of geometry and achieve temporal consistency，也就是如何利用语音信息进行改进几何建模并实现时空上的连续性

[11, 12] spatially consistent volumetric mapping
[5, 6, 13] moving object reconstruction

Contribution

提出了全景 multi-TSDF 作为可调整的volumetric map representation，这样能满足capture long-term object-level scene changes
提出了能使全景 multi-TSDF 在 online operation 对 temporally consistent mapping
相关实验及开源

2. Method

本工作并不是优化 segmantic labeling，而是 explore high-level information 以便能实现多分辨率三维重建和temporal consistency

2.1 框架

输入是RGBD相机上的彩色图像和深度图像，由此来预测我们的语义信息，此处主要使用了[33]的语义输出，所以文章整体的重点并不是在如何构建语义地图，而是从别的模块拿取这一信息

2.2 地图表示

主要是使用object作为最小的单位，然后整个world就是 a collection of panoptic entities, structured as submaps，所以我们将分为三类：objects, background, free space，每一个submaps包含有这个entity的信息，比如类别或是free space ，为了是实现每个submap的temporal consistency，我们将其分为active和inactive的，其中

active 表明现在正在被跟踪、建立
inactive则是过去的观测 observations

为了表示几何，我们选取TSDF grids[2]进行表示，同时TSDF可以融合多帧观测；被object占据的空间会分成blocks，只有blocks才包含有surface information

对于traversal submap，则是将object在blocks上用一个球进行扩展；每个block都包含有 a dense grid of voxels 去存储TSDF值

2.3 Label Tracking

首先是使用了marching cubes [34] 对每个submap的iso-surface进行计算，随后将view frustum上的点投影到图像平面中

对于点的深度有tolerance $\xi_d=\nu$ 其中v表明TSDF的voxel size，当此深度被认为是有效的时候，填充此patch为v，注意input segment以IoU进行筛选

在label tracking和更新时，submaps为被跟踪t=3帧来确保它被kept，如果submaps在t=5帧间没有被检测，则视为deactivated

2.4 Integration 集成

TSDF的更新权重 [2]，其中fx, fy为相机的参数，z(v)为v voxel的深度值

$w_{i n}(v)=\frac{f_x * f_y * \nu^2}{z(v)^4}$

对应函数：

float ProjectiveIntegrator::computeWeight(const Point& p_C,
                                          const float voxel_size,
                                          const float truncation_distance,
                                          const float sdf) const {
  // This approximates the number of rays that would hit this voxel.
  float weight =
      cam_config_->fx * cam_config_->fy * std::pow(voxel_size / p_C.z(), 2.f);

  // Weight reduction with distance squared (according to sensor noise models).
  if (!config_.use_constant_weight) {
    weight /= std::pow(p_C.z(), 2.f);
  }

  // Apply weight drop-off if appropriate.
  if (config_.use_weight_dropoff) {
    const float dropoff_epsilon =
        config_.weight_dropoff_epsilon > 0.f
            ? config_.weight_dropoff_epsilon
            : config_.weight_dropoff_epsilon * -voxel_size;
    if (sdf < -dropoff_epsilon) {
      weight *=
          (truncation_distance + sdf) / (truncation_distance - dropoff_epsilon);
      weight = std::max(weight, 0.f);
    }
  }
  return weight;
}

关于每个voxel上的概率更新

代码对应 count probability 公式(2)

float BinaryCountVoxel::getBelongingProbability() const {
  return static_cast<float>(belongs_count) /
         static_cast<float>(belongs_count + foreign_count);
}
void BinaryCountVoxel::incrementCount(const int id, const float weight) {
  // ID 0 is used for belonging voxels.
  if (id == 0u) {
    belongs_count++;
  } else {
    foreign_count++;
  }
}

2.4 Map Management

首先是关于inactive submaps会frozen 仅对他们状态进行更新 $\in \{\text{persistent, unobserved, absent}\}$

为了对比两个submaps，我们对每个iso-surface point的SDF和weight进行插值。

如果sdf小于一个值，则加入进更新和计算。

$\hat{w}(p)=\sqrt{\min \left(\frac{w(p)}{\xi_w}, 1\right) * \min \left(\frac{w_{r e f}(p)}{\xi_w}, 1\right)} \tag{5}$

结合TSDF权重，再给对应每个点权重的更新

float TsdfRegistrator::computeCombinedWeight(float w1, float w2) const {
  if (w1 <= 0.f || w2 <= 0.f) {
    return 0.f;
  } else if (w1 >= config_.normalization_max_weight &&
             w2 >= config_.normalization_max_weight) {
    return 1.f;
  } else {
    return std::sqrt(std::min(w1 / config_.normalization_max_weight, 1.f) *
                     std::min(w2 / config_.normalization_max_weight, 1.f));
  }
}
// Compute the weight to be used for counting.
if (config_.normalize_by_voxel_weight) {
  weight = computeCombinedWeight(weight, point.weight);
  total_weight += weight;
} else {
  weight = 1.f;
}

为了在下游任务中使用，efficient queries are 是很重要的（迅速查询）。为了实现这一特性，对于我们的hierarchical map representation 我们仅考虑与查询点p相交的submaps和blocks

如果这个点是处于active submap，直接使用最高的分辨率
否则sdf§ 则为到 any persistent submap 的最小距离

3. 实验及结果

首先是我们的方法在重建误差上最小，同时因为multi-resolution，能保持与其他方法在相同范围分辨率情况下的map size也更小

monolithic map as in [3,8,9]
Long-term fusion: [26] for volumetric maps (our implementation)

从图六折线图，可以看到一开始 Monolithic no map的误差还比较低，但会随时间而类似误差，其他with map和fusion等都会误差降低，由于semantic consistency的加入，我们的方法可以保持稳定误差范围内

如上更多关于误差和计算时间的表格，下面为定性图：

4. Conclusion

主要是提出了全景的multi-TSDFs，是一种可以多分辨率volumetric mapping下新型的representation

我们提出的submap-based方法能实现语义上在时间上的连续性，同样保证高分辨率的准确度

未来的工作可以在segmentation refinement 和 short-term dynamics，同时也可以提升在变化环境下的重定位算法效果

碎碎念

第一次看mapping类，cpp代码真的是套娃(继承)起飞，感觉完全弄懂代码还需要点时间，不过大概就是以下几点：

得益于TSDFs 信息配合下一条，能有效降低map size
根据不同的物体进行不同的分辨率赋值
时间上 binary, count 概率，同时配合TSDF有权重更新，所以可以建出变化图形
一种 map 新型的表达方式

赠人点赞手有余香 😆；正向回馈才能更好开放记录 hhh

Kin-Zhang

关注

5
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
【论文阅读】ICRA2022: Panoptic Multi-TSDFs: a Flexible Representation for Online Multi-resolution

occupancy但是这类fixed grid结构使得这一类方法耗memory 而且对于变化的东西渲染也不灵活变化，本篇工作主要是 invert this paradigm and explore how semantic information can be leveraged toand，也就是如何利用语音信息进行改进几何建模并实现时空上的连续性。
复制链接

扫一扫