语义建图可以大致分为两类, 基于RGB和RGBD建图.
基于RGB的建图,更关注的恢复物体的位置和大小, 而不特别关注物体的形状, 有稀疏和半稠密两种形式。 通常这类工作只需要依赖物体检测网络给予物体的bounding box,然后通过关键点的匹配关系三角化出属于物体的3D 点. 这样每个物体就可以由这些稀疏的点表示, 然后利用这些稀疏点的某种均值和分布来表示物体的位置及大小.
而基于RGBD的建图也有两种地图形式, 一类是以物体为中心的语义地图, 另一类的稠密的语义地图. 前者依靠物体检测网络也可以完成,后者则需要实例分割网络提供每个物体对应的类别和mask.
相比于纯几何建图, 语义建图的新增问题主要是:
- 物体的关联(data association).
- 每个3D点所属物体的更新.
- 物体的位姿, 主要是物体的朝向问题.
下面我们对这两个问题逐一介绍.
物体关联
物体关联主要是解决观测物体和地图中实际物体的对应关系, 比如当前帧观测到了一把椅子和一张桌子, 而地图中有两把椅子和两张桌子, 那么这一把椅子一张桌子是地图中的那一把椅子那一张桌子呢? 从目前研究来看, 物体关联主要分为两大类,一种是 硬关联(hard data association), 就是确切的给出关联关系,另一种是软关联(soft data association), 这种方法维护没一个物体每一种可能的关联的概率. 这两者的关系是硬关联每次都取可能关联里的最大概率的关联. 接着用桌子椅子的例子, 当前这把椅子有两种关联关系, 它可能关联的是地图中的椅子1, 也有可能关联的是地图中的椅子2, 同理当前观测到的桌子也有两种可能, 那么组合一下, 当前观测的所有可能关联有4种. 软链接会去维