基于深度学习的图像语义分割技术概述之5.4未来研究方向

针对当前研究现状,该概述论文列出以下研究方向。

  • 3D数据集:尽管利用3D数据信息进行语义分割的方法和技术已经被提出,但是3D数据集的缺乏仍然是一个重要的问题。大规模3D语义分割数据集的需求是巨大的,但是相比低维度数据标记,其更加困难。尽管已经存在一些值得肯定的工作,但是依然有必要制作更大、质量更好、多样化的数据。现有的大多是仿真数据集,但是标记真实的三维世界的数据是重要的。其重要性可以从ILSVRC 2018将会加入3D数据看出。
  • 顺序数据集(Sequence dataset):与3D分割中大规模数据集的瓶颈一样,大规模数据集同样影响着视频分割。序列数据集有益于开发从中获得时域信息的方法,但其数量相对较少。因此,高质量的2D或3D的序列数据集的产生,无疑将会触发新的研究思路。
  • 使用GCN(Graph Convolutional Networks,图卷积网络)的点云数据分割:如之前提到的,处理点云类的3D数据是一个未解决的挑战。由于其无序、无结构的性质,传统的如CNN的结构难以应用于其上,除非使用离散排序方法将其结构化。一种可行的研究思路是将点云图当做图像、使用卷积处理。这中方法可以保留各个维度的空间曲线,而不用量化数据。
  • 上下文知识:FCNs是一个被广泛采用的语义分割方法,但其还缺少一些特性,如对上下文建模,来提高模型的准确度。参考RNNs中CRFs的方法,创造一种端到端的方法以提升真实世界场景的准确率是一种可行的研究路线。多尺度(multi-scale)和特征混合(feature confusion)同样展示了显著的进展。这些研究都是走向终极目标中重要的步骤,但是依然大量问题,需要大量研究。
  • 实时语义分割:众多应用中,精度是重要的。但是,使这些实现能够匹配常用摄像机帧率也是非常重要的(至少25帧/秒)。当前的大多方法与之相差甚远,例如,FCN-8s处理一张PASCAL VOC图片大约耗时100ms,而CRFasRMM则需500ms。因此,未来几年,我们希望能够出现针对实时性约束的一系列研究。这些研究工作需要找到精度和实时性的平衡点。
  • 内存:少数平台受到硬件内存的限制。分割网络通常需要大量内存来进行推断(inference)和训练(training)。为了使其能够适应这些设备,网络的简化是必须的。这通常通过减小网络复杂度来实现(需与精度权衡),当然也可以采用其他的思路。微调是一种可行的研究思路,在保持原始架构知识、精度的同时简化网络。
  • 序列的时域相关性:针对视频和序列的语义分割已存在少数方法,其利用时间信息来提高效率与精度。然而,没有一种方法是针对相关性问题的。对于一个处理视频图像分割的系统,能够对每帧取得较好的处理结果,同时利用帧间信息预测每个像素的标签以提高效率是非常重要的。
  • 多视角融合:最近的研究中,多视角融合是RGB-D相机使用的最大限制,尤其是针对单个物体分割。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值