摘要: 一份关于语义分割的基本概述,涵盖语义分割的特征和可能的用途,包括地质检测、自动驾驶、面部识别等。
近年来,以深度学习为中心的机器学习技术引起了人们的关注。比如自动驾驶汽车已经逐渐成为可能,但在整个深度学习过程,需要算法识别和学习作为原始数据提供的图像,在这一过程中,应用到了语义分割技术。下面让我们来看看语义分割的需求是如何演变的。
早期,计算机视觉的初始应用需求只是识别基本元素,例如边缘(线和曲线)或渐变。然而,仅仅通过全像素语义分割的创造来理解像素级的图像,它将属于同一目标的图像部分聚集在一起,从而扩展了语义分割的应用场景。
识别每个像素或分组像素一起分配类别的过程可以通过以下过程:
图像分类(image classification)——识别图像中存在的内容;
物体识别和检测(object recognition and detection)——识别图像中存在的内容和位置(通过边界框);
语义分割(semantic segmentation) ——识别图像中存在的内容以及位置(通过查找属于它的所有像素)
下面进入本文的主要内容:
什么是语义分割?
语义分割是一种典型的计算机视觉问题,其涉及将一些原始数据(例如,平面图像)作为输入并将它们转换为具有突出显示的感兴趣区域的掩模。许多人使用术语全像素语义分割(full-pixel semantic segmentation),其中图像中的每个像素根据其所属的感兴趣对象被分配类别ID。
早期的计算机视觉问题只发现边缘(线条和曲线)或渐变等元素,但它们从未完全按照人类感知的方式提供像素级别的图像理解。语义分割将属于同一目标的图像部分聚集在一起来解决这个问题,从而扩展了