基于深度学习的图像分割在高德的实践

高德技术

于 2019-12-13 18:00:24 发布

阅读量1.4k

点赞数

本文链接：https://blog.csdn.net/amap_tech/article/details/103535665

版权

本文介绍了高德地图如何利用深度学习技术进行图像分割，解决复杂场景下如文字、商户招牌等的识别问题。从早期尝试如OCR结合无监督算法，到全卷积网络FCNs的应用，再到Mask R-CNN实现实例化分割，图像分割技术在高德地图的数据自动化生产中扮演了关键角色，不断追求更高精度和实时性的解决方案。

摘要由CSDN通过智能技术生成

一、前言

图像分割（Image Segmentation）是计算机视觉领域中的一项重要基础技术，是图像理解中的重要一环。图像分割是将数字图像细分为多个图像子区域的过程，通过简化或改变图像的表示形式，让图像能够更加容易被理解。更简单地说，图像分割就是为数字图像中的每一个像素附加标签，使得具有相同标签的像素具有某种共同的视觉特性。

图像分割技术自 60 年代数字图像处理诞生开始便有了研究，随着近年来深度学习研究的逐步深入，图像分割技术也随之有了巨大的发展。早期的图像分割算法不能很好地分割一些具有抽象语义的目标，比如文字、动物、行人、车辆。这是因为早期的图像分割算法基于简单的像素值或一些低层的特征，如边缘、纹理等，人工设计的一些描述很难准确描述这些语义，这一经典问题被称之为“语义鸿沟”。

得益于深度学习能够“自动学习特征”的这一特点，第三代图像分割很好地避免了人工设计特征带来的“语义鸿沟”，从最初只能基于像素值以及低层特征进行分割，到现在能够完成一些根据高层语义的分割需求。

（图像分割的发展历史）

高德地图拥有图像/视频大数据，在众多业务场景上都需要理解图像中的内容。例如，在数据的自动化生产中，通常需要寻找文字、路面、房屋、桥梁、指示牌、路面标线等目标。这些数据里有些是通过采集车辆或卫星拍摄，也有些数据则是通过用户手机拍摄，如下图所示：

面对这些场景语义复杂、内容差异巨大的图像，高德是如何通过图像分割对其进行理解的？本文介绍了图像分割在高德地图从解决一些小问题的“手段”，逐步成长为高度自动化数据生产线的强大技术助力。

二、探索期：一些早期的尝试

在街边的数据采集中，我们需要自动化生产出采集到的小区、店铺等 POI （Point of Interest）数据。我们通过 OCR 算法识别其中文字，但苦恼于无法确定采集图像中到底有几个 POI。例如，下图中“领秀丽人”与“燕子童装”两家店铺，人眼可以很容易区分，但是对于机器则不然。一些简单的策略，比如背景颜色，容易带来很多的错误。