互联网图像中的像素级语义识别

最新推荐文章于 2024-05-28 10:06:46 发布

深度学习大讲堂

最新推荐文章于 2024-05-28 10:06:46 发布

阅读量2.8k

点赞数 2

本文链接：https://blog.csdn.net/XWUkefr2tnh4/article/details/80823412

版权

编者按：“天街小雨润如酥，草色遥看近却无。”

从韩愈的这两句诗可以看出，人对图像内容的语义理解，并不依赖于细粒度监督信息做辅助。

与之相比，在机器学习领域，现阶段的语义分割任务，则依赖于大量的精细标注数据。互联网，作为最为丰富的数据源，吸引着相关从业人员的目光，然而要想利用这些数据，则面临着巨大的标注压力。

因此，引发了两点思考：第一，能否结合关键词信息作辅助，从web中直接学习知识，而不需要精细的人工标注呢？第二，能否利用类别无关的线索，在标注少量类别的数据集上训练好后，将其泛化到其他所有类别物体呢？

本文中，来自南开大学的程明明教授，将从这两点展开介绍目前的研究进展。

文末提供文中算法代码及参考文献的下载链接。

传统像素级语义理解方法，通常需要大量精细标注的图像训练。上图所示的是ADE20K数据集中的一个例子，该数据集包含21万个精细标注的物体的图像，是由Antonio教授的母亲花了很长时间标注的。

Antonio教授曾在CVML2012上开玩笑的说：“我的母亲标注了这样一个优质的数据集，真希望我有更多的母亲”。这是一句玩笑话，但也说明了构建数据集的重要性，以及构建它所需时间和精力之大。

回顾我们的成长过程，从小到大，我们的父母从未给我们做过如此精细的标注，去帮助我们识别和认知周围的世界。通常的学习方式是，父母给我们看一朵花并告诉我们这是朵花，然后我们就能很轻易的知道哪些区域、哪些像素对应着这朵花。那么我们是怎样利用这些信息，学习到每个像素所代表的语义内容呢？同时，这样一种信息能否帮我们更好的去理解图像的内容，对图像进行精细的语义理解？

我们的研究内容就是怎样去利用类似机制移除对精细标注信息的依赖。在生活中，当我们想要了解一种我们不熟悉的物体时，比如一种水果，通常我们只需要在网上搜索一下，观察几张图片，就能对这种水果有充分的认识，并能轻松识别对应目标及目标区域。能不能让计算机拥有从web中直接学习知识的能力，而不需要精细的人工标注呢？

可以帮助像素级语义理解的相关的工作有很多，比如说显著性物体检测：给定一张图像，发现并找到图像中的显著性物体，这些信息是很关键的。举个例子，当我们使用关键词在网上检索图像的时候，通常检索的图像和关键词之间有很强的相关性，通过显著性目标检测，我们可以假设检测结果对应的显著性区域语义信息就是其关键词，当然这种假设是存在噪声或者说错误的。

除了显著性目标(saliency)检测以外，还有图像的边缘检测，图像的过分割（over segmentation）等信息。这些信息都是类别无关的，可以从很少的数据集中训练出一个很好的通用模型。如边缘检测，我们可以从只有500个数据的BSD数据集中训练出一个很好的边缘检测模型。边缘能够很好描述物体的边界，从而能够减少对精细标注的依赖。同样的，过分割以及显著性检测也有同样的效果。一个直接的想法就是能否利用这些类别无关的线索（cues），在标注少量类别的数据集上训练好后，将其泛化到其他所有类别物体呢？哪怕是我们没有见过的物体，在不知道该物体类别的情况下，我们也能找到该物体所对应的区域。