点击上方“深度学习大讲堂”可订阅哦!
编者按:
若言琴上有琴声,放在匣中何不鸣?
若言声在指头上,何不于君指上听?
苏轼的《琴诗》暗示了全局认知对于场景理解的重要性。而在图像理解领域,相较于基于精细标注数据的全监督学习,弱监督学习本质上是一种试图从全局出发来理解场景的方式,也更接近于人类对世界的认知机制。本文中,来自南开大学的程明明副教授,将从局部认知拓展至全局认知,为大家介绍面向弱监督的图像理解。大讲堂特别在文末提供文章以及代码的下载链接。
我报告的主题是“面向弱监督的图像理解”,并对我们组的相关工作进行总结和介绍。
本次报告中介绍的所有工作代码都是开源的,大家可以扫描图中二维码获取我们主页进行下载。
理解图像信息是计算机视觉的重要部分,我们希望计算机能够像人的眼睛一样看见并理解图像中的内容。
现在计算机视觉领域的大多数问题还是依赖于特定的数据集进行训练和测试评估的。
而Data annotation(数据标注)的成本是极其高昂的。比如,对于PASCAL VOC数据集,需要十余工人来标注27374个bounding box(标注框),而对于ImageNet甚至需要25000名人员对上千万张数据进行标注。MIT的Antonio Torralba曾经在CVML会议上讲过一个非常有意思的故事,他的退休的母亲帮他做了20余万分割目标的精细标注,他开玩笑说希望有更多的父母参与到这份工作中来。
如图,是ADE20K数据集的一张图片,针对分割任务标注起来是非常困难的。一方面高质量的图像标注为我们进行图像理解提供了方便,另一方面,获取这样的标注是非常困难和耗时的。而回顾我们从小识物的过程,父母都是指着不同物体告诉我们每一个物体是什么,而不用精确地描绘物体的轮廓。这种从物体层面的认识区别于现有多数算法对像素精度标注的依赖。
这里我们对近期的工作做了一些梳理。在low level vision层面,我们做了一些基于attention mechanism(注意力机制)的工作,以及边缘检测和区域分割工作来对图像进行预处理和category-independent的图像分析,注意力机制可以帮助我们准确快速地定位图像的区域,而不需要进行人工分割。
在light weighted semantic parsing方面,我们一方面将介绍语义分割,另一方面介绍它和interaction的结合。
最后,为大家介绍它们在图像及视觉领域的应用,比如进行editing(编辑)、Synthesis(合成)、web images(网络图片)方面的工作。
Low Level Vision
视觉注意力机制在图像认知中起到了非常重要的作用。对于机器而言,传统方法采用滑动窗口机制来检测图像中的每一个位置可能是什么样的物体,而人类观察图像并不是基于滑动窗口的机制对上百万个图像窗口进行搜索和检测,往往是借助很强的注意力来定位可能的物体区域,只是判断少量潜在物体区域的具体类别信息,这能够帮助我们进行快速有效地识别,并摆脱对大数据的依赖。
注意力机制有几个重要的分支:其一为fixation prediction,旨在预测出图像中的注视点,这个注视点有可能是bottom-up与任务无关的,还有可能是top-down与当前任务相关的;其二为salient object detection(显著性物体检测);其三为objectness proposals,它是基于窗口的度量方法,通过预测图像中的每个窗口有多大可能性含有物体,有助于后期做物体检测。
首先介绍我们基于全局对比的显著性区域检测工作。我们通过对图像预分割,根据图像区域和其他所有区域的对比度来计算显著性物体的区域。我们将在后面介绍如何用它来进行弱监督的学习。