如何才可以让计算机理解一张图片?
计算机是无法直接理解一张图片的内容,但是我们可以制定不同的任务,根据任务需要,让计算机学会处理任务,基本任务大体可以分为四个方面:
一是分类(Classification),即是将图像结构化为某一类别的信息,用事先确定好的类别(string)或实例ID来描述图片。
二是定位(Localization),即标出目标在图像的什么位置,通常是以包围盒的(bounding box)形式给出。
三是检测(Detection),分类任务关心整体,给出的是整张图片的内容描述,而检测则关注特定的物体目标,要求同时获得这一目标的类别信息和位置信息,检测给出的是对图片前景和背景的理解。在目标定位中,通常只有一个或固定数目的目标,而目标检测更一般化,其图像中出现的目标种类和数目都不定。
四是分割(Segmentation),分割包括语义分割(semantic segmentation)和实例分割(instance segmentation),解决“每一个像素属于哪个目标物或场景”的问题。语