转载请注明:http://blog.csdn.net/c602273091/article/details/54289939
最近在做detection的相关工作,但是对于要做的东西呢总是不太清楚,看了课程介绍之后,终于有了稍微清楚一些的认识。
计算机视觉中一般有以下任务:
分类就是给你一张图,你说这是什么,一般来说只有一个目标物体。定位就是确定目标物体的位置,但是你不知道它是什么。所以分类和定位合起来就是给你一张图片,找出一个目标物体的位置,并给出置信度。detection就是多个物体的定位和分类。在detection之后,我们进行图片切割,这就是instance segmentation。
单幅图片的classification和localization
classification就是计算目标物体的score,localization是计算一个box,根据IOU计算准确度。
ImageNet就是做的这样的工作,因为每幅图片只有一个目标物体。ImageNet一般取score前五的进行衡量是否正确,IOU>0.5就是正确的。
localization as regression
使用回归来计算box。