边缘框:
边缘框可以用四个数字定义:左上(x,y)和右下的(x,y)或者左上的(x,y)和宽高。
用于做图像定位的深度神经网络结构与图像分类类似,只是最后一层是一个包含4个神经元的全连接层,并使用均方误差或绝对误差作为损失函数。
数据集:
我们图片分类数据集中,把不同的图片放入不同的文件夹来表示不同的类别。而检测的时候就不能这样划分,因为一张图片中可能有多个物体。
所以每行表示一个物体(假设使用txt存放):
每行包含图片文件名,物体类别,边缘框。
常用的目标检测数据集COCO:cocodataset.org(80物体,330k图片,1.5M物体)