常见的图像处理的任务:
- 分类。给定一幅图像,用计算机模型预测图片中有什么对象。
- 分类+定位。不仅需要知道图片中的对象是什么,还要在对象的附近画一个边框,确定该对象所处的位置。
- 语义分割。对图像中的每一个像素点进行分类,而不仅仅是用矩形框框住。
- 目标检测。也就是回答图片里面有什么,分别在哪里。如Faster R-CNN、YOLO等。
- 实例分割。是目标检测和语义分割的结合,相对目标检测的边界框,实例分割可精确到物体的边缘;相对语义分割,实例分割需要标注出图上同一物体的不同个体。如Master R-CNN。
Oxford-IIIT数据集是一个宠物图像数据集,包含37种宠物,每种宠物200张左右图片,该数据集同时包含宠物分类、头部轮廓标注和语义分割信息。
图像定位的优化
预测图像位置本质上是一个回归问题,直接回归出位置,其缺点在于:
- 回归位置不精确
- 泛化能力不好
- 目前算法只能预测单个实例
图像定位的优化思路有很多:
- 先大后小。先在整张图片上预测出关键点,然后再在预测出的关键点周边进行二次预测。
- 滑动窗口。用一个小的窗口在图片上滑动,每一次做两个预测,是否有关键点和关键点位置。这样可以实现对多个关键点的检测。
- 针对不定个数的预测问题,可以先检测多个对象,再在多个对象上分别回归出位置。
- 使用全卷积网络,去掉全连接层,将回归问题变成分类问题。尤其在处理图像结构时使用它很好。
图像定位的评价
使用IoU(交并比, Intersection over Union)来评价图像定位的精度。IoU计算的是“预测的边框”和“真实的边框”的交集和并集的比值。
图像定位的应用
人体姿态估计(单人姿态估计):
实际上就是人体关键点检测,预测出人体各个关节部位节点的位置。