这篇综述的v2版本比较新,是2019年5月发的,总结了近20年来目标识别的主要方法、技术演进和未来发展。读完可以算是对这个方向有了一个大概的了解。
文章地址: https://arxiv.org/abs/1905.05055
什么是目标识别(object detection)?
目标识别就是通过计算机建立一个模型来识别图片中物体的位置和类别。
目标识别主要模型演进
这张图很好地展示了目标识别这20年来的技术演进。所以要入门这个方向,这些重点论文可以读一读。该图有2个重点:
1、2012年前以传统方法为主, 2012年后以深度学习方法为主,可想而知是因为2012的AlexNet论文的发表
2、深度学习方法以one-stage和two-stage方法为主。就按字面意思理解,one-stage是以一步到位的方式找到物体位置和类别,而two-stage则是由粗到细。
自2012年后,基于深度学习的模型准确度上升速度很快。所以现在这个方向的发展基本是以深度为主了。
数据集介绍
经典目标识别数据集
路人检测数据集
人脸识别数据集
文本识别数据集
交通灯和交通符号识别
远距离
目标识别相关技术
如何评价一个识别器效果?
1、mean Average Precision (mAP)
AP即数据集中一个类别的平均准确度,mAP即数据集中所有类别的平均准确度。
2、the Intersection over Union (IoU)
中文翻译为“交并比”,也就是预测物体边界框占比实际物体边界框大小。
注:这些概念可以在卷积神经网络-计算机视觉章by吴恩达中看到,讲了很多先今计算机视觉领域流行的技术。
3、localization recall precision
“本地回调准确度”,这个算是新起之秀,不过还是前2种比较主流。
物体特征提取
物体特征提取的方式在这20年来有了很大变化。简要说下:
1、传统时代中的the Haar wavelet
优点:计算效率高
2、深度时代中的前向传播就能提取物体特征
多尺度检测的发展
边界框的发展
context priming的发展
非极大值抑制的发展(non-max suppresion)
难例挖掘的发展(hard negative mining)
什么是难例,有3种类型,可见下图
目标识别加速
作者在文章里写了很多内容。大致可以分为以下几种方法:
1、feature map共享计算
2、分类器加速
3、串联结构加速
4、网络修剪和网络量化
5、设计轻量级网络
————————————————————
方法有5个:
1、分解卷积,比如使用流行的1x1卷积核
2、群卷积(group convolution),比如使用流行的1x1卷积核
3、深度可分离卷积(depth-wise separable convolution)
4、设计瓶颈结构(bottle-neck)
5、神经网络架构搜索(neural architecture search)
————————————————————
6、数值加速
最近的新发展、挑战和总结
最近的新发展、挑战和总结作者在文中详细介绍,因为自己对这一方面还不太了解没法很好地总结概括,具体内容请看文章4、5、6节。