计算机视觉问题
- semantic segmentation(no object,just pixels)
- classification+localization single object(异常检测)
- objective detection 2D&3D
- instance segmentation
分类问题
- 离散量
- x -->y
- y is labels
- 逼近数据集
- 两类问题
- 多类问题
- 多标签问题
- core:一个目标属于某各类的概率
回归问题
分类模型可以将回归问题的输出离散化,回归问题可以将分类问题的输出连续化,下面是两者的区别
回归问题与分类问题
some important Terms
- Recall(对的对了,它计算的是所有检索到的item占所有"应该检索到的item"的比例,不care目标之外的 集合成员)
- Precision(它计算的是所有被检索到的item中,"应该被检索到"的item占的比例)
- iou (多用于位置检测,即检测结果(DetectionResult)与 Ground Truth 的交集比上它们的并集)
这篇文章介绍了一下这些术语
目标检测问题
- what and where
- 最后的classify loss and objection loss 要相加
- object detective as regression? yes!
1. 目标检测的方法
- sliding window(计算量太大,满足不了实时性)
- region proposals/ Selective Search, the new idea
2. 特征提取
网络模型R-CNN
1. RCNN(Selective Search + CNN + SVM)
RCNN的简要步骤如下
(1) 输入测试图像
(2) 利用选择性搜索Selective Search算法在图像中从下到上提取2000个左右的可能包含物体的候选区域Region Proposal
(3) 因为取出的区域大小各自不同,所以需要将每个Region Proposal缩放(warp)成统一的227x227的大小并输入到CNN,将CNN的fc7层的输出作为特征
(4) 将每个Region Proposal提取到的CNN特征输入到SVM进行分类
(5) Bounding box 回归
但是最开始提取的2000个region还是太多了。feature map中保留了图像的原始信息,所以可以只进行一次CNN,然后再feature map上找到selective search的框。现在的问题是大小不一,后面的全连接层需要相同的大小,何恺明提出的spp-net解决了这个问题
2.SPP-NET
将RCNN不断地进行feature map的提取转换为在SPP-NET中的只计算一个feature map,其中的spatial pyramid pooling解决了框的大小不一的问题。
FAST-RCNN
把selective search 也直接在featureMap上进行,比spp更进一步
-
Rol pooling:ROIs Pooling(region of interest)顾名思义,是Pooling层的一种,而且是针对RoIs的Pooling,他的特点是输入特征图尺寸不固定,但是输出特征图尺寸固定
roi pooling -
bbox-regressor:对于窗口一般使用四维向量(x,y,w,h)(x,y,w,h) 来表示, 分别表示窗口的中心点坐标和宽高。 对于图 2, 红色的框 P 代表原始的Proposal, 绿色的框 G 代表目标的 Ground Truth, 我们的目标是寻找一种关系使得输入原始的窗口 P 经过映射得到一个跟真实窗口 G 更接近的回归窗口GG。
bbox-regressor
-
没有用SVM 使用softmax
-
也就是说,之前R-CNN的处理流程是先提proposal,然后CNN提取特征,之后用SVM分类器,最后再做bbox regression,而在Fast R-CNN中,作者巧妙的把bbox regression放进了神经网络内部,与region分类和并成为了一个multi-task模型,实际实验也证明,这两个任务能够共享卷积特征,并相互促进。
FASTER-RCNN
最大的改进就是将region proposal由一些方法变成一个网络,因为之前的网络显示,region proposal过程是整个目标识别过程当中最耗时的部分。(RPN使用其来代替原来的selective search)
RPN(Region Proposal Network)
a very important concept: anchor
YOLO/SSD
速度快,但是不同目标检测能力不如faster-rcnn
tip
- 对于凸优化问题,全局最优的一定是局部最优的
problem
- 再详细的了解全连接层造成的影响
- 搜集所讲网络的详细信息
下一节课
mAP
yolo and ssd
reference:
一文读懂目标检测:R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD
人脸检测
- 首先了解其基本原理 分类+回归
- 看论文
- 最暴力的做法(找一个basenet然后再做回归)
- IEEE的论文格式来写实验报告。1.abstract 2.introduction 3. methods 4.results 5.feature work