计算机视觉
主要任务:通过对采集的图片或视频进行处理以获得相应场景的信息。
马尔提出的计算机视觉非常重要的观点:人类视觉的主要功能是通过大脑进行一系列处理和变换,来复原真实世界中的三维场景,并且这种神经系统里的信息处理是可以用计算的方式重现(理论,算法和硬件)。
端到端的学习/训练:完全交给深度学习模型直接学习从原始数据到期望输出的映射。
object detection
物体再哪里以及是什么
问题:物体的尺寸变化范围很大,摆放物体的角度,姿势不定,可以出现再图片的任何地方,还是多类别
目前学术和工业界出现的目标检测算法分成3类:
-
传统的目标检测算法:Cascade + HOG/DPM + Haar/SVM以及上述方法的诸多改进、优化;
-
候选区域/窗 + 深度学习分类:通过提取候选区域,并对相应区域进行以深度学习方法为主的分类的方案,如:
R-CNN(Selective Search + CNN + SVM)
SPP-net(ROI Pooling)
Fast R-CNN(Selective Search + CNN + ROI)
Faster R-CNN(RPN + CNN + ROI)
R-FCN 等等 -
基于深度学习的回归方法:YOLO/SSD/DenseBox 等方法;以及最近出现的结合RNN算法的RRC detection;结合DPM的Deformable CNN等
fine-tuning:使用预训练的网络来重新fine-turning(微调)
一般使用多个filter分别进行卷积,最终得到多个特征图
感受野:原始区域
FCN:先卷积,再计算,只计算一次
缺点:感受野大小固定,卷积窗口固定,效果可能不会得到非常好的效果