1、任务简介
1、2、3课时视频
课程学习链接:
2017CS231n 斯坦福李飞飞计算机视觉识别_哔哩哔哩 (゜-゜)つロ 干杯~-bilibiliwww.bilibili.com2、任务详解:
- 计算机视觉概述
对课程和计算机视觉的简单介绍,介绍一些斯坦福的课程
- 计算机视觉历史背景
动物视觉历史,猫视觉的试验,猫的初级视觉细胞对边缘产生回应
计算机视觉发展历史 (直接分类-->手动提取特征-->神经网络)
目标检测的数据集合 pascal voc Imagenet数据集合
2012年之后cnn获得iamgent的比赛冠军
- 课程后勤
图像的一些任务:图像分类,目标检测,图像描述
Imagenet比赛中的一些代表模型:Alexnet、Goognet、VGG、Resnet等
Cnn在1998年被严乐春初次使用
3、任务作业
- 图像的数据主要来源有哪些 (列举几个即可)
ImageNet、PASCAL VOC、COCO
- sift feature 是什么,可以用来干什么 ?
尺度不变特征转换(Scale-invariant feature transform,SIFT)是用来描述图像的局部特征,它在空间尺度中寻找极值点,并提取出其位置、尺度、旋转不变量。
其应用范围包含物体辨识、机器人地图感知与导航、影像缝合、3D模型建立、手势辨识、影像追踪和动作比对。
- 金字塔匹配思想是什么,可以用来干什么?
1) 设置金字塔层数nLevels,创建源图像和模板图像对应的nLevels层金字塔图像;
2) 创建每层金字塔图像时,涉及到降采样(除以2),降采样后会出现锯齿,需要采用平滑 滤波器进行处理;高斯平滑滤波器效果好但耗时,可以直接采用小模板的均值滤波器;
3)计算模板与ROI图像的相似性值时,需要选择相似性度量准则;相似性度量准则有SAD(绝对值总和),SSD(平方差总和)和NCC(归一化相关系数),NCC的计算最耗时但效果最好,能很好的适应光照变化。
可以应用在目标检测中。
- hog特征是什么,可以用来干什么?
方向梯度直方图(Histogram of Oriented Gradient, HOG)特征是一种在计算机视觉和图像处理中用来进行物体检测的特征描述子。
HOG特征提取方法就是将一个image(你要检测的目标或者扫描窗口):
1)灰度化(将图像看做一个x,y,z(灰度)的三维图像);
2)采用Gamma校正法对输入图像进行颜色空间的标准化(归一化);目的是调节图像的对比度,降低图像局部的阴影和光照变化所造成的影响,同时可以抑制噪音的干扰;
3)计算图像每个像素的梯度(包括大小和方向);主要是为了捕获轮廓信息,同时进一步弱化光照的干扰。
4)将图像划分成小cells(例如6*6像素/cell);
5)统计每个cell的梯度直方图(不同梯度的个数),即可形成每个cell的descriptor;
6)将每几个cell组成一个block(例如3*3个cell/block),一个block内所有cell的特征descriptor串联起来便得到该block的HOG特征descriptor。
7)将图像image内的所有block的HOG特征descriptor串联起来就可以得到该image(你要检测的目标)的HOG特征descriptor了。这个就是最终的可供分类使用的特征向量了。
- 了解一下PASCAL VOC数据集合及imagenet数据集合
PASCAL VOC(Visual Object Challenge):由20个类别,火车、飞机、人类等等。每种类别有成千上万张图片。
ImageNet:22000类,4000万张图片。汇集所有能找到的图片,组成一个尽可能大的数据集。
- 在imagenet比赛中成绩突破是哪一个网络 ?
Alexnet
- 神经网络早就存再为什么神经网络最近才兴起(提示:从数据和硬件方面考虑)
神经网络需要大量带标签的数据,在90年代时收集这样的数据是很困难的。
90年代计算机的计算能力不能满足卷积神经网络这种高强度的计算。
- 图像任务有哪些,解决什么样的图像问题(eg:图像分类就是看图片中的物体具体是什么)。
图像分类:图片中的物体具体是什么
目标检测:说明物体在哪里,标注出在图像中的位置
语义分割:理解途中的每个像素,它在干什么,又代表了什么
动作识别:识别人物活动
4、图像金字塔(与课程无关,自己总结)
图像金字塔就是把原图分解成不同分辨率的子图像,底部是待处理图像的高分辨率的表示,顶部是低分辨率的表示,从而构成一个金字塔,常见的金字塔有高斯金字塔和拉普拉斯金字塔。
高斯金字塔:原图像作为最底层的图像
拉普拉斯金字塔:用高斯金字塔的每一层图像减去其上一层图像上采样并高斯卷积之后的预测图像,得到一系列的差值图像即为 LP 分解图像。也就是说拉普拉斯金字塔是通过原图像减去先缩小再放大的一系列图像构成的。
5、参考资料
图像数据集汇总:
https://blog.csdn.net/u012966194/article/details/79676516blog.csdn.netSIFT:
https://blog.csdn.net/lyl771857509/article/details/79675137blog.csdn.net金字塔匹配:
基于金字塔的模板匹配算法 - Happy_he - 博客园www.cnblogs.comHOG特征:
https://www.cnblogs.com/jyxbk/p/8985253.htmlwww.cnblogs.com