计算机视觉大作业 抓取手势类型集_CS231n第一周[任务1]计算机视觉发展历史以及一些计算机视觉任务概念...

这篇博客介绍了斯坦福大学的计算机视觉课程,涵盖从早期的SIFT特征到深度学习的演变。内容包括图像分类、目标检测、图像描述等任务,以及ImageNet和PASCAL VOC数据集。文章还讨论了神经网络的历史,解释了为何其近期兴起,主要归因于数据量的增长和计算能力的提升。此外,还详细阐述了图像金字塔、SIFT特征、金字塔匹配和HOG特征的概念及其应用。
摘要由CSDN通过智能技术生成

1、任务简介

1、2、3课时视频

课程学习链接:

2017CS231n 斯坦福李飞飞计算机视觉识别_哔哩哔哩 (゜-゜)つロ 干杯~-bilibili​www.bilibili.com
c9679e7d8360599d920c9f44a7ed7251.png

2、任务详解:

  • 计算机视觉概述

对课程和计算机视觉的简单介绍,介绍一些斯坦福的课程

  • 计算机视觉历史背景

动物视觉历史,猫视觉的试验,猫的初级视觉细胞对边缘产生回应

计算机视觉发展历史 (直接分类-->手动提取特征-->神经网络)

目标检测的数据集合 pascal voc Imagenet数据集合

2012年之后cnn获得iamgent的比赛冠军

  • 课程后勤

图像的一些任务:图像分类,目标检测,图像描述

Imagenet比赛中的一些代表模型:Alexnet、Goognet、VGG、Resnet等

Cnn在1998年被严乐春初次使用

3、任务作业

  • 图像的数据主要来源有哪些 (列举几个即可)

ImageNet、PASCAL VOC、COCO

  • sift feature 是什么,可以用来干什么 ?

尺度不变特征转换(Scale-invariant feature transform,SIFT)是用来描述图像的局部特征,它在空间尺度中寻找极值点,并提取出其位置、尺度、旋转不变量。

其应用范围包含物体辨识、机器人地图感知与导航、影像缝合、3D模型建立、手势辨识、影像追踪和动作比对。

  • 金字塔匹配思想是什么,可以用来干什么?

1) 设置金字塔层数nLevels,创建源图像和模板图像对应的nLevels层金字塔图像;

2) 创建每层金字塔图像时,涉及到降采样(除以2),降采样后会出现锯齿,需要采用平滑 滤波器进行处理;高斯平滑滤波器效果好但耗时,可以直接采用小模板的均值滤波器;

3)计算模板与ROI图像的相似性值时,需要选择相似性度量准则;相似性度量准则有SAD(绝对值总和),SSD(平方差总和)和NCC(归一化相关系数),NCC的计算最耗时但效果最好,能很好的适应光照变化。

可以应用在目标检测中。

  • hog特征是什么,可以用来干什么?

方向梯度直方图(Histogram of Oriented Gradient, HOG)特征是一种在计算机视觉和图像处理中用来进行物体检测的特征描述子。

HOG特征提取方法就是将一个image(你要检测的目标或者扫描窗口):

1)灰度化(将图像看做一个x,y,z(灰度)的三维图像);

2)采用Gamma校正法对输入图像进行颜色空间的标准化(归一化);目的是调节图像的对比度,降低图像局部的阴影和光照变化所造成的影响,同时可以抑制噪音的干扰;

3)计算图像每个像素的梯度(包括大小和方向);主要是为了捕获轮廓信息,同时进一步弱化光照的干扰。

4)将图像划分成小cells(例如6*6像素/cell);

5)统计每个cell的梯度直方图(不同梯度的个数),即可形成每个cell的descriptor;

6)将每几个cell组成一个block(例如3*3个cell/block),一个block内所有cell的特征descriptor串联起来便得到该block的HOG特征descriptor。

7)将图像image内的所有block的HOG特征descriptor串联起来就可以得到该image(你要检测的目标)的HOG特征descriptor了。这个就是最终的可供分类使用的特征向量了。

  • 了解一下PASCAL VOC数据集合及imagenet数据集合

PASCAL VOC(Visual Object Challenge):由20个类别,火车、飞机、人类等等。每种类别有成千上万张图片。

ImageNet:22000类,4000万张图片。汇集所有能找到的图片,组成一个尽可能大的数据集。

  • 在imagenet比赛中成绩突破是哪一个网络 ?

Alexnet

  • 神经网络早就存再为什么神经网络最近才兴起(提示:从数据和硬件方面考虑)

神经网络需要大量带标签的数据,在90年代时收集这样的数据是很困难的。

90年代计算机的计算能力不能满足卷积神经网络这种高强度的计算。

  • 图像任务有哪些,解决什么样的图像问题(eg:图像分类就是看图片中的物体具体是什么)。

图像分类:图片中的物体具体是什么

目标检测:说明物体在哪里,标注出在图像中的位置

语义分割:理解途中的每个像素,它在干什么,又代表了什么

动作识别:识别人物活动

4、图像金字塔(与课程无关,自己总结)

图像金字塔就是把原图分解成不同分辨率的子图像,底部是待处理图像的高分辨率的表示,顶部是低分辨率的表示,从而构成一个金字塔,常见的金字塔有高斯金字塔和拉普拉斯金字塔。

高斯金字塔:原图像作为最底层的图像

,然后利用高斯核(5*5)对其进行卷积,对卷积后的图像进行下采样(去除偶数行和列),得到上一层图像
,将
作为新一轮图像的输入,重复卷积和下采样操作,迭代多次,产生一个金字塔结构,即高斯金字塔。

拉普拉斯金字塔:用高斯金字塔的每一层图像减去其上一层图像上采样并高斯卷积之后的预测图像,得到一系列的差值图像即为 LP 分解图像。也就是说拉普拉斯金字塔是通过原图像减去先缩小再放大的一系列图像构成的。

5、参考资料

图像数据集汇总:

https://blog.csdn.net/u012966194/article/details/79676516​blog.csdn.net

SIFT:

https://blog.csdn.net/lyl771857509/article/details/79675137​blog.csdn.net

金字塔匹配:

基于金字塔的模板匹配算法 - Happy_he - 博客园​www.cnblogs.com
c0cf1dc72ef305df3c9197f01ac64da0.png

HOG特征:

https://www.cnblogs.com/jyxbk/p/8985253.html​www.cnblogs.com
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值