CS231_深度之眼打卡_1

根据课程内容及网上相关内容记录笔记,仅学习使用

第2节、视觉发展历史

在这里插入图片描述

在这里插入图片描述

猫视觉实验:参考https://www.doban.com/note/640431776/的文章

在这里插入图片描述
休伯尔和威泽尔(Hubel and Wiesel) 将微电极插入麻醉猫的初级视皮层,然后在置于猫前方的幕布上投射出一条光带,改变光带的空间方位角度,用微电极记录神经元的发放。他们发现当光带处于某个空间方位角度时,发放最为强烈。而且不同的神经元对不同空间方位的偏好不尽相同。这些指向不同方位的线条,是构成形状和轮廓的基础(图)。这项工作为他们赢得了1981年的诺贝尔生理学或医学奖。

在这里插入图片描述
图 视觉感知轮廓的原理
这项研究的重要之处,是解释了我们到底是如何“看见”的。这就是视觉系统的自底向上处理模式(bottom-up processing)。我们对视觉信息的接收和处理,是一个从“解构”,到“组装”,到“解读”的过程。 当眼睛聚焦观看实物或画时,视网膜上会暂时产生一个分辨率并不高的二维图像。最低级的视觉细胞或从中识别线条、边缘,或吸收特定的不同波长的光波给出色彩。这些零散的信息在上一级皮层得以整合,得到一个模糊的雏形。再往上传,大脑视觉中心清除不相关的细节,寻找效果一致的形状和色彩,抽象出实物的特点,再根据已有的知识,记忆和联想,最后创造出一个丰富详细完整的“图像”。至此,遵循一个与相机成像完全不同的原理,我们才算“看见”了。

目标分割的概念

如果识别目标太难,首先要做的是目标分割。
这个任务就是把一张图片中的像素点归类到有意义的区域,可能不知道这些像素点组合到一起是一个人形,但可以把属于人的像素点从背景中抠出来,这个过程就叫作图像分割。

adaboost实时人脸检测

Haar-like + adaboost算法
  Haar-like特征有多种表示方法,应用时将任意一个矩形放到人脸区域上,然后将白色区域的像素和减去黑色区域的像素和,得到的值可认为是人脸特征值;把这个矩形放到一个非人脸区域计算出的特征值则与人脸特征值不同。所以这些方块的目的就是把人脸特征量化,以区分人脸和非人脸。
在这里插入图片描述
  Adaboost(Adaptive Boosting)是一种学习模型,它的核心思想是将弱学习方法通过学习反馈提升成强学习算法,也就是“三个臭皮匠顶一个诸葛亮”。
  两者相结合,利用 Adaboost优秀的数据挖掘能力从海量的Haar-like特征中训练得出强分类器,大大提高了检测的速度和检测的精确率。

imagenet、pascal voc数据集了解

ImageNet数据集有1400多万幅图片,涵盖2万多个类别。其中有超过百万的图片有明确的类别标注和图像中物体位置的标注。
PASCAL VOC挑战赛是视觉对象的分类识别和检测的一个基准测试,提供了检测算法和学习性能的标准图像注释数据集和标准的评估系统。PASCAL VOC图片集包括20个目录:人类;动物(鸟、猫、牛、狗、马、羊);交通工具(飞机、自行车、船、公共汽车、小轿车、摩托车、火车);室内(瓶子、椅子、餐桌、盆栽植物、沙发、电视)。PASCAL VOC挑战赛在2012年后便不再举办,但其数据集图像质量好,标注完备,非常适合用来测试算法性能。

第3节、卷积神经网络的发展

在这里插入图片描述

作业:

  1. 图像的数据主要来源有哪些 (列举几个即可)
    

MNIST、CIFAR-10、CIFAR-100、ImageNet、COCO、LFW (Labeled Faces in the Wild)等图像数据集。

  1. sift feature 是什么,可以用来干什么。金字塔匹配思想是什么,可以用来干什么。 hog特征是什么,可以用来干什么。
    

SIFT的全称是Scale Invariant Feature Transform,尺度不变特征变换,由加拿大教授David G.Lowe提出的。SIFT特征对旋转、尺度缩放、亮度变化等保持不变性,是一种非常稳定的局部特征
特点是:
图像的局部特征,对旋转、尺度缩放、亮度变化保持不变,对视角变化、仿射变换、噪声也保持一定程度的稳定性。
独特性好,信息量丰富,适用于海量特征库进行快速、准确的匹配。
多量性,即使是很少几个物体也可以产生大量的SIFT特征
高速性,经优化的SIFT匹配算法甚至可以达到实时性
扩招性,可以很方便的与其他的特征向量进行联合。
SIFT算法的实质可以归为在不同尺度空间上查找关键点(特征点)的问题。所谓关键点,就是一些十分突出的点,这些点不会因光照条件的改变而消失,比如角点、边缘点、暗区域的亮点以及亮区域的暗点,既然两幅图像中有相同的景物, 那么使用某种方法分别提取各自的稳定点,这些点之间就会有相互对应的匹配点。而在SIFT中,关键点是在不同尺度空间的图像下检测出的具有方向信息的局部极值点。涉及到的最重要的两步是:1.构建尺度空间 2.关键点检测

图像金字塔,是在保持观测窗口不变的情况下,获得输入图像在不同尺寸(分辨率)下的表达,在不同尺寸上提取到的特征在整体上做到了尺寸(分辨率)无关。有关特征、特征不变性、尺度空间、图像金字塔的介绍可以看链接
特征,特征不变性,尺度空间与图像金字塔

HOG特征
方向梯度直方图(Histogram of Oriented Gradient, HOG)特征是一种在计算机视觉和图像处理中用来进行物体检测的特征描述子。它通过计算和统计图像局部区域的梯度方向直方图来构成特征。Hog特征结合SVM分类器已经被广泛应用于图像识别中,尤其在行人检测中获得了极大的成功。需要提醒的是,HOG+SVM进行行人检测的方法是法国研究人员Dalal在2005的CVPR上提出的,而如今虽然有很多行人检测算法不断提出,但基本都是以HOG+SVM的思路为主。
(1)主要思想:
在一副图像中,局部目标的表象和形状(appearance and shape)能够被梯度或边缘的方向密度分布很好地描述。(本质:梯度的统计信息,而梯度主要存在于边缘的地方)。
(2)具体的实现方法是:
首先将图像分成小的连通区域,我们把它叫细胞单元。然后采集细胞单元中各像素点的梯度的或边缘的方向直方图。最后把这些直方图组合起来就可以构成特征描述器。
(3)提高性能:
把这些局部直方图在图像的更大的范围内(我们把它叫区间或block)进行对比度归一化(contrast-normalized),所采用的方法是:先计算各直方图在这个区间(block)中的密度,然后根据这个密度对区间中的各个细胞单元做归一化。通过这个归一化后,能对光照变化和阴影获得更好的效果。
(4)优点:
与其他的特征描述方法相比,HOG有很多优点。首先,由于HOG是在图像的局部方格单元上操作,所以它对图像几何的和光学的形变都能保持很好的不变性,这两种形变只会出现在更大的空间领域上。其次,在粗的空域抽样、精细的方向抽样以及较强的局部光学归一化等条件下,只要行人大体上能够保持直立的姿势,可以容许行人有一些细微的肢体动作,这些细微的动作可以被忽略而不影响检测效果。因此HOG特征是特别适合于做图像中的人体检测的。
可以参考这篇文章Hog特征

  1. 神经网络早就存再为什么神经网络最近才(提示:从数据和硬件方面考虑)
    

神经网络依赖大量数据的支持,现在大数据时代给其提供数据支持。
需要强大算力的支持,现在的硬件设备,特别GPU的算力大大提高。

  1. 图像任务有哪些,解决什么样的图像问题在,imagenet比赛中成绩突破是哪一个网络(eg:图像分类就是看图片中的物体具体是什么。)
    

2012年冠军结构是卷积神经网络:AlexNet
图像分类(image classification):给定一张输入图像,图像分类任务旨在判断该图像所属类别。
目标定位(object localization):在图像分类的基础上,我们还想知道图像中的目标具体在图像的什么位置,通常是以包围盒的(bounding box)形式。
目标检测(object detection):在目标定位中,通常只有一个或固定数目的目标,而目标检测更一般化,其图像中出现的目标种类和数目都不定。因此,目标检测是比目标定位更具挑战性的任务。
语义分割(semantic segmentation):语义分割是目标检测更进阶的任务,目标检测只需要框出每个目标的包围盒,语义分割需要进一步判断图像中哪些像素属于哪个目标。
这篇文章我大致看了,介绍的比较全面,并且有大量对应的经典的深度架构介绍,感兴趣可以看看计算机视觉四大基本任务(分类、定位、检测、分割)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值