本博客主要内容为图书《深度学习》的学习笔记,因此在全文中对它们多次引用。初出茅庐,学艺不精,有不足之处还望大家不吝赐教。
欢迎大家在评论区多多留言互动~~~~
一、计算机视觉的主要任务
计算机视觉的主要任务可以分为三类:一种是复现人的视觉能力,如图像分类、识别人脸,主要体现在对于对象的识别或者某种形式的检测;另一种是创造全新的视觉能力,如从视频中可视物体的振动中识别相应的声波 (Davis et al., 2014);最后是利用生成模型进行图像合成,更经常被使用的领域是图像恢复,即修复图像中的缺陷或从图像中移除对象这样的计算机视觉任务。
二、图像预处理
利用神经网络进行关于图像的深度学习与其他领域的最大区别在于,计算机视觉通常只需要较少的图像预处理工作,具体集中在两个方面,及对比度归一化与数据增强两个方面。
在一些例子中,我们不需要去除方差带来的变化,在这类图像中我们只需要使它们的像素都在相同并且合理的范围内,比如[0; 1] 或者[-1; 1]。其次要考虑减少数据的变化量,减少数据中的变化量既能够减少泛化误差,也能够减小拟合训练集所需模型的大小。更简单的任务可以通过更小的模型来解决,而更简单的解决方案泛化能力一般更好。当使用大型数据集和大型模型训练时,这种预处理通常是不必要的,并且最好只是让模型学习哪些变化性应该保留。例如,用于分类ImageNet 的AlexNet 系统仅具有一个预处理步骤:对每个像素减去训练样本的平均值(Krizhevsky et al., 2012b)。
2.1 对比度归一化
对比度是一种针对单张图像而定义的概念。在深度学习中对比度通常指的是图像或图像区域中像素的标准差,用来衡量图像中亮像素和暗像素之间差异的大小。假设我们有一个张量表示的图像 X∈Rr×c×3 X 2 Rrc3,其中 Xi,j,1