第8章 自动特征生成:图像特征提取和深度学习
本章有两个主题:一是图像特征提取,二是深度学习。与之前的内容不同,本章处理的数据主要是“图像”、“音频”等不具备明显特征的数据。
在工程应用中,图像识别、目标检测都属于“计算机视觉”领域。从最初的“手写数字识别”(LeCun,1989)到近期“人脸识别”,计算机视觉(Computer Vision)领域近20年来取得了长足进步:
2001年:实时人脸检测算法(Viola and Jones),用于照相机自动对焦
2005年:基于“方向梯度直方图”(HOG)的行人检测算法( Dalal and Triggs)
2012年:深度学习算法(AlexNet)将图像识别的准确率大幅提升至85%
2015年:多层卷积神经网络(CNN)图像识别准确率已经超过人类水平
时至今日计算机视觉仍是一个热门领域,今年 Kaggle 奖金最高的比赛(100万美元)DeepFake 就与此相关:通过算法判断视频是否遭到篡改。
关于计算机视觉的内容,推荐以下文章,比本书第8章更为透彻。Image Recognition and Object Detection : Part 1www.learnopencv.com
一、方向梯度直方图
(一)什么是“特征描述”(feature descriptor)
假如彩色图片(image)包含
个像素,每个像素包含RGB三原色(3 channels),即每一个像素由 3 个字节表示,那么这张图片共包括
个特征变量。
这种把逐个“像素点”描述出来的图片称为“位图”(bitmap)。尺寸为
的位图共包含 24576 个像素点(数值化特征)。位图包含最丰富的信息,对于“目标检测”(检测是否包含人像)这一任务,并不需要这么多的信息。
所谓“特征描述”就是从图片中提取出对于目标检测(行人检测)有用的信息。
“方向梯度直方图”(Histogram of Oriented Gradients)就是一种“特征描述”,将一张
位图作为输入,通过 HOG 处理,得到一个长度为 3780 的特征向量。提取后的“有用”信息只占原来的 15 % 左右。
(二)如何计算HOG
步骤1:预处理
最重要的是固定图片的“纵横比”(aspect ratio)。如上图所示,从原始图片中截取其中一块(a patch)进行“行人检测”。截取块的尺寸为: