5-图像处理与深度学习-读书笔记
本笔记根据PaddlePaddlePPT中第5章内容整理总结。
1.概述
1.1 图像识别目标
1.2 图像识别挑战
- 语义鸿沟(Semantic Gap)现象:图像的底层视觉特性和高层语义概念间的鸿沟
1.3 图像识别基本框架
测
量
空
间
特
征
表
示
→
特
征
空
间
特
征
匹
配
→
类
别
空
间
测量空间\underrightarrow{特征表示}特征空间\underrightarrow{特征匹配}类别空间
测量空间特征表示特征空间特征匹配类别空间
2.传统图像识别技术
2.1 早期图像识别技术(1990-2003)
2.1.1 特征提取
- 全局特征提取:用全局的视觉底层特性统计量表示图像
图片被表示成向量:原图片→向量空间映射→向量表示 - 全局特征示例:颜色特征、纹理特征、形状特征
- 特征变换:提高特征表示性能
- 流形学习(Manifold Learning):高维数据映射为低维空间下的向量表示
- 简单特征变换:中心化、归一化、去相关、白化
2.1.2 索引技术
2.1.3 相关反馈
2.2 中期图像识别技术(2003-2012)
2.2.1 特征提取
- 局部特征(Local Feature):图像区块(Patch)的向量
- 特征检测子(Feature Detector):检测图像区块中心位置(interest points)
- 特征描述子(Feature Desciptor):描述区块的视觉内容
- 局部检测子:Harris,DoG,SURF,Harris-Affine,Hessian-Affine,MSER
- 局部描述子:SIFT,PCA-SIFT,GLOH,Shape Context,ORB,COGE
2.2.2 向量化
- 局部特征转化为视觉关键词(即特征量化,Feature Quantization):查找视觉关键词,转化局部特征向量为关键词序号
- 常用特征量化技术:Hierarchical 1-NN、KD-tree
- 基于视觉关键词的图像表示:
图 像 特 征 提 取 → 局 部 特 征 特 征 量 化 → 视 觉 词 袋 → 视 觉 关 键 词 直 方 图 图像\underrightarrow{特征提取}局部特征\underrightarrow{特征量化}视觉词袋\to视觉关键词直方图 图像特征提取局部特征特征量化视觉词袋→视觉关键词直方图
2.2.3 索引技术 - 倒排索引
- 排序:tf-IDF加权(Term frequency-inverse document frequency)
2.2.4 后处理 - 查询扩展:使原有查询项含更多局部特征,再进行扩展查询
- 其他后处理技术:局部几何验证(Local Geometric Verification)、乘积量化(Product Quantization)
3.深度学习与图像识别
3.1 深度学习发展历程
- 深度学习在图像领域的应用:图片检索、识别异常的肿瘤、图片描述、图片着色
3.2 为什么使用深度学习
- 人脑视觉机理:1)视感觉阶段-信息采集 2)视知觉阶段-信息认知
- 神经-中枢-大脑:原始信号摄入(像素)-初步处理(边缘、方向)-抽象(形状)-进一步抽象(具体物体)
3.3 如何使用深度学习
3.3.1 如何使用深度学习解决图像识别
- 使用机器学习(深度学习)的目的:寻找一个合适的函数
3.3.2 使用步骤:建立模型(人)、损失函数(人)、参数学习(机器)
3.3.3建立模型
- 常用激活函数:Sigmoid、TanH、ArcTan、ReLU、PReLU
- 前置神经网络:输入层→隐藏层→输出层
- 模型例子:AlexNet、VGG、GoogleNet、Residual Net
- 输出层:softmax函数作为输出层激活函数,易理解好计算
- 设置合适的网络结构:层数、节点个数、激活函数
3.3.4 损失函数 - 常用损失函数:平方损失函数、交叉熵损失函数
- 总损失: L = ∑ r = 1 R l r L=\sum_{r=1}^{R}l_r L=∑r=1Rlr
3.3.5 参数学习
- 梯度下降: w = w − η ∂ L ∂ w w=w-η\frac{∂L}{∂w} w=w−η∂w∂L
- 反向传播算法:链式法则
4.课程实践
- 人脸识别
码字不易,如果您觉得有帮助,麻烦点个赞再走呗~