国科大prml15-基于浅层模型的计算机视觉--以人脸识别为例

最新推荐文章于 2023-01-09 16:51:25 发布

叶落叶子

最新推荐文章于 2023-01-09 16:51:25 发布

阅读量1.6k

点赞数

分类专栏：国科大模式识别与机器学习文章标签：人工智能人脸识别机器学习

本文链接：https://blog.csdn.net/weixin_40485502/article/details/103911614

版权

国科大模式识别与机器学习专栏收录该内容

15 篇文章 15 订阅

订阅专栏

文章目录

2. 特征设计与提取过程q
2.1 局部特征--SIFT
2.2局部特征HOG
3. 特征汇聚或变换h
- 3.1BoVW视觉词袋模型
- 3.2PCA
4.以人脸识别为例

计算机视觉的基本任务
- 距离估计
  - 距离估计是指计算输入图像中的每个点距离摄像机的物理距离，该功能对于导盲系统显然是至关重要的
- 目标检测、跟踪、定位
  - „ 在图像视频中发现感兴趣的目标，并给出其位置和区域。对导盲系统来说，各类车辆、行人、红绿灯、交通标示等都是需关注的目标
- 前景分割和物体分割
  - 将图像视频中前景物体所占据的区域或轮廓勾勒出来。为了导盲之目的，将视野中的车辆和斑马线区域勾勒出来显然是必要的，当然，盲道的分割以及可行走区域的分割更加重要
- 目标分类和识别
  - 为图像视频中出现的目标分配其所属类别的标签。这里类别的概念是非常丰富的，例如画面中人的男女、老少、种族等，视野内车辆的款式乃至型号，甚至是对面走来的人是谁（认识与否）等等
- 场景分类与识别
  - 根据图像视频内容对拍摄环境进行分类，如室内、室外、山景、海景、街景等等
- 场景文字检测与识别
  - 特别是在城市环境中，场景中的各种文字对导盲显然是非常重要的，例如道路名、绿灯倒计时秒数、商店名称等等
- 事件监测与识别
  - „ 对视频中的人、物和场景等进行分析，识别人的行为或正在发生的事件（特别是异常事件）
定义
- 解读wh3个0~255之间的数字中蕴藏的、人类可理解的内容（边界，区域，物体，事件，意义）
数学建模
- 多数计算机视觉问题可以建模为广义的函数拟合问题
  - 学习一个以 $\theta$ 为参数的函数F，使得 $y=F_\theta(x)$
  - 其中y大致有两大类：
    - „ 类别标签：有限种类的离散型变量
    - „ 续变量或向量或矩阵：连续的变量或向量

在这里插入图片描述

方法
1. 图像预处理过程p
  1. 用于实现目标对齐、几何归一化、亮度或颜色矫正、图像复原(如去模糊)、图像增强等处理，从而提高数据的一致性，该过程一般是人为设定的。
2. 特征设计与提取过程
  1. 其功能是从预处理后的图像中提取描述图像内容的特征，这些特征可能反应图像的低层（如边缘）、中层（如部件）或高层（如场景）特性，一般也是依据专家知识人工设计的
  2. 该步骤一般并不需要训练数据进行学习
3. 特征汇聚或变换t
  1. 其功能是对前步提取的局部特征（一般是向量）z,进行统计汇聚或降维处理，从而得到维度更低、更利于后续分类或回归过程的特征z′。
  2. 该过程一般通过专家设计的统计建模方法实现，通常需要训练数据进行学习（与下一个步骤类似）
4. 分类器或回归器函数h的设计与训练
  $y=F_\theta(x)=h(t(q(p(x))))$
缺点——浅层视觉模型
- 带有强烈的“人工设计”色彩：不仅
  - 依赖于专家知识进行步骤的划分，
  - 更依赖专家知识选择和设计各步骤的函数

2. 特征设计与提取过程q

设计某种流程来提取专家觉得“好”的特征
分类
- 局部特征
  - 提取局部细节，主要建模边缘、梯度、纹理基元等
  - 手段：滤波器+统计（直方图）
  - 典型的局部特征：SIFT, HOG, LBP, Gabor, SURF, DAISY, BRIEF, ORB, BRISK
- 全局特征
  - 颜色直方图（统计各个颜色出现的频度
  - GIST（对图像场景的整体空间形状属性建模

2.1 局部特征–SIFT

在这里插入图片描述

尺度不变特征变换，
- SIFT: Scale-Invariant Feature Transform
  - „ 由David Lowe于1999年提出，其发表的ICCV1999和IJCV2004两篇文章被谷歌引用超过65000次
„ 概况
- 自动发现一定数量的关键兴趣点
  - „ 特征点数是不确定的，与图像内容有关
- 自适应确定合适的局部邻域范围
- - „ 与特征点尺度有关
- 提取方向直方图作为描述特征
  - „ 特征维度通常固定为128维
  - „ 对尺度和旋转等变化具有良好不变性
计算步骤
1. 尺度空间上的极值检测
  - 目标：识别潜在的、对尺度和旋转不变的候选兴趣点
  - 做法：使用高斯差分（DoG）金字塔近似LoG算子，形成尺度空间用以计算极值点
    - 不仅要考虑图像域中空间域上的极值，也要考虑尺度域中相邻尺度上的极值点
    - 即：极值点是DoG尺度空间的本层及上下层的若干邻域点中的最大/小值
2. 关键点筛选和精确定位
  - why?上述极值点都未必是稳定可靠的特征点，并且为之也未必精确
    - 筛选：去除部分对比度低的关键点，以及去除那些响应大但不稳定的边缘点
    - 精确定位：采用函数拟合法，通过求解拟合曲线的极值点来得到位置和尺度
3. 确定特征点主方向
  - „ 为实现旋转不变性，需确定每个特征点的主方向
    - 所谓主方向，是指该特征点邻域像素梯度方向的统计显著方向
  - „ 通过统计一定邻域范围内像素的梯度方向直方图得到（参见上图）
  - „ 为准确计算主方向，可以10度为间隔构建直方图
    - 注：清晰起见，上图示例的只是8个方向，即以45度为间隔
4. „ 确定描述子采样邻域的范围(由步骤2所得尺度决定)以获得尺度不变性
  - „ 用步骤3的主方向对该区域进行旋转以对齐到主方向，获得旋转不变性
  - „ 将旋转后区域划分为d×d个子区域（d通常取为4），在每个子区域内计算O个方向的梯度直方图
    - 与求主方向不同，这里通常取O为8，即每个方向区间为45°
    - 故最终每个特征点的SIFT特征维度为4x4x8=128
    SIFT讲解视频

2.2局部特征HOG

方向梯度直方图
动机：SIFT仅在稀疏关键点邻域内统计梯度特征（找关键点费劲
特点
- 也是统计局部梯度直方图，但没有关键点的概念
- 按不长滑动窗口直接在图像上均匀采样，局部区域统计方向，梯度直方图
- 开启了稠密特征描述子的先河
计算步骤
1. 梯度计算
  - 将每个像素点作为中心点位置，计算其梯度强度和方向
  - 可以通过水平和竖直方向的滤波器核（[-1, 0, +1]和[-1, 0, +1]T）实现
2. 将图像分块（Block）
  - 设定图像块大小，例如BxB个像素，然后在图像上以一定的步长S滑动，滑动到每个位置得到一个BxB大小的图像块
  - S一般小于B，所以图像块之间是有重叠的
3. 分块细分为Cell
  - 将每个分块（BxB)均匀细分为若干个更小的分块，每个分块称为cell
  - 假设每个cell大小为NxN像素, 则每个Block被划分为(B/N)x(B/N)个Cell
4. Cell内统计梯度强度加权的方向直方图
  - 以cell为基本统计单元计算方向直方图，即
  - 将cell中每个像素的梯度方向按照梯度强度加权的方式，映射到预设的M个方向桶(bin)中，从而形成cell的方向梯度直方图H_c
5. 拼接Block内所有Cell直方图并归一化
  - 每个Block 内部所有cell的H_c直接拼接得到H_b
  - 然后用L1-norm或L2-Norm对其进行归一化处理，即得到该block的方向梯度直方图
6. 全图HOG特征计算
  - 将图像中所有Block的特征串接起来, 即得到最终的图像HOG特征

3. 特征汇聚或变换h

原因
`有效性（未充分考虑随后的任务和目标
方法
- 特征汇聚
  - 视觉词袋模型（BoVW),Fisher向量(FV),和局部聚合向量（VLAD)
- 特征变换方法
  - PCA,线性判别分析、流形学习

3.1BoVW视觉词袋模型

图-文档；局部特征-词
计算过程
„ 1. 图像特征提取
- 理论上，用于BoVW方法的图像特征可以是任意特征
- „ 既可以前述的稀疏关键点SIFT特征，也可以是稠密采样的HOG特征
- „ 实践中，128维的稀疏关键点SIFT特征是应用最广泛的
„ 2. 视觉词典构建
- 用于文本处理的BoW基本单元是单词（word）
  - „ 单词是确定的，很容易统计词频
- 面向计算机视觉的单词应该是什么？
  - „ 视觉局部特征几乎不可能完全相同，需要首先构建视觉单词，形成视觉词典（Visual Vocabulary），以便像BOW中一样通过统计词频形成词袋
  - „ 视觉单词可以理解为一些经常出现的视觉特征，需要从一个训练集中学习而来
  - 假设训练集中有M幅图像，对第i幅图像提取SIFT特征，设得到Ni个关键点及其每个关键点的128维SIFT描述子
  - 将所有训练图像中的 $N=\Sigma_{i=1}^MN_i$ 个SIFT特征进行聚类
    - 例如用K-Means，高斯混合模型等，得到K个聚类中心
    - 每个聚类中心是一个128维的向量Wk，即所谓视觉单词
  - 所有K个视觉单词的集合即形成视觉词典 $D=\{W_k:k=1,...,K\}$

图像的视觉词袋表示
- 给定任意图像
- 计算其SIFT特征，得到l个128位的SIFT的描述子{xj}
- 将这些特征分别映射到视觉词典中的某个视觉单词 {Wj}
- 统计每个视觉单词出现的频次，可以得到一个K维的直方图向量H

优点
- 从L*128的不定长表示->K维定长表示
- 便于度量不同图像间的距离，有利于后续图像检测分类等任务
应用
- 以图搜图SIFT+BoVW+Hashing(二值化)用于图像检索任务
- 图像分类 SIFT+BoVW+SVM用于图像分类任务

3.2PCA

目标
降维
- 理论：特征值的大小对应于特征向量所描述的方向上方差的大小==》所以从w中去掉那些对应较小特征值的特征向量，因为在信息丢失最小的情况下降维
- 误差：x与重构的x’的误差为： $\Sigma_{j=1}^n\lambda_j-\Sigma_{j=1}^ d\lambda_j=\Sigma_{j=1+d}^n\lambda_j$
小结：
- „ 一种多元统计分析方法
- „ 变换后各维数据之间的相关性最小
- „ 最小均方误差意义下的最佳变换
- „ 限定有效的参数空间范围（在训练集合对象变化论域下）

在这里插入图片描述

4.以人脸识别为例

在这里插入图片描述

面部特征点定位方法
- 可变形模版的方法（下巴检测、眼睛嘴唇检测）

在这里插入图片描述

4.1 主动统计模型

4.1.1ASM(active shape model)

人脸形状表示（n个特征点形成的向量s
统计形状模型
人工->S={s1,s2,…,sm}
pca: $b_s=W'_s(s-\bar{s})-$
重构 $s=\bar(s)+W_sb_s---改变bs，得到不同的人脸形状(方向）$
„ 目标：求取最优的人脸形状(特征点位置)
- 求取最优的bs参数，使得用bs重建的形状最佳的匹配输入图像中人脸的形状
„ 思路
- 首先进行不够可靠的局部特征点纹理匹配
- 然后通过全局形状统计约束来对其进行规范化
„ 方法(迭代优化
- 局部纹理模型：每个特征点自己找自己该去哪里
  - „ 对每个特征点，在其法线邻域内搜索最佳匹配局部纹理模型的点
  - „ 局部纹理模型
    - 法线方向的纹理梯度，称为Profile
    - 每个特征点的Profile模型都要在训练阶段统计而来
  - „ 匹配方法
    - 在法线上逐点计算（马氏）距离
    - 选择距离最小的候选点作为匹配点
- 全局统计形状模型(PCA)约束：纠正不靠谱的(瞎跑的)特征点
缺点
- 实质上目标函数缺失
- 容易形成震荡

4.1.2 AAM主动表观模型

在这里插入图片描述

4.2人脸特征提取和比对

人脸存储
- 几何参数
- 亮度向量
- 特征脸
  - 本质PCA or KLT（用于人脸提取特征问题）
  - Wi-像脸？Wi是协方差矩阵的特征向量
- Fisherfaces方法–本质（Fisher线性判别分析）=PCA+FLD
  - 寻找一种投影变换Y=WX
  - 同一人更紧致，不同人更离散
  - 类内离散度Sw
  - 类间离散度Sb
  - $S_w^{-1}S_bW=W\Lambda\\目标函数：W_{fld}=argmax_W\frac{|W^TS_BW|}{|W^TS_WW|}$
  - 如果Sw是奇异的：正则化，Null-space
  - FLD假设：所有类别具有相同的协方差分布（实际不是这样的
  - FLD的特征唯独：最大为C-1(C类）
- 贝叶斯人脸识别
  - „ 类内差（ $\Omega_I$ ）类
    - 相同个体的多幅图象之间的差别，即包含了表情、不同光照条件、不同姿态等差别
  - „ 类间差（ $\Omega_E$ ）类
    - 不同人的人脸图象之间的差别，包含了身份变化的信息
  - 相似度建模为 $\Delta=I_1-I_2$ 属于类内差别的概率 $S(I_1,I_2)=P(\Delta \in \Omega_I)=P(\Omega_I|\Delta)\\=\frac{P(\Delta|\Omega_I)P(\Omega_I)}{P(\Delta|\Omega_I)P(\Omega_I)+P(\Delta|\Omega_E)P(\Omega_E)}\\若为正态分布：P(\Delta|\Omega_I)=N(\Delta,\Sigma_I)\\P(\Delta|\Omega_E)=N(\Delta,\Sigma_E)$
- Tom-vs-pete:像谁就是谁
- LBP:local binary patterns（图像=语言）
- Gabor+FLDA

特征脸

在这里插入图片描述

Fisherfaces方法–本质（Fisher线性判别分析）=PCA+FLD

在这里插入图片描述

贝叶斯人脸识别

LBP

在这里插入图片描述

建模图像中的微模式类型
- 与中心点像素亮度上的大小关系
- 一种建模邻域像素与中心像素亮度序关系的局部特征
  - 3x3像素邻域，中心像素和8-邻域像素亮度大小关系
  - „ 比中心像素更亮则赋1，否则赋0，这样会有256种不同的模式
- 微模式类型可以类比语言中的word（单词）
- „ 视觉单词的词频统计作为不同人脸的特征表示

叶落叶子

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
国科大prml15-基于浅层模型的计算机视觉--以人脸识别为例

文章目录2. 特征设计与提取过程q2.1 局部特征--SIFT2.2局部特征HOG3. 特征汇聚或变换h3.1BoVW视觉词袋模型3.2PCA4.以人脸识别为例4.1 主动统计模型4.1.1ASM(active shape model)4.1.2 AAM主动表观模型4.2人脸特征提取和比对特征脸Fisherfaces方法--本质（Fisher线性判别分析）=PCA+FLD贝叶斯人脸识别LBP计...
复制链接

扫一扫