国科大prml15-基于浅层模型的计算机视觉--以人脸识别为例

  • 计算机视觉的基本任务
    • 距离估计
      • 距离估计是指计算输入图像中的每个点距离摄像机的物理距离,该功能对于导盲系统显然是至关重要的
    • 目标检测、跟踪、定位
      • „ 在图像视频中发现感兴趣的目标,并给出其位置和区域。对导盲系统来说,各类车辆、行人、红绿灯、交通标示等都是需关注的目标
    • 前景分割和物体分割
      • 将图像视频中前景物体所占据的区域或轮廓勾勒出来。为了导盲之目的,将视野中的车辆和斑马线区域勾勒出来显然是必要的,当然,盲道的分割以及可行走区域的分割更加重要
    • 目标分类和识别
      • 为图像视频中出现的目标分配其所属类别的标签。这里类别的概念是非常丰富的,例如画面中人的男女、老少、种族等,视野内车辆的款式乃至型号,甚至是对面走来的人是谁(认识与否)等等
    • 场景分类与识别
      • 根据图像视频内容对拍摄环境进行分类,如室内、室外、山景、海景、街景等等
    • 场景文字检测与识别
      • 特别是在城市环境中,场景中的各种文字对导盲显然是非常重要的,例如道路名、绿灯倒计时秒数、商店名称等等
    • 事件监测与识别
      • „ 对视频中的人、物和场景等进行分析,识别人的行为或正在发生的事件(特别是异常事件)
  • 定义
    • 解读wh3个0~255之间的数字中蕴藏的、人类可理解的内容(边界,区域,物体,事件,意义)
  • 数学建模
    • 多数计算机视觉问题可以建模为广义的函数拟合问题
      • 学习一个以 θ \theta θ为参数的函数F,使得 y = F θ ( x ) y=F_\theta(x) y=Fθ(x)
      • 其中y大致有两大类:
        • „ 类别标签:有限种类的离散型变量
        • „ 续变量或向量或矩阵:连续的变量或向量

在这里插入图片描述在这里插入图片描述在这里插入图片描述
在这里插入图片描述

  • 方法
    1. 图像预处理过程p
      1. 用于实现目标对齐、几何归一化、亮度或颜色矫正、图像复原(如去模糊)、图像增强等处理,从而提高数据的一致性,该过程一般是人为设定的。
    2. 特征设计与提取过程
      1. 其功能是从预处理后的图像中提取描述图像内容的特征,这些特征可能反应图像的低层(如边缘)、中层(如部件)或高层(如场景)特性,一般也是依据专家知识人工设计的
      2. 该步骤一般并不需要训练数据进行学习
    3. 特征汇聚或变换t
      1. 其功能是对前步提取的局部特征(一般是向量)z,进行统计汇聚或降维处理,从而得到维度更低、更利于后续分类或回归过程的特征z′。
      2. 该过程一般通过专家设计的统计建模方法实现,通常需要训练数据进行学习(与下一个步骤类似)
    4. 分类器或回归器函数h的设计与训练
      y = F θ ( x ) = h ( t ( q ( p ( x ) ) ) ) y=F_\theta(x)=h(t(q(p(x)))) y=Fθ(x)=h(t(q(p(x))))
  • 缺点——浅层视觉模型
    • 带有强烈的“人工设计”色彩:不仅
      • 依赖于专家知识进行步骤的划分,
      • 更依赖专家知识选择和设计各步骤的函数

2. 特征设计与提取过程q

  • 设计某种流程来提取专家觉得“好”的特征
  • 分类
    • 局部特征
      • 提取局部细节,主要建模边缘、梯度、纹理基元等
      • 手段:滤波器+统计(直方图)
      • 典型的局部特征:SIFT, HOG, LBP, Gabor, SURF, DAISY, BRIEF, ORB, BRISK
    • 全局特征
      • 颜色直方图(统计各个颜色出现的频度
      • GIST(对图像场景的整体空间形状属性建模

2.1 局部特征–SIFT

在这里插入图片描述

  • 尺度不变特征变换,
    • SIFT: Scale-Invariant Feature Transform
      • „ 由David Lowe于1999年提出,其发表的ICCV1999和IJCV2004两篇文章被谷歌引用超过65000次
  • „ 概况
    • 自动发现一定数量的关键兴趣点
      • „ 特征点数是不确定的,与图像内容有关
    • 自适应确定合适的局部邻域范围
      • „ 与特征点尺度有关
    • 提取方向直方图作为描述特征
      • „ 特征维度通常固定为128维
      • „ 对尺度和旋转等变化具有良好不变性
  • 计算步骤
    1. 尺度空间上的极值检测
      • 目标:识别潜在的、对尺度和旋转不变的候选兴趣点
      • 做法:使用高斯差分(DoG)金字塔近似LoG算子,形成尺度空间用以计算极值点
        • 不仅要考虑图像域中空间域上的极值,也要考虑尺度域中相邻尺度上的极值点
        • 即:极值点是DoG尺度空间的本层及上下层的若干邻域点中的最大/小值
    2. 关键点筛选和精确定位
      • why?上述极值点都未必是稳定可靠的特征点,并且为之也未必精确
        • 筛选:去除部分对比度低的关键点,以及去除那些响应大但不稳定的边缘点
        • 精确定位:采用函数拟合法,通过求解拟合曲线的极值点来得到位置和尺度
    3. 确定特征点主方向
      • „ 为实现旋转不变性,需确定每个特征点的主方向
        • 所谓主方向,是指该特征点邻域像素梯度方向的统计显著方向
      • „ 通过统计一定邻域范围内像素的梯度方向直方图得到(参见上图)
      • „ 为准确计算主方向,可以10度为间隔构建直方图
        • 注:清晰起见,上图示例的只是8个方向,即以45度为间隔
    4. „ 确定描述子采样邻域的范围(由步骤2所得尺度决定)以获得尺度不变性
      • „ 用步骤3的主方向对该区域进行旋转以对齐到主方向,获得旋转不变性

      • „ 将旋转后区域划分为d×d个子区域(d通常取为4),在每个子区域内计算O个方向的梯度直方图

        • 与求主方向不同,这里通常取O为8,即每个方向区间为45°
        • 故最终每个特征点的SIFT特征维度为4x4x8=128

        在这里插入图片描述在这里插入图片描述
        在这里插入图片描述
        SIFT讲解视频

2.2局部特征HOG

  • 方向梯度直方图
  • 动机:SIFT仅在稀疏关键点邻域内统计梯度特征(找关键点费劲
  • 特点
    • 也是统计局部梯度直方图,但没有关键点的概念
    • 按不长滑动窗口直接在图像上均匀采样,局部区域统计方向,梯度直方图
    • 开启了稠密特征描述子的先河
      在这里插入图片描述
  • 计算步骤
    1. 梯度计算
      • 将每个像素点作为中心点位置,计算其梯度强度和方向
      • 可以通过水平和竖直方向的滤波器核([-1, 0, +1]和[-1, 0, +1]T)实现
    2. 将图像分块(Block)
      • 设定图像块大小,例如BxB个像素,然后在图像上以一定的步长S滑动,滑动到每个位置得到一个BxB大小的图像块
      • S一般小于B,所以图像块之间是有重叠的
    3. 分块细分为Cell
      • 将每个分块(BxB)均匀细分为若干个更小的分块,每个分块称为cell
      • 假设每个cell大小为NxN像素, 则每个Block被划分为(B/N)x(B/N)个Cell
    4. Cell内统计梯度强度加权的方向直方图
      • 以cell为基本统计单元计算方向直方图,即
      • 将cell中每个像素的梯度方向按照梯度强度加权的方式,映射到预设的M个方向桶(bin)中,从而形成cell的方向梯度直方图H_c
    5. 拼接Block内所有Cell直方图并归一化
      • 每个Block 内部所有cell的H_c直接拼接得到H_b
      • 然后用L1-norm或L2-Norm对其进行归一化处理,即得到该block的方向梯度直方图
    6. 全图HOG特征计算
      • 将图像中所有Block的特征串接起来, 即得到最终的图像HOG特征

3. 特征汇聚或变换h

  • 原因
    `有效性(未充分考虑随后的任务和目标
  • 方法
    • 特征汇聚
      • 视觉词袋模型(BoVW),Fisher向量(FV),和局部聚合向量(VLAD)
    • 特征变换方法
      • PCA,线性判别分析、流形学习

3.1BoVW视觉词袋模型

  • 图-文档;局部特征-词
  • 计算过程
  • „ 1. 图像特征提取
    • 理论上,用于BoVW方法的图像特征可以是任意特征
    • „ 既可以前述的稀疏关键点SIFT特征,也可以是稠密采样的HOG特征
    • „ 实践中,128维的稀疏关键点SIFT特征是应用最广泛的
  • „ 2. 视觉词典构建
    • 用于文本处理的BoW基本单元是单词(word)
      • „ 单词是确定的,很容易统计词频
    • 面向计算机视觉的单词应该是什么?
      • „ 视觉局部特征几乎不可能完全相同,需要首先构建视觉单词,形成视觉词典(Visual Vocabulary),以便像BOW中一样通过统计词频形成词袋
      • „ 视觉单词可以理解为一些经常出现的视觉特征,需要从一个训练集中学习而来
      • 假设训练集中有M幅图像,对第i幅图像提取SIFT特征,设得到Ni个关键点及其每个关键点的128维SIFT描述子
      • 将所有训练图像中的 N = Σ i = 1 M N i N=\Sigma_{i=1}^MN_i N=Σi=1MNi个SIFT特征进行聚类
        • 例如用K-Means,高斯混合模型等,得到K个聚类中心
        • 每个聚类中心是一个128维的向量Wk,即所谓视觉单词
      • 所有K个视觉单词的集合即形成视觉词典 D = { W k : k = 1 , . . . , K } D=\{W_k:k=1,...,K\} D={Wk:k=1,...,K}
  1. 图像的视觉词袋表示
    • 给定任意图像
    • 计算其SIFT特征,得到l个128位的SIFT的描述子{xj}
    • 将这些特征分别映射到视觉词典中的某个视觉单词 {Wj}
    • 统计每个视觉单词出现的频次,可以得到一个K维的直方图向量H
  • 优点
    • 从L*128的不定长表示->K维定长表示
    • 便于度量不同图像间的距离,有利于后续图像检测分类等任务
  • 应用
    • 以图搜图SIFT+BoVW+Hashing(二值化)用于图像检索任务
    • 图像分类 SIFT+BoVW+SVM用于图像分类任务

3.2PCA

  • 目标
    在这里插入图片描述在这里插入图片描述
  • 降维
    • 理论:特征值的大小对应于特征向量所描述的方向上方差的大小==》所以从w中去掉那些对应较小特征值的特征向量,因为在信息丢失最小的情况下降维
    • 误差:x与重构的x’的误差为: Σ j = 1 n λ j − Σ j = 1 d λ j = Σ j = 1 + d n λ j \Sigma_{j=1}^n\lambda_j-\Sigma_{j=1}^ d\lambda_j=\Sigma_{j=1+d}^n\lambda_j Σj=1nλjΣj=1dλj=Σj=1+dnλj
  • 小结:
    • „ 一种多元统计分析方法
    • „ 变换后各维数据之间的相关性最小
    • „ 最小均方误差意义下的最佳变换
    • „ 限定有效的参数空间范围(在训练集合对象变化论域下)

在这里插入图片描述在这里插入图片描述在这里插入图片描述

4.以人脸识别为例

在这里插入图片描述

  • 面部特征点定位方法
    • 可变形模版的方法(下巴检测、眼睛嘴唇检测)

在这里插入图片描述在这里插入图片描述

4.1 主动统计模型

4.1.1ASM(active shape model)

  • 人脸形状表示(n个特征点形成的向量s
  • 统计形状模型
  • 人工->S={s1,s2,…,sm}
  • pca: b s = W s ′ ( s − s ˉ ) − b_s=W'_s(s-\bar{s})- bs=Ws(ssˉ)
  • 重构 s = ( ˉ s ) + W s b s − − − 改 变 b s , 得 到 不 同 的 人 脸 形 状 ( 方 向 ) s=\bar(s)+W_sb_s---改变bs,得到不同的人脸形状(方向) s=(ˉs)+Wsbsbs(
    在这里插入图片描述
  • „ 目标:求取最优的人脸形状(特征点位置)
    • 求取最优的bs参数,使得用bs重建的形状最佳的匹配输入图像中人脸的形状
  • „ 思路
    • 首先进行不够可靠的局部特征点纹理匹配
    • 然后通过全局形状统计约束来对其进行规范化
  • „ 方法(迭代优化
    • 局部纹理模型:每个特征点自己找自己该去哪里
      • „ 对每个特征点,在其法线邻域内搜索最佳匹配局部纹理模型的点
      • „ 局部纹理模型
        • 法线方向的纹理梯度,称为Profile
        • 每个特征点的Profile模型都要在训练阶段统计而来
      • „ 匹配方法
        • 在法线上逐点计算(马氏)距离
        • 选择距离最小的候选点作为匹配点
    • 全局统计形状模型(PCA)约束:纠正不靠谱的(瞎跑的)特征点
  • 缺点
    • 实质上目标函数缺失
    • 容易形成震荡
      在这里插入图片描述在这里插入图片描述
      在这里插入图片描述

4.1.2 AAM主动表观模型

在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述

4.2人脸特征提取和比对

  • 人脸存储
    • 几何参数
    • 亮度向量
    • 特征脸
      • 本质PCA or KLT(用于人脸提取特征问题)
      • Wi-像脸?Wi是协方差矩阵的特征向量
    • Fisherfaces方法–本质(Fisher线性判别分析)=PCA+FLD
      • 寻找一种投影变换Y=WX
      • 同一人更紧致,不同人更离散
      • 类内离散度Sw
      • 类间离散度Sb
      • S w − 1 S b W = W Λ 目 标 函 数 : W f l d = a r g m a x W ∣ W T S B W ∣ ∣ W T S W W ∣ S_w^{-1}S_bW=W\Lambda\\目标函数:W_{fld}=argmax_W\frac{|W^TS_BW|}{|W^TS_WW|} Sw1SbW=WΛWfld=argmaxWWTSWWWTSBW
      • 如果Sw是奇异的:正则化,Null-space
      • FLD假设:所有类别具有相同的协方差分布(实际不是这样的
      • FLD的特征唯独:最大为C-1(C类)
    • 贝叶斯人脸识别
      • „ 类内差( Ω I \Omega_I ΩI)类
        • 相同个体的多幅图象之间的差别,即包含了表情、不同光照条件、不同姿态等差别
      • „ 类间差( Ω E \Omega_E ΩE )类
        • 不同人的人脸图象之间的差别,包含了身份变化的信息
      • 相似度建模为 Δ = I 1 − I 2 \Delta=I_1-I_2 Δ=I1I2属于类内差别的概率 S ( I 1 , I 2 ) = P ( Δ ∈ Ω I ) = P ( Ω I ∣ Δ ) = P ( Δ ∣ Ω I ) P ( Ω I ) P ( Δ ∣ Ω I ) P ( Ω I ) + P ( Δ ∣ Ω E ) P ( Ω E ) 若 为 正 态 分 布 : P ( Δ ∣ Ω I ) = N ( Δ , Σ I ) P ( Δ ∣ Ω E ) = N ( Δ , Σ E ) S(I_1,I_2)=P(\Delta \in \Omega_I)=P(\Omega_I|\Delta)\\=\frac{P(\Delta|\Omega_I)P(\Omega_I)}{P(\Delta|\Omega_I)P(\Omega_I)+P(\Delta|\Omega_E)P(\Omega_E)}\\若为正态分布:P(\Delta|\Omega_I)=N(\Delta,\Sigma_I)\\P(\Delta|\Omega_E)=N(\Delta,\Sigma_E) S(I1,I2)=P(ΔΩI)=P(ΩIΔ)=P(ΔΩI)P(ΩI)+P(ΔΩE)P(ΩE)P(ΔΩI)P(ΩI)P(ΔΩI)=N(Δ,ΣI)P(ΔΩE)=N(Δ,ΣE)
    • Tom-vs-pete:像谁就是谁
    • LBP:local binary patterns(图像=语言)
    • Gabor+FLDA

特征脸

在这里插入图片描述在这里插入图片描述

Fisherfaces方法–本质(Fisher线性判别分析)=PCA+FLD

在这里插入图片描述在这里插入图片描述在这里插入图片描述
在这里插入图片描述在这里插入图片描述

贝叶斯人脸识别

  • 在这里插入图片描述在这里插入图片描述在这里插入图片描述

LBP

在这里插入图片描述在这里插入图片描述

  • 建模图像中的微模式类型
    • 与中心点像素亮度上的大小关系
    • 一种建模邻域像素与中心像素亮度序关系的局部特征
      • 3x3像素邻域,中心像素和8-邻域像素亮度大小关系
      • „ 比中心像素更亮则赋1,否则赋0,这样会有256种不同的模式
    • 微模式类型可以类比语言中的word(单词)
    • „ 视觉单词的词频统计作为不同人脸的特征表示
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值