深度学习专题笔记-计算机视觉二-人脸检测加目标跟踪

上课笔记

人脸识别:PCA是经典的算法。
人脸验证 / 人脸比对(Face Verification)
• 1比1的比对,即判断两张图片里的人是否为同一人
• 应用场景:人脸解锁
人脸识别(Face Identification)
• 1比N的比对,即判断系统当前见到的人,为数据库中众多人中的哪一个。
• 应用场景:疑犯追踪,小区门禁,会场签到,客户识别

传统人脸识别的主要思路是设计特征提取器,再利用机器学习算法对提取特征进行分类。核心思想为:不同人脸由不同特征组成
神经网络具有自动提取特征的能力,与人脸识别任务很契合!

同一个人的脸的照片在特征空间中的欧式距离非常接近。

数据集

LFW (Labeled Faces in the Wild)
• 专为研究非受限人脸识别问题而设计的人脸照片数据库。人脸图片均来源于生活中的自然场景,因此识别难度会增大,尤其由于多姿态、光照、表情、年龄、遮挡等因素影响导致即使同一人的照片差别也很大。
照片被两两分组,目的是判断两张照片是否来自同一个人。

ACC :准确率,正确分类的样本数目和总体样本数目的比值。
FAR(False Accept Rate): 误识率。指不同人的两张照片,判别为同一人的概率。
设错误接受次数为NFA, 类间比较次数为NIRA,则有:
在这里插入图片描述
FRR(False Reject Rate): 拒识率。指同一人的两张照片,判别为不同人的概率。
设错误拒绝次数为NFR, 类内比较次数为NGRA,则有:
在这里插入图片描述

DeepFace

四个步骤:检测,对齐(校正),表示,分类
主要阐述了在对齐和表示这两个步骤上提出了新的方法,模型的表现超越了前人的工作,在LFW上达到了97.35%的人脸验证精度。
对齐方面主要使用了3D人脸模型来对齐人脸,对齐可理解为:获取正脸(去噪),表示可理解为:构造特征

对齐:用LBP+SVR的方法检测出人脸的6个基准点,眼镜两个点,鼻子一个点,嘴巴三个点
对图像定位67个基准点,并进行三角剖分,得到图©。
用一个3D人脸库USF Human-ID得到一个平均3D人脸模型(正脸),如图(d)。
学习一个3D人脸模型和原2D人脸之间的映射P,并可视化为三角块,如图(e)。学习一个映射关系,然后可以将已有的人脸进行映射
通过相关的映射,把原2D人脸中的基准点转换成3D模型产生的基准点,得到图(f)。最后的正脸,图(g)。
在这里插入图片描述
表示:
在这里插入图片描述

前3层采用传统的卷积和池化提取信息,共享卷积核(前三层卷积核相同)。

后3个卷积层采用局部连接,提取不同维度上的特征,不共享卷积核( 于feature map上每个位置,学习不同的卷积核)。 ——局部卷积层,同一张特征图上卷积核的参数不共享。

因为人脸的不同区域会有不同的统计特征,比如眼睛和眉毛之间的区域比鼻子和嘴巴之间的区域具有更高的区分能力。局部卷积层会导致更大的参数量,需要很大的数据量才能支撑的起。

倒数第二层采用全连接层提取出对应的人脸特征,最后是softmax层进行分类。

全连接层,用来捕捉(不同位置的)特征的相关性。F8层对F7层的输出特征进行归一化(除以训练集上所有样本中的最大值),得到的特征向量值为0到1之间,使用Softmax进行分类。
Deepface网络的输出是个4030维的分类结果

DEEPID–(Deep hidden IDentity feature)用于人脸验证 所以是1V1的,二分类任务

模型使用人脸上不同的区域训练多个单独的ConvNet,每个ConvNet的最后一个隐层为提取到的特征,称之为DeepID
ConvNet的结构由四层CNN和一层Softmax组成。
输入的不是整个人脸,而是人脸中的某个区域(Patch)。输入数据有两种,一种是39 * 31 * k, 对应矩形区域,一种是31 * 31 * k,对应正方形区域,其中k当输入是RGB图像时为3,灰度图时为1。
在这里插入图片描述
输出的特征DeepID是Softmax层之前的隐层,Softmax层只在训练时才有。
最后将不同区域提取到的DeepID 连接起来作为人脸的特征,用PCA降维到150维后送入Joint Bayesian分类器(也可以是其他分类器)进行人脸验证, 此时变为二分类任务。
识别信号采用交叉熵损失:
在这里插入图片描述
验证信号使用的是L2损失,其中m是可学习的参数。验证信号的计算需要两个样本,故每次迭代时需要随机抽取两个样本,然后计算误差。
在这里插入图片描述

Facenet

验证人脸是否为同一个人,在一定程度上解决“光线问题”和“姿势问题
判断依据是“两幅人像的欧几里得距离”,

给定一个阈值a=1,那么:
• 当特征距离等于0的时候,认为是同一张图
片(同一个人);
• 当特征距离小于1的时候,认为是同一个人;
• 特征距离大于1的时候,认为不是同一个人。

Triplet loss是FaceNet的核心,模型希望某个个体的图像和该个体其它图像距离近和其它个体图像距离远.
损失函数:
在这里插入图片描述

行人检测

主要难题:外观差异大、遮挡问题、背景复杂、检测速度慢
传统方法
• 特征:方向梯度直方图(Histograms of oriented gradients,HOG)、类harr特征(Haar-like features)、Viola–Jones特征(Viola–Jones features)、纹理(Texture)、局部二值模式(Local Binary Pattern,LBP)等
• 分类器:线性SVM、AdaBoost等。

DNN:两阶段
在这里插入图片描述
一阶段:
在这里插入图片描述
检测器性能评估:每秒帧数FPS----表示模型效率、准确率AP,召回率RECALL,对数平均漏检率 LAMR-----模型准确性

行人重识别:是否存在特定行人的技术,找出不同视频同一个人。

定位
在这里插入图片描述

目标跟踪

在连续的视频帧中定位某一物体-视频监控、人机交互、自动驾驶
主要难题:外观变形、光照变化、快速运动和运动模糊,背景相似干扰,平面外旋转、平面内旋转,尺度变化,遮挡和出视野、高质量数据稀少。

方法:

生成模型方法:

在当前帧对目标区域建模,下一帧寻找与模型最相似的区域就是预测位置:卡尔曼滤波、粒子滤波、mean-shift。算法效果并不理想,用的较少。

判别模型方法:

图像特征+及其学习,当前帧以目标区域为正样本、背景区域为负样本,机器学习训练分类器。

判别类的方法与生成类最大的区别是分类器训练过程中用到了**背景信息,这样分类器专注区分前景和背景。**判别类方法普遍都比生成类好。

判别类的最新发展是相关滤波方法CF,与DCF(discriminative correlation filter),目前DCF与CNN结合是标配。

基于全卷积孪生网络(siamNet)的方法超越了DCF的准确度和端到端的优势,是新的方向。
在这里插入图片描述

二分类
在这里插入图片描述
最左边是孪生网络,上面是模板帧,就是要在其他帧里找到这个目标,下面就是探索帧。输出后到RPN网络,上面是分类分支,二分类,下面是回归分支,具体的位置。

在这里插入图片描述
在RPN的基础上,mask是用了旋转的矩形框,与前面的区别。前面都是水平竖直的框,而mask比较灵活,可以更好地标出位置。

在这里插入图片描述

目标跟踪的数据集

在这里插入图片描述

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值