20200309:人脸识别理论学习(一):深度学习综述

本文综述了深度学习在图像识别中的应用,探讨了keras、tensorflow、mxnet、torch和caffe等深度学习框架的优缺点,并介绍了卷积神经网络(CNN)如LeNet、VGGNet、GoogleNet、ResNet和DenseNet以及循环神经网络(RNN)如LSTM和GRU的模型。此外,文章还讨论了人脸识别的重要应用和挑战,以及识别算法的流程。
摘要由CSDN通过智能技术生成

 

序号

作者/机构

题目

发表时间/位置

1

郑远攀1,2;李广阳1;李 晔1;

1. 郑州轻工业大学 计算机与通信工程学院,郑州 450001

2. 应急平台信息技术河南省工程实验室,郑州 450001

深度学习在图像识别中的应用研究综述

2019/Computer Engineering and Applications 计算机工程与应用

 

 

一、深度学习框架

  • keras:python;图像识别,手写字识别,语音识别;易学,支持快速实验;过度封装导致丧失灵活性,程序运行速度慢。

  • tensorflow:python/C++/go;图像识别,手写字识别,语音识别,预测,自然语言处理;兼容性好,易扩展,支持并行运算,提供了可视化工具,支持多种编程语言,支持细粒度网络层,方便调试复杂的计算图模型。

  • mxnet:r/julia/python/c++;图像识别,手写字识别,语音识别,预测,自然语言处理;叫兼容性、扩展性以及移植性最强,支持混合编程和多种编程语言接口,支持生成对抗网络GAN模型。

  • torch:Lua/python;图像识别,手写字识别,语音识别;兼容性好,运行速度快,易学易用涉及简介,后期维护强大;编程语言不是主流语言,在开发任意未熟练掌握之前很难提高开发的整体的生产力,缺乏多种编程语言接口。

  • caffe:C++/python;图像识别,视频图像识别;运行速度快,支持跨平台运行,支持多种编程语言接口;不支持细粒度网络层,构建复杂的层类型必须以低级语言完成;对循环网络的支持上很薄弱。

二、网络模型

1、卷积神经网络CNN的网络模型:

下述模型都是在LeNet上的改进模型

  • LeNet-5:最基础

  • AlexNet:缺陷多,目前已经不再用

  • ZF-Net:缺陷多,目前已经不再用

  • VGGNet:在用。最大特点:小卷积核,目的使判决函数更具有判决性,具有更少的参数,增加了非线性表达能力,网络结构更深,计算量更大。

  • GoogleNet:在用。最大特点:Inception结构代替了卷积+激活的传统操作技术,目的是降维,解决计算量大的问题(计算量只是AlexNet的1/12)。

  • ResNet:在用。最大特点:残差,目的使整个网络只需要学习输入、输出差别的那一部分,简化学习目标和难度,在一定程度上解决了信息传递过程中的丢失和损耗问题,梯度消失或爆炸问题,很深的网络无法训练等问题。

  • DenseNet:在用。最新。特点:由若干个Dense Block串联起来而得到,在每隔Dense lock之间有一个convonition+Pooling的操作,DenseNet通过连接操作来结合featureMap,且每一层都和其他层有联系使得信息流最大化。解决了深层网络的梯度消失问题,加强了特征的传播,鼓励特征重用,减少了模型参数。

2、循环神经网络RNN的网络模型

  • LSTM:语音识别、图像描述、自然语言处理;解决了RNN梯度消失或爆炸问题,能够学习长期依赖关系;网络结构复杂,训练时间较长。

  • GRU:语音识别、图像描述、自然语言处理;解决了RNN梯度消失或爆炸问题,能够学习长期依赖关系,结构比LSTM简单,具有更少的参数,但训练时长仍较长。

  • 双向LSTM:语音识别、图像描述、自然语言处理;存在梯度消失或梯度爆炸等问题。

三、图片识别的重要应用领域

  • 人脸识别

  • 医学图像识别

  • 遥感图像识别

  • ImageNet分类识别、交通识别、字符识别

四、人脸识别模型

  • DeepFace

  • DeepID

  • FaceNet

五、人脸识别技术的挑战

  • 双胞胎

  • 不同年龄段人脸的变化判断

  • 各种外部环境(光照、遮盖物等)的影响消除

  • 人脸被导用的预防

  • 人脸识别模型的训练时间缩短

  • 低分辨率:目前高分辨率人脸识别技术已经比较成熟

  • 多姿态、多表情、多角度

 

 

其他:

一、神经网络概述

        神经元的具体结构即为图 1 中所示,其是神经网络内的最小单元,一个神经元内包括多个组成要

素,例如有阈值、激活函数、权值以及输入输出等,利用突触连接权值 ωij

可以对各个神经元之间的连接强度进行表示,其值有正有负,如果是正值[2-5],则说明神经元的状态是激活的,相反的说明神经元处于未激活状态。利用加法器可以对各个输入的总效果进行分析,由于不同的神经元在作用强度方面具有一定的差异性,可以将其对后一个神经元的总作用效果表示为神经元的线性加权之和。采用激活函数能够有效地对神经元的输出进行控制,使其保持在正常的范围内,这个范围一般是[-1,1]或者是[0,1]。

          

 

 

  

 

 

二、人脸识别算法框架

  • 图像采集

  • 人脸检测

  • 人脸质量检测

  • 人脸对齐

  • 特征提取

  • 模型训练

  • 特征比对

  • 人脸验证

 

三、人脸识别算法设计

  • 深度网络模型选择

  • 损失函数选择

  • 分类函数选择

  • 特征距离函数选择

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值