《深度卷积神经网络在计算机视觉中的应用研究综述》阅读笔记

最新推荐文章于 2022-10-10 12:09:19 发布

像风一样Pro

最新推荐文章于 2022-10-10 12:09:19 发布

阅读量7.8k

点赞数 2

本文链接：https://blog.csdn.net/weixin_41787032/article/details/79933810

版权

文章地址

深度卷积神经网络在计算机视觉中的应用研究综述：http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=sjcjycl201601001

摘要

本文首先简要介绍深度学习和卷积神经网络的兴起与发展，概述卷积神经网络的基本模型结构、卷积特征提取和池化操作。然后综述了基于深度学习的卷积神经网络模型在图像分类、物体检测、姿态估计、图像分割和人脸识别等多个计算机视觉应用领域中的研究现状和发展趋势，主要从典型的网络结构的构建、训练方法和性能表现3个方面进行介绍。最后对目前研究中存在的一些问题进行简要的总结和讨论，并展望未来发展的新方向。

理解概念

图像分类
1. 图像识别：是一种利用计算机对图像进行处理、分析和理解，以识别各种不同模式的目标和对象的技术，是计算机视觉领域的主要研究方向，在以图像为主题的智能化数据采集与处理中具有十分重要的作用和影响。
2. 早期的图像识别系统主要采用尺度不变的特征变换（Scale-invariant feature transform, SIFT）和方向梯度直方图（Histogram of oriented gradients, HOG）等特征提取方法，然后将提取到的特征输入至分类器中进行分类识别，这些特征本质是一种手工设计的特征。
SIFT介绍：https://blog.csdn.net/abcjennifer/article/details/7639681
HOG介绍：https://blog.csdn.net/hujingshuang/article/details/47337707
3. 梯度反向传播算法：介绍：https://blog.csdn.net/momaojia/article/details/76269468
4. CNN训练中，下一步的高宽为：N = (W − F + 2P )/S+1 其中N为卷积后的长或宽， W为卷积前的长或宽， F为filter， P为padding， S为步长。
5. 支持向量机（ SVM）：参考链接见： https://blog.csdn.net/v_july_v/article/details/7624837，实例：https://www.cnblogs.com/chuxiuhong/p/6132814.html
6. 图像的最优局部稀疏结构：？？？？找到后用稠密组件代替？？？？？？？？
7. 深度学习模型：AlexNet、 GoogleNet（Inception模块）、空间金字塔池化方法 https://blog.csdn.net/u013110060/article/details/61199597、 PRelu-Net、谷歌提出的spacial transformer、残差学习（提出shortcut connection）、

物体检测

R-CNN、 selective search提取候选区域、线性回归模型(bounding box regression)、将SPP-Net 运用到R-CNN 改进他、Fast R-CNN（对最后一个池化层改进，提出了Regression of interest 【ROI】Pooling层）、在Fast R-CNN采用截断奇异值分解、
DeepID-Net

姿态估计

姿态估计：姿态估计的主要任务就是，给定一张图，图中会有一个人，你需要给出这个人的姿态动作是什么样的。
传统处理这类问题的方法是：Part-based models， Region-based models和Pictorial structures-base models这些模型，以及提出的混合模型的方法。

图像分割

图像阀值分割 >>>衍生出基于空间特征、基于模糊集、基于非shannon熵的许多阀值分割方法
提出将一些深度神经网络改为全卷积网络来做图像分割
（AlexNet、VGG、GoogleNet）>>>>>跳跃结构
全卷积深度神经网络，，反卷积
5.

人脸识别

人脸识别技术包括：人脸检测、人脸特征提取、人脸识别。
人脸检测：采用Haar特征， Adaboost算法训练级联分类器对图像中的每一个矩形子区域进行分类。
特征提取：是通过一组数据来表征人脸信息，这组数据就是所要提取的人脸特征。常见的人脸特征分为几何特征和表征特征。
深度学习之前，主流人脸识别采用统一子空间分析方法（主成分分析子空间PCA、贝叶斯子空间和线性判别分析子空间LDA有机结合）这种方法使用LBP和Gabor等特征对人脸图像中邻域像素区块的灰度值或颜色值进行局部特征提取，然后对这些局部特征进行特征变化，得到更易于区分的人脸表示。
受限玻尔兹曼机的输入
深度学习并非是单纯的使用具有大量参数的、非常复杂的非线性神经网络模型去拟合数据集，而是通过逐层训练学习，最终得到蕴含清晰的语义信息的特征表示，从而大大提高了识别率。