摘要
深度学习善于从大量数据中挖掘越来越抽象的特征表示,而这些特征表示有很好的泛化能力。随着数据集数量的显著增加和计算机处理能力的显著增强,深度学习在目标检测、计算机视觉、自然语言处理、语音识别和语义分析等领域效果显著。深度学习是包含多级非线性变换的层级机器学习方法。
卷积神经网络通过局部连接(卷积核)、权值共享(同一个卷积核遍历一个样本)及池化操作(最大化、均值化)有效降低网络的复杂度、减少参数的数目,使模型对平移、扭曲、缩放具有一定程度的不变性,使其性能优于全连接网络。本文概述了卷积神经网络的发展历史、分别描述了神经元模型、多层感知器的结构、详细分析了卷积神经网路的结构、讨论了网中网模型和空间变换网络等改进的卷积神经网络,分别介绍了卷积神经网络的监督学习、无监督学习训练方法和一些开源工具。 之后介绍了一些例子。
引言
人工神经网路(Artificial Neural Network, ANN) 大量神经元相互连接 而 构成的自适应非线性动态网络结构系统
- 1943 年 McCulloch 和 Pitts 提出神经元的第一个数学模型 —— MP模型
- 50年代末-60年代初 Rosenblatt 提出了单层感知机 ,(是在MP模型上增加了学习功能) 第一次把神经网络的研究付诸实践 不能处理线性不可分问题
- 1986 年 Rumelhart 提出 按误差逆传播算法训练的多层前馈网络 即 反向传播网络(Back Propagation Network) 解决了一些单层感知机解决不了的问题
- 90年代 各种浅层机器学习模型被提出 如 支持向量机 , 但是增加层数时 BP网络会出现局部最优、过拟合、梯度扩散等问题
2006 年 Hinton 引出了深度学习(Deep Learning) 主要观点:1)多层的人工神经网络具有优异的特征学习能力 2) 可通过 逐层预训练来有效客服深层神经网络在训练上的困难,在深度学习的预训练算法中 首先将无监督学习应用于网络每一层的预训练,每次只无监督训练一层,并将该层的训练结果传递给下一层, 然后再用有监督学习(BP算法) 微调预训练好的网络, 这种方法在手写字识别 行人检测中,特别是标注样本有限时使识别效果很好
常用的深度学习模型: 深度置信网络(Deep Belief Network, DBN) 层叠自动去噪编码机(Stacked Deoising Autoencoders, SDA) 卷积神经网络(Covolutional Neural Network, CNN)
CNN概述
神经元
神经元模型
输入与输出之间的对应关系如下:
f(.) 是激励函数,可以是线性纠正函数(Rectified Linear Unit , ReLU) 、sigmod函数 、tanh(x)函数等
多层感知器 (MPL)
概念:由输入层、隐含层(一层或者多层)、输出层构成的神经网络, 可以解决单层感知机解决不了的线性不可分问题
多层感知器特征:
- 全连接,即每一层的神经元与下一层的每个神经元都相连
- 传输方向是一直向前,即只有从输入层到输出层方向的传输,同层神经元之间不会传输,下一层神经元不会往上一层传输
关系式:
其中: l 表示层数,m表示该层的第m个神经元,
xlm
表示第l层第m个神经元的输入值;
ylm
表示第l层第m个神经元的输出;
f(.)
表示某个神经元的激励函数;
blm
表示第l层第m个神经元的偏置;
ωl−1im
表示