图像识别之神经网络1

最新推荐文章于 2024-09-02 01:11:41 发布

三川水祭

最新推荐文章于 2024-09-02 01:11:41 发布

阅读量3.4k

点赞数 1

分类专栏：图像识别文章标签：图像识别

图像识别专栏收录该内容

1 篇文章 0 订阅

订阅专栏

1 深度学习

模型复杂度越高，能完成更加复杂的学习任务，但是模型的训练效率低，易过拟合。随着云计算的发展，计算能力提高，使得深度学习重新进入人们的视野。
在超过三个的隐层数目的深度神经网络中，虽然有更高的学习能力，但是由于误差存在多隐层内逆向传播，导致模型发散无法收敛到稳定状态。
神经网络训练常分为两类：
预训练+微调----将参数分组训练
权共享------------将一组神经元使用相同的连接权。(CNN)
CNN复合了多个“卷积层”和“采样层”，对输入信号进行加工，然后在连接层实现与输出目标之间的映射。卷积层存在多个特征映射，该映射是一个神经元矩阵，提取输入特征；采样层为汇合层，其作用是基于局部相关性原理进行亚采样，从而提取有用信息并滤除无关信息。卷积层与采样层每层单独共享权值。

2 卷积神经网络(Convolutional Neural Networks, CNN)

特点：层级之间并非全连接
优点：稀疏链接、权值共享、特征图平移不变性。
卷积流的模块：卷积、非线性、池化和批量归一化。
卷积：处理图片，学得鲁棒性较高的特征。
激活函数（非线性）：通过弯曲或扭曲实现表征能力的提升，如Relu激活函数。不饱和、计算快、稀疏。
池化：在一小片区域内，采取一个特定的值作为输出值，感觉类似于采样层，简化特征。
归一化：因为数据范围偏大或偏小，可能导致深度神经网络收敛慢，训练时间长，因此使用L2范数、Sigmoid函数归一化，该方法可减少训练过程的不稳定性。感觉量纲不统一会使得模型复杂度升高，进而结果预测精度降低。
输入：特定性质的编码，即输入图像。
输出：通过全连接层将局部特征转化为全局特征，计算每一类的得分。
输入与输出都是三维的，Length，height，depth(rgb)。

卷积层

具有局部感知的功能。每个隐含单元仅连接输入单元的一部分，该部分叫做感受野。
由于是不同感受野综合起来公式等同与卷积，因此称为卷积层。
输入： $W 1 * H 1 * D 1$ .
给定参数：
滤波器的深度K.
感受野F.
补零数P.
步幅S.
输出：W2H2D2.其中
${W_2} = \frac{{{W_1} - F + 2P}}{S} + 1$
${W_2} = \frac{{{H_1} - F + 2P}}{S} + 1$
$D 2 = K$
由于应用权值共享，每个滤波器产生FFD1个权重，共 $（ F * F * D 1 ） * K$ 个权重和K个偏置。
在输出单元中，第d个深度切片的结果是由第d个filter和输入单元作卷积运算+偏置。

池化层

一般采用22的最大化池化，对每个深度切片独立，选择每四个值中最大的一个数作为特征。长宽不是2的倍数时候需要对输入进行补零。
输入： $W 1 * H 1 * D 1$ .
给定参数：
感受野F.
步幅S.
输出：W2H2*D2.其中
${W_2} = \frac{{{W_1} - F}}{S} $
${W_2} = \frac{{{H_1} - F}}{S} + 1$
$D 2 = D 1$
无需引入新的权重。

全连接层

全连接层与卷积层可以相互转换。

CNN的架构

INPUT -> [[CONV->Relu]*N -> Pool?]*M -> [FC -> Relu]*k -> FC

?表示0或1，N >= 0 && N <= 3, M >= 0, K >= 0 && K < 3
常常使用N=2，?=1，M=3，k=2。
输入层的大小为2的整数幂。
卷积层使用小型感受野K=3或5，步长S=1，如果不能恰好拟合输入层，还需要边缘补零，如果感受野F=3,补零P=1,那么根据 ${W_2} = \frac{{{W_1} - F + 2P}}{S} + 1$ 得到输入与输出大小一样。如果使用更大的滤波器，如感受野F=7,一般在紧挨着原始图片输入的卷积层可以看到。
池化层的感受野一般设为F=2，步长S=2。