深度学习基础知识
-
卷积层:
-
池化层(下采样):
引入原因:
1,只用卷积层不利于学习特征的空间层级结构。
2,参数太多。
作用:减少参数;增大卷积的观察窗口。
为啥用最大池化而不用平均池化?特征中编码了某种模式在特征图的不同位置是否存在。观察不同特征的最大值而不是平均值能得到更多的信息。平均池化会淡化或错过特征是否存在的信息。
-
激活函数:
为啥要用激活函数?没有激活函数各层就只能学习输入数据的线性变换(仿射变换),假设空间太小。为了学习非线性变换,需要添加非线性激活函数。
.
0,假设空间:模型属于由输入空间到输出空间的映射的集合,这个集合就是假设空间(hypothesis space)。假设空间的确定意味着学习的范围的确定。
.
1, relu(rectified linear unit,整流线性单元),函数将所有负值归零。
2,sigmoid 函数则将任意值“压缩”到 [0, 1] 区间内,其输出值可以看作概率值。损失函数用binary_crossentropy
- 过拟合
定义:
解决办法:
-
随机失活(dropout):
-
添加正则项:
-
数据增强(data augment):
-
批标准化(batch normalization)
-
定义:一种层的类型,即使训练过程中均值和方差随时间而改变,也可以适应性的将数据标准化(所谓标准化就是令mean=0,标准差std=1)。(备注:BatchNormalization 层通常在卷积层或密集连接层之后使用。)
-
工作原理:保存训练过程中每批数据的均值和方差。(训练过程中在内部保存已读取每批数据均值和方差的指数移动平均值)
-
作用:有助于梯度传播(这一点和残差连接很像),允许更深的网络。
-
深度可分离卷积
-
定义:这个层对输入的每个通道分别执行空间卷积,然后通过逐点卷积(1×1 卷积)将输出通道混合。这相当于将空间特征学习和通道特征学习分开。
-
作用:可以替代 Conv2D,并可以让模型更加轻量(即更少的可训练权重参数)、速度更快(即更少的浮点数运算),让任务性能提高几个百分点。
-
局部响应归一化(LRN)
-
深度学习训练时提高准确度的方法,与激活函数有区别,一般LRN用于激活和池化之后。对局部神经元对活动创建竞争机制,对响应较大的神经元使得变得相对更大,抑制反馈较小的神经元,增强模型泛化能力。