Task06:批量归一化和残差网络;凸优化;梯度下降(1天)
批量归一化
对输入的标准化(浅层模型): 处理后的任意一个特征在数据集中所有样本上的均值为0、标准差为1。
标准化处理输入数据使各个特征的分布相近
批量归一化(深度模型): 利用小批量上的均值和标准差,不断调整神经网络中间输出,从而使整个神经网络在各层的中间输出的数值更稳定。
稠密连接网络(DenseNet)
稠密块(dense block): 定义了输入和输出是如何连结的。
过渡层(transition layer):用来控制通道数,使之不过大。
「过渡层」
1×1 卷积层:来减小通道数
步幅为2的平均池化层:减半高和宽
凸优化
尽管优化方法可以最小化深度学习中的损失函数值,但本质上优化方法达到的目标与深度学习的目标并不相同。
优化方法目标:训练集损失函数值
深度学习目标:测试集损失函数值(泛化性)
Task07:优化算法进阶;word2vec;词嵌入进阶(1天)
优化算法进阶
Exponential Moving Average 「指数加权移动平均」
指数加权平均,作为原数据的估计值,不仅可以 1. 抚平短期波动,起到了平滑的作用,2. 还能够将长线趋势或周期趋势显现出来。
Momentum、RMSprop、Adam中都涉及到指数加权平均这个概念。
RMSProp
Adam
Adagrad
SGD Momentum
词嵌入进阶
GloVe 全局向量的词嵌入: 通过等价转换 Word2Vec 模型的条件概率公式,我们可以得到一个全局的损失函数表达,并在此基础上进一步优化模型
Task08:文本分类;数据增强;模型微调(1天)
数据增强
应对过拟合问题,在数据量较小的数据集中十分常用
文本分类
模型微调
fine tuning
- 在源数据集(如ImageNet数据集)上预训练一个神经网络模型,即源模型。
- 创建一个新的神经网络模型,即目标模型。它复制了源模型上除了输出层外的所有模型设计及其参数。我们假设这些模型参数包含了源数据集上学习到的知识,且这些知识同样适用于目标数据集。我们还假设源模型的输出层跟源数据集的标签紧密相关,因此在目标模型中不予采用。
- 为目标模型添加一个输出大小为目标数据集类别个数的输出层,并随机初始化该层的模型参数。
- 在目标数据集(如椅子数据集)上训练目标模型。我们将从头训练输出层,而其余层的参数都是基于源模型的参数微调得到的。