继上个Lecture15
目录
- 并行
- FP16和FP32的混合精度
- 模型蒸馏
- DSD:密集-稀疏-密集训练
1 并行计算
- 数据并行
- 模型并行
- 超参并行
1.1数据并行
例子1:两张图同时被输入同一个网络中,同时计算,这几乎不影响时延。
实现方式:Parameter Server进行统一管理,每一个数据的权重更新被独立管理,例如分给不同的处理器或线程。
例子2:卷积层的输入被切分,并行处理,例如一张图片切4份。
例3:完全连接层切成几份,交给不同的处理器or线程。
例4:超参并行,例如学习率和weight dacay分开。
等等……
总结:
1.2 FP16和FP32
思想:部分使用低精度FP16。FP16比FP32省4倍的时间和容量。
Q:哪里部分使用FP16?哪里使用FP32?
1.3 模型蒸馏
思想:用多个训练好的复杂网络去训练一个结构更加简单地小网络。
步骤:使用软输出训练
软输出:输出向量中的值之间差距更小,但依然可以识别正确。
效果:使用软输出训练,可以使用少量的训练样本就达到相仿的精度。
软化方法:T决定软化的程度。