目录
一、训练加速
针对训练数据过于庞大的对策,多GPU训练,加速生产模型的速度,可以认为是离线操作。
常用的GPU训练:
- 基于数据的并行(常用)
- 基于模型的并行
我们主要看一下基于数据的并行,下面列出了三种并行方式
①Model Average(模型平均)
②SSGD(同步随机梯度下降)
③ASGD*(异步随机梯度下降)
1.基于数据的并行
①Model Average(模型平均)
假设有10000条数据,分成10份,每份1000条,用十个GPU分别训练,最后将得到的模型进行平均。这样训练出来的模型之间是相互独立的,故性能不会很好。
而我们希望任务在训练过程中是保持通信的,可以怎么样做呢?
如下图所示,我们将10000条数据分配到10 个Client,每个Client处理分别1000条数据。这十