分布式机器学习——入门篇

最新推荐文章于 2024-07-22 20:59:00 发布

疯狂的兔子Philip

最新推荐文章于 2024-07-22 20:59:00 发布

阅读量5.1k

点赞数 7

分类专栏：机器学习

本文链接：https://blog.csdn.net/weixin_39506322/article/details/101604849

版权

机器学习专栏收录该内容

17 篇文章 0 订阅

订阅专栏

1.分布式机器学习研究的问题

2.分布式机器学习研究的背景

3.分布式机器学习使用的情形

4.分布式机器学习包含的主要模块

4.1 数据与模型划分模块

4.2 单机优化模块

4.3 通信模块

4.3.1 通信的内容

4.3.2 通信的拓扑结构

4.3.3 通信的步调

4.3.4 通信的频率

4.4 数据与模型聚合模块

5.分布式机器学习基本框图

1.分布式机器学习研究的问题

分布式机器学习研究的是如何使用计算机集群来训练大规模机器学习模型。

2.分布式机器学习研究的背景

在大数据和大模型的双重挑战下，大规模的机器学习的训练对计算能力和存储容量都提出了新的要求。

计算复杂度高，导致单机训练可能会消耗无法接受的时长，因而不得不使用并行度更高的处理器或者计算机集群来完成训练任务；
存储容量大，导致单机无法满足需求，不得不使用分布式存储。

3.分布式机器学习使用的情形

一般有三种情形：一是计算量太大，二是训练数据太多，三是模型规模太大。

对于计算量太大的情形，可以采取基于共享内存（或虚拟内存）的多线程或多机并行运算。
对于训练数据太多的情形，需要将数据进行划分，并分配到多个工作节点上进行训练，这样每个工作节点的局部数据都在容限之内。每个工作节点会根据局部数据训练出一个子模型，并且会按照一定的规律和其他工作节点进行通信（通信的内容主要是子模型参数或者参数更新），以保证最终可以有效整合来自各个工作节点的训练结果并得到全局的机器学习模型。
对于模型规模太大的情形，则需要对模型进行划分，并且分配到不同的工作节点上进行训练。与数据并行不同，模型并行的框架下各个子模型之间的依赖关系非常强，因为某个子模型的输出可能是另外一个子模型的输入，如果不进行中间计算结果的通信，则无法完成整个模型训练。因此，一般而言，模型并行对通信的要求较高。

4.分布式机器学习包含的主要模块

数据与模型划分模块、单机优化模块、通信模块、数据与模型聚合模块。

4.1 数据与模型划分模块

当我们拥有大量训练数据或者大规模机器学习模型，无法由单机完成存储和计算时，就需要将数据或模型进行划分并将其分配到各个工作节点上。

首先就数据划分而言，主要有两个操作的角度：一是对训练样本进行划分，二是对每个样本的特征维度进行划分。

4.2 单机优化模块

完成数据或模型划分之后，每个工作节点只需要根据分配给自己的局部训练数据和子模型来进行训练。从这个意义上讲，出去各工作节点之间的相互通信意外，在每个工作节点自身的视野里，其实基本就是一个传统的单机机器学习任务：根据属于自己的训练数据，计算经验风险（所有训练样本上的损失函数之和），然后利用某种优化算法（如随机梯度下降法）通过最小化经验风险来学习模型的参数。·