分布式机器学习概念

最新推荐文章于 2024-09-03 17:24:40 发布

enough_time

最新推荐文章于 2024-09-03 17:24:40 发布

阅读量1.4k

点赞数

分类专栏：分布式机器学习机器学习文章标签：机器学习分布式人工智能

本文链接：https://blog.csdn.net/sfakh/article/details/126614010

版权

机器学习同时被 2 个专栏收录

10 篇文章 1 订阅

订阅专栏

分布式机器学习

3 篇文章 0 订阅

订阅专栏

分布式机器学习

使用分布式机器学习，大体有三种情况：一是计算量太大，二是训练数据太多，三是模型规模太大。当机器学习和实际应用相结合时，无法避免海量训练数据、问题复杂程度高等诸多挑战，因此我们需要使用更复杂的机器学习模型来解决问题，并且还需要动用计算机集群来完成数据处理、模型训练等任务。分布式机器学习研究的就是如何使用计算机集群来训练大规模机器学习模型。分布式机器学习涉及如何分配训练任务，调配计算资源，协调各个功能模块，以达到训练速度与精度的平衡。

组成

一个分布式机器学习系统通常包含以下几个模块：

数据和模型划分模块：将数据或模型进行相应的划分，并将划分后不同的部分下发给不同的工作节点。
单机优化模块：每个工作节点根据分配给自己的局部训练数据和子模型进行训练
通信模块：单机优化模块利用局部数据求得本地模型的更新以后，就会涉及多机、多线程协作的问题，因为只有信息共享，才能把各个工作节点有机地组合在一起
模型和数据聚合模块等

分布式机器学习系统的框架如下：