GraphLab:新的面向机器学习的并行框架

最新推荐文章于 2024-08-12 08:33:56 发布

置顶

cs870101

最新推荐文章于 2024-08-12 08:33:56 发布

阅读量1.9w

点赞数 7

分类专栏：机器学习并行计算文章标签： mapreduce graph locking 多线程框架引擎

本文链接：https://blog.csdn.net/cs870101/article/details/8072458

版权

本文介绍了GraphLab，一个为解决机器学习流处理而设计的并行框架。它采用数据模型Graph和Gather-Apply-Scatter执行模型，通过顶点切分实现并行计算。GraphLab的源码实现包括基础组件层、抽象层和引擎层，其中同步和异步引擎确保了高效的数据同步和算法迭代。

摘要由CSDN通过智能技术生成

欢迎访问我的博客阅读：http://androidfuture.com/blog/?p=215

1.1 GraphLab简介

在海量数据盛行的今天，大规模并行计算已经随处可见，尤其是MapReduce框架的出现，促进了并行计算在互联网海量数据处理中的广泛应用。而针对海量数据的机器学习对并行计算的性能、开发复杂度等提出了新的挑战。

机器学习的算法具有下面两个特点：数据依赖性强，运算过程各个机器之间要进行频繁的数据交换；流处理复杂，整个处理过程需要多次迭代，数据的处理条件分支多。

而MapReduce是典型的SIMD模型，Map阶段集群的各台机器各自完成负载较重的计算过程，数据并行度高，适合完成类似矩阵运算、数据统计等数据独立性强的计算，而对于机器学习类算法并行性能不高。

另一个并行实现方案就是采用纯MPI（Native MPI）的方式。纯MPI实现通过精细的设计将并行任务按照MPI协议分配到集群机器上，并根据具体应用，在计算过程中进行机器间的数据通信和同步。纯MPI的优点是，可以针对具体的应用，进行深度优化，从而达到很高的并行性能。但纯MPI存在的问题是，针对不同的机器学习算法，需要重写其数据分配、通信等实现细节，代码重用率低，机器拓展性能差，对编程开发人员的要求高，而且优化和调试成本高。因而，纯MPI不适合敏捷的互联网应用。

为解决机器学习的流处理，Google提出了Pregel框架，Pregel是严格的BSP模型，采用“计算-通信-同步”的模式完成机器学习的数据同步和算法迭代。Goolge曾称其80%的程序使用MapReduce完成，20%的程序使用Pregel实现。因而，Pregel是很成熟的机器学习流处理框架，但Google一直没有将Pregel的具体实现开源，外界对Pregel的模仿实现在性能和稳定性方面都未能达到工业级应用的标准。

2010年，CMU的Select实验室提出了GraphLab框架，GraphLab是面向机器学习的流处理并行框架[1]。同年， GraphLab基于最初的并行概念实现了1.0版本，在机器学习的流处理并行性能方面得到很大的提升，并引起业界的广泛关注，在2012年GraphLab升级到2.1版本，进一步优化了其并行模型，尤其对自然图的并行性能得到显著改进。

在本章的余下章节，将详细介绍GraphLab的并行框架和具体的源码实现。