阅读论文：Distributed GraphLab

最新推荐文章于 2022-07-22 11:43:13 发布

kevin_green

最新推荐文章于 2022-07-22 11:43:13 发布

阅读量1.2k

点赞数 1

分类专栏： GraphLab

本文链接：https://blog.csdn.net/kevinsf1993/article/details/51180294

版权

这个星期阅读了一篇12年在期刊PVLDB上发表的一片论文《Distributed GraphLab: A Framework for Machine Learning and Data Mining in the Cloud》。虽然现在主流的数据并行处理框架，例如Mapreduce，在处理大规模数据时显得方便和实用，但是它们并不支持一些重要的机器学习和数据挖掘的算法，从而使整个系统处理数据的效率低下。这篇文章延续了作者在10年UAI上发表的《GraphLab: A New Parallel Framework for Machine Learning》中所做的工作，将GraphLab框架从共享内存的环境中迁移到了分布式的环境下，并维护了数据的强一致性保证。

关于作者

作者Joseph Gonzalez博士毕业于CMU大学，在分布式图分析领域算得上是一位大牛，现在是UC伯克利大学的一位助理教授，同时也是美国Dato公司的联合创始人。关于它们的作品，推荐几篇比较著名的论文（包括本文）：

GraphX: Graph Processing in a Distributed Dataflow Framework. OSDI 2014: 599-613
PowerGraph: Distributed Graph-Parallel Computation on Natural Graphs.OSDI 2012: 17-30
GraphLab: A New Framework For Parallel Machine Learning. UAI 2010: 340-349

论文内容大多是关于如何在分布式图计算平台下部署各类机器学习和数据挖掘的算法。其中部分项目例如PowerGraph已实现开源。

机器学习和数据挖掘（ML&DM）

大规模并行的ML&DM系统通常具有如下的关键特征：

数据相关性：除了元素本身的数据（在图中表现为顶点的值）之外，元素与元素之间的数据（在图中表现为边的值）同样很重要。例如社交网络中的许多算法（Pagerank）就需要考虑边的数值，从而在大量的数据中找出更有效的信息。
异步更新：许多ML&DM

最低0.47元/天解锁文章

kevin_green

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
阅读论文：Distributed GraphLab

这个星期阅读了一篇12年在期刊PVLDB上发表的一片论文《Distributed GraphLab: A Framework for Machine Learning and Data Mining in the Cloud》。虽然现在主流的数据并行处理框架，例如Mapreduce，在处理大规模数据时显得方便和实用，但是它们并不支持一些重要的机器学习和数据挖掘的算法，从而使整个系统处理数据的效率低
复制链接

扫一扫