这个星期阅读了一篇12年在期刊PVLDB上发表的一片论文《Distributed GraphLab: A Framework for Machine Learning and Data Mining in the Cloud》。虽然现在主流的数据并行处理框架,例如Mapreduce,在处理大规模数据时显得方便和实用,但是它们并不支持一些重要的机器学习和数据挖掘的算法,从而使整个系统处理数据的效率低下。这篇文章延续了作者在10年UAI上发表的《GraphLab: A New Parallel Framework for Machine Learning》中所做的工作,将GraphLab框架从共享内存的环境中迁移到了分布式的环境下,并维护了数据的强一致性保证。
- 关于作者
- GraphX: Graph Processing in a Distributed Dataflow Framework. OSDI 2014: 599-613
- PowerGraph: Distributed Graph-Parallel Computation on Natural Graphs.OSDI 2012: 17-30
- GraphLab: A New Framework For Parallel Machine Learning. UAI 2010: 340-349
论文内容大多是关于如何在分布式图计算平台下部署各类机器学习和数据挖掘的算法。其中部分项目例如PowerGraph已实现开源。
- 机器学习和数据挖掘(ML&DM)
- 数据相关性:除了元素本身的数据(在图中表现为顶点的值)之外,元素与元素之间的数据(在图中表现为边的值)同样很重要。例如社交网络中的许多算法(Pagerank)就需要考虑边的数值,从而在大量的数据中找出更有效的信息。
- 异步更新:许多ML&DM