GraphLab初学小感想

最新推荐文章于 2019-09-19 14:05:53 发布

mishidemudong

最新推荐文章于 2019-09-19 14:05:53 发布

阅读量1.5k

点赞数

分类专栏： GraphLab 文章标签： GraphLab

GraphLab 专栏收录该内容

10 篇文章 1 订阅

订阅专栏

文章的摘要部分就说明了，高性能数据并行框架，像MapReduce，简化了大规模数据处理系统的设计和执行过程，但是他们没有很好的支持许多重要的数据挖掘和机器学习算法，会导致降低学习系统的效率。GraphLab框架是种基于图结构，拥有异步迭代计算，动态计算，很好序列化等特点。

CMU的GraphLab小组把GraphLab部署在Amazon的EC2云平台，并跟几个主流的大规模数据处理框架进行PK。在文章中主要有以下几点分析：

1，概括了机器学习和数据挖掘算法的共有特性和现有的大规模计算框架的局限性。

2，实现了GraphLab架构和具有分布式能力的执行模块

3，两个具有分布式执行模块：Chromatic Engine：实现部分异步数据处理

Locking Engine ：能够实现完全异步数据处理

4，容错分析

5，通过部署GraphLab在EC2平台上，和Hadoop，Pregel，MPI进行性能比较，评估GraphLab的表现

PS：我非专业从事大规模数据处理人员，文中盖不会出现对大规模计算框架的个人意见，怕误人子弟，内容实为阅读该论文的部分总结，若对该框架感兴趣，可以参考原论文，我会在文章最后附上参考资料。

MLDM = Machine Learning and Data Mining

先来看下GraphLab小组对MLDM算法属性的分析，其实也是GraphLab的优势分析，该部分非常好的干货，总结的经验对想了解大规模机器学习的人很有帮助

1，图结构计算( Graph Structured Computation)

最近在MLDM领域中有很多关于数据关联性( dependencies between data )的研究，通过获得数据的关联性，可以从噪音很多的数据中抽取有用的信息。比如，通过为购物者之间的关系建模，就能很快找到口味相似的用户，并为之推荐商品，而不是仅分析单个用户的数据。不幸的是，现有的并行计算框架像MapReduce还无法满足在MLDM算法中的关联性计算。

GraphLab和Pregel都是图的框架，但是他们两个的通信机制上存在差别，Pregel是基于大块的消息传递机制，GraphLab是基于内存共享机制。所谓图结构，就是把输入的数据看成图G = （V，E，D） V = vertex E = edge D = data 也就是权重，我的理解是如果基于该结构的话就能保存数据之间的关联性.

2，异步迭代计算( Asynchronous Iterative Computation)

搞过机器学习的人都知道，很多MLDM的算法都需要迭代更新参数。由于GraphLab是基于图结构，参数的更新就需要依赖其他的参数更新。同步数据更新需要根据并行更新得到的 T 时刻的数据结果来更新 T + 1 时刻的数据，由于每步的执行长度都有执行最慢的机器决定，同步更新方式会使性能大打折扣。跟同步更新不一样的是，异步系统会使用最近的一些数据作为输入更新参数。异步更新会为MLDM提供很大好处，提高算法的执行效率。文中还讨论了影响机器执行速度的各种因素，感兴趣的可以去观摩下喔。

3，动态计算( Dynamic Computation)

在很多MLDM算中需要对参数进行迭代计算，不同的参数之间存在的收敛速度差异性，比如有些参数可能只要执行几步就能收敛，有些参数要执行很多步才能收敛。拿PageRank举例，把所有的网页的PageRank权重看成一个维度很高的向量 P 的话，在采用 Power Method 进行更新 P ，直到 P 收敛的过程中，把每个维度看成是一个参数的话，不同维度的收敛速度也是不一样的，如果能实现动态计算的话，可以大大减少计算次数，提高系统的性能。

该图为PageRank中收敛次数的分布图，横轴为迭代次数，纵轴为参数个数