图的并行化处理一直是一个非常热门的话题,这里头的重点有两个,一是如何将图的算法并行化,二是找到一个合适的并行化处理框架。Spark作为一个非常优秀的并行处理框架,集成了一些并行化的算法也是理所当然。
Graphx是一些图的常用算法在Spark上的并行化实现,同时提供了丰富的API接口。本文就Graphx的代码架构及PageRank在Graphx中的具体实现做一个初步的学习。
Google为什么赢得了搜索引擎大战
当Google还在起步的时候,在搜索引擎领域,Yahoo!正如日中天,红的发紫。显然,在Google面前的是一堵让人几乎没有任何希望的墙。但世事难料,现在“外事问谷歌”成了不争的事实。
这种转换到底是如何形成的了,有一个因素是这样的,那就是Google发明了显著提高搜索准确率的PageRank算法。如果说PageRank算法的提出让谷歌牢牢站稳了搜索引擎大战的脚跟,这是毫不夸张的。个人认为,搜索引擎有几个要考虑的关键因素:
要想吸引用户,就必须要有出色的搜索准确率
有了用户,才能做广告投放,提高广告投放的针对性就可以盈利
上述两个方面都有非常优秀的算法。