- 博客(2)
- 收藏
- 关注
原创 Learning Spark笔记10-PageRank
PageRank 基于Google的Larry Page命名的PageRank算法旨在根据有多少文档具有链接的方式为一组中的每个文档分配重要度(“等级”)。 它可以用于对网页进行排名,当然也可以是科学文章,也可以用于社交网络中的有影响力的用户。 PageRank是一个迭代算法,它要执行很多连接,所以它很适合RDD分区这种情况。该算法有两个数据集:一个是(pageID,linkL
2017-06-15 09:03:47 305
原创 Learning Spark笔记9-确定RDD分区
确定RDD分区 在Scala和java中,可以使用partitioner属性来决定怎么分区。scala.Option对象是Scala的容器类。你可以在Option上调用isDefined() 来检查是否有值,使用get()来获得值。如果存在,那么这个值是spark.Partitioner对象。这个实际上的功能是每个key存入哪个分区。 Example 4-24. Det
2017-06-01 11:00:14 341
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人