SparkPageRank

最新推荐文章于 2021-08-24 19:59:49 发布

润砾成珠

最新推荐文章于 2021-08-24 19:59:49 发布

阅读量794

点赞数

分类专栏： spark

本文链接：https://blog.csdn.net/u011569805/article/details/38011461

版权

spark 专栏收录该内容

14 篇文章 0 订阅

订阅专栏

1.读入参数构建sparkContext

  if (args.length < 1) {
      System.err.println("Usage: SparkPageRank <file> <iter>")
      System.exit(1)
    }
    val sparkConf = new SparkConf().setAppName("PageRank")
    val iters = if (args.length > 0) args(1).toInt else 10
    val ctx = new SparkContext(sparkConf)

2.解析日志，srcUrl - neighborUrl, 并对key去重

 val lines = ctx.textFile(args(0), 1)
    val links = lines.map{ s =>
      val parts = s.split("\\s+")
      (parts(0), parts(1))
    }.distinct().groupByKey().cache()

3. 初始化 ranks, 每一个url初始分值为1

var ranks = links.mapValues(v => 1.0)

4. 迭代iters次；每次迭代中做如下处理， links（urlKey, neighborUrls） join (urlKey, rank(分值))；对neighborUrls以及初始 rank，每一个neighborUrl , neighborUrlKey, 初始rank/size(新的rank贡献值)；然后再进行reduceByKey相加并对分值做调整 0.15 + 0.85 * _

for (i <- 1 to iters) {
      val contribs = links.join(ranks).values.flatMap{ case (urls, rank) =>
        val size = urls.size
        urls.map(url => (url, rank / size))
      }
      ranks = contribs.reduceByKey(_ + _).mapValues(0.15 + 0.85 * _)
    }

5.输出排名

 val output = ranks.collect()
    output.foreach(tup => println(tup._1 + " has rank: " + tup._2 + "."))

    ctx.stop()

润砾成珠

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
SparkPageRank

1.读入参数构建sparkContext if (args.length < 1) { System.err.println("Usage: SparkPageRank ") System.exit(1) } val sparkConf = new SparkConf().setAppName("PageRank") val iters = if
复制链接

扫一扫