Spark中求网站的访问量

美图欣赏:

 

一.数据样式:

 

二.要求

求出访问量最高的两个网页

要求显示:网页名称、访问量

 

三.代码实现:

import org.apache.spark.{SparkConf, SparkContext}

object TomcatLogCount extends App {
  //获取spark的sc
  var conf = new SparkConf().setAppName("count").setMaster("local")
  var sc = new SparkContext(conf)

  //1.读取文件
  var linerdd = sc.textFile("D:\\testdata\\streaming\\localhost_access_log.txt")

  //2.解析日志:网页名称
  /**
   * 192.168.88.1 - - [30/Jul/2017:12:53:43 +0800] "GET /MyDemoWeb/head.jsp HTTP/1.1" 200 713
   * 网页名称:MyDemoWeb/head.jsp
   * */
    var rdd1 = linerdd.map(line =>{
      //1.或两个引号之间的数据
      var index1 = line.indexOf("\"")
      var index2 = line.lastIndexOf("\"")
//substring 前闭后开区间
      var line1 = line.substring(index1+1,index2)//  GET /MyDemoWeb/head.jsp HTTP/1.1

      //2.获取两个空格之间的数据
      var index3 = line1.indexOf(" ")
      var index4 = line1.lastIndexOf(" ")
      var line2 = line1.substring(index3+1,index4)// /MyDemoWeb/head.jsp
      //3.获取jsp的名字
      var name = line2.substring(line2.indexOf("/")+1)

      (name,1)

    }
    )

  //3.聚合

  var rdd2 = rdd1.reduceByKey(_+_)
  //4.排序,访问量降序
  var result = rdd2.sortBy(_._2,false)

  //5.打印
  result.foreach(println)

  sc.stop()
}

四.打印结果:

 

 

                                                                                                                                     ————保持饥饿,保持学习

                                                                                                                                                          Jackson_MVP

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

SuperBigData~

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值