Java (Spark案例分析)

一、需求:计算网页访问量前三名

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}
 
/**
  * 需求:计算网页访问量前三名
  * 用户:喜欢视频 直播
  * 帮助企业做经营和决策
  *
  * 看数据
  */
object UrlCount {
  def main(args: Array[String]): Unit = {
    //1.加载数据
    val conf:SparkConf = new SparkConf().setAppName("UrlCount").setMaster("local[2]")
    //spark程序入口
    val sc: SparkContext = new SparkContext(conf)
    //载入数据
    val rdd1: RDD[String] = sc.textFile("e:/access.log")
 
    //2.对数据进行计算 w,1 h,1
    val rdd2: RDD[(String, Int)] = rdd1.map(line => {
      val s: Array[String] = line.split("\t")
      //标注为出现1次
      (s(1), 1)
    })
 
    //3.将相同的网址进行累加求和  网页,201
    val rdd3:RDD[(String, Int)] = rdd2.reduceByKey(_+_)
 
    //4.排序 取出前三
    val rdd4: Array[(String, Int)] = rdd3.sortBy(_._2, false).take(3)
 
    //5.遍历打印
    rdd4.foreach(x => {
      println("网址为:" + x._1 + "访问量为:" + x._2)
    })
 
    //6.关闭资源
    sc.stop()
  }
}

结果:

二、需求:求出每个学院 访问第一位的网址

import java.net.URL
 
import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}
 
/**
  * 需求:求出每个学院 访问第一位的网址
  * bigdata:video(直播)
  * java:video
  * python:teacher
  */
object UrlGroupCount {
  def main(args: Array[String]): Unit = {
    //1.创建sparkContext
    val conf: SparkConf = new SparkConf().setAppName("UrlGroupCount").setMaster("local[2]")
    val sc: SparkContext = new SparkContext(conf)
 
    //2.加载数据
    val rdd1: RDD[String] = sc.textFile("e:/access.log")
 
    //3.切分
    val rdd2: RDD[(String, Int)] = rdd1.map(line => {
      val s: Array[String] = line.split("\t")
      //网址,1
      (s(1), 1)
    })
 
    //4.求出总的访问量  网址,总的访问量
    val rdd3: RDD[(String, Int)] = rdd2.reduceByKey(_+_)
 
    //5.取出学院
    val rdd4: RDD[(String, String, Int)] = rdd3.map(x => {
      //拿到u
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论
首先,让我们了解一下Spark和Kafka的基本概念和用途: - Spark:Apache Spark 是一个快速,通用,可扩展的大数据处理引擎,可用于批处理,流处理和机器学习等任务。 - Kafka:Apache Kafka 是一个分布式流处理平台,可以用于快速、可靠地处理大量实时数据流。 现在我们来构建一个实时分析Dashboard的案例,该案例将从Kafka主题中读取实时数据,使用Spark Streaming进行处理和分析,并将结果显示在Dashboard上。 以下是实现此案例的步骤: 1. 创建Kafka主题并发送数据 首先,我们需要创建一个Kafka主题,并使用生产者向该主题发送数据。可以使用Kafka提供的命令行工具或任何Kafka客户端库来执行此操作。例如,使用命令行工具创建名为“test”主题: ``` bin/kafka-topics.sh --create --zookeeper localhost:2181 --replication-factor 1 --partitions 1 --topic test ``` 使用生产者向该主题发送数据: ``` bin/kafka-console-producer.sh --broker-list localhost:9092 --topic test ``` 在控制台中输入数据并按“Enter”键,该数据将被发送到Kafka主题中。 2. 使用Spark Streaming读取数据 使用Spark Streaming从Kafka主题中读取数据,可以使用Spark Streaming提供的Kafka Direct API。首先,需要添加以下依赖项到项目中: ```xml <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming-kafka-0-10_2.11</artifactId> <version>2.4.5</version> </dependency> ``` 然后,使用以下代码从Kafka主题中读取数据: ```scala import org.apache.spark.streaming.kafka010.KafkaUtils import org.apache.spark.streaming.kafka010.LocationStrategies.PreferConsistent import org.apache.spark.streaming.kafka010.ConsumerStrategies.Subscribe val kafkaParams = Map[String, Object]( "bootstrap.servers" -> "localhost:9092", "key.deserializer" -> classOf[StringDeserializer], "value.deserializer" -> classOf[StringDeserializer], "group.id" -> "test-group", "auto.offset.reset" -> "latest", "enable.auto.commit" -> (false: java.lang.Boolean) ) val topics = Array("test") val stream = KafkaUtils.createDirectStream[String, String]( ssc, PreferConsistent, Subscribe[String, String](topics, kafkaParams) ) val lines = stream.map(record => record.value) ``` 上述代码使用Kafka Direct API创建了一个DStream对象,该对象包含了从Kafka主题中读取的实时数据。 3. 处理和分析数据 现在,我们可以使用Spark Streaming提供的各种转换操作来处理和分析数据。例如,下面的代码计算每个单词的出现次数: ```scala val words = lines.flatMap(_.split(" ")) val wordCounts = words.map(word => (word, 1)).reduceByKey(_ + _) ``` 上述代码使用flatMap操作将每一行的文本拆分为单词,然后使用map和reduceByKey操作计算每个单词的出现次数。 4. 显示结果 最后,我们可以使用任何Web框架(如Flask或Django)创建一个实时Dashboard,并将结果显示在其中。例如,可以使用Flask框架创建一个Dashboard,如下所示: ```python from flask import Flask, render_template from pyspark.sql import SparkSession app = Flask(__name__) spark = SparkSession.builder.appName("Dashboard").getOrCreate() @app.route("/") def dashboard(): wordCounts = spark.sql("select word, count from wordCounts") return render_template("dashboard.html", wordCounts=wordCounts.collect()) if __name__ == "__main__": app.run(debug=True) ``` 上述代码使用Spark SQL从Spark Streaming生成的RDD中读取结果,并将其传递给Dashboard。Dashboard可以使用JavaScript库(如D3.js)创建交互式可视化效果。 总结: 使用Spark和Kafka可以轻松构建实时分析Dashboard。Spark Streaming提供了Kafka Direct API,可以从Kafka主题中读取实时数据,并使用各种Spark转换操作进行处理和分析。最后,可以使用任何Web框架创建一个Dashboard,并将结果显示在其中。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

lmr廖

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值