[Spark streaming举例]-- 统计一段时间内的热搜词

最新推荐文章于 2024-07-07 00:58:10 发布

往事随风ing

最新推荐文章于 2024-07-07 00:58:10 发布

阅读量5.7k

点赞数 1

分类专栏： Spark 文章标签： spark scala

本文链接：https://blog.csdn.net/high2011/article/details/51585604

版权

Spark 专栏收录该内容

133 篇文章 10 订阅 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

本文通过一个实例展示了如何运用Spark Streaming进行实时数据处理，统计特定时间段内的热门搜索词汇。利用Scala编程，讲解了数据摄入、转换和输出的关键步骤，帮助理解Spark Streaming在大数据实时分析中的应用。

摘要由CSDN通过智能技术生成

如下

package com.my.scala

import org.apache.spark.SparkConf
import org.apache.spark.streaming.{Durations, StreamingContext}

/**
  *
  * 使用开窗函数实现spark streaming，版本统计一段时间内前三的热搜词汇
  *
  * 测试结果：测试成功
  * 步骤：    先开启hadoop集群，start-all.sh
  *           再在h15上启动端口：nc -lk 8888
  *           再输入数据：如---》"ds sdf sdfa wfasd sdf",一定要以空格分开
  *           启动本程序
  *           查看控制台是否正常
  *           
  */
object WindowBasedTopWord {
  def main(args: Array[String]) {
    val conf = new SparkConf().setAppName("WindowBasedTopWord").setMaster("local[2]")
    val ssc = new StreamingContext(conf,Durations.seconds(5)) //这里的5秒是指切分RDD的间隔
    ssc.checkpoint("hdfs://h15:8020/wordcount_check

了解本专栏