Flink的两种WordCount

最新推荐文章于 2024-10-04 03:40:27 发布

超级迅猛龙

最新推荐文章于 2024-10-04 03:40:27 发布

阅读量851

点赞数

分类专栏：大数据文章标签： flink scala big data

本文链接：https://blog.csdn.net/cz124560/article/details/123052608

版权

大数据专栏收录该内容

23 篇文章 1 订阅

订阅专栏

该博客介绍了Apache Flink中实现流处理和批处理WordCount的详细步骤。在流处理部分，通过创建流处理环境，从socket获取文本流，然后进行数据转换、过滤和聚合操作。批处理部分则从文本文件读取数据，经过相似的转换和统计过程。两者的区别在于处理连续不断的数据流和一次性处理完整数据集。

摘要由CSDN通过智能技术生成

流处理WordCount

import org.apache.flink.streaming.api.scala._
//流处理wordcount
object StreamWordCount {
  def main(args: Array[String]): Unit = {
    //创建流处理执行环境
    val env = StreamExecutionEnvironment
      .getExecutionEnvironment


    //接受一个socket文本流
    val inputDataStream = env.socketTextStream("localhost",777)


    //进行转换处理统计
    val resultDataStream: DataStream[(String, Int)] = inputDataStream
      .flatMap(x => {
        x.split(" ")
      })
      .filter(_.nonEmpty)   //不为空
      .map((_,1))
      .keyBy(0)
      .sum(1)


    resultDataStream.print()


    //事件驱动 起一个进程 监听端口 等数据来做计算    启动任务执行  也就是调用环境
    //需要nc 启动开启端口  创建一个端口  相当于启动一个socket服务
    //nc -lk（一直保持） prot      也就是 nc -lk 777
    env.execute("stream word count")   //当前执行的job名字
  }
}

批处理WordCount

//批处理的word count


object WordCount {
  def main(args: Array[String]): Unit = {
    //创建一个批处理执行环境
    val env = ExecutionEnvironment.getExecutionEnvironment


    //从文件中读取数据
    val inputPath = "/Users/edy/IdeaProjects/flinksql/src/main/resources/hello.txt"
    val inputDataSet: DataSet[String] = env.readTextFile(inputPath)


    //对数据进行转换处理统计，先粉刺，再按照word、进行分组 最后进行聚合统计




    val resultDataSet = inputDataSet
      .flatMap(_.split(" "))
      .map((_,1))
      .groupBy(0)    //下标是按第一个元素进行key分组
      .sum(1)   //对所有数据的第二个元素求和


    resultDataSet.print()