Flink的两种WordCount

该博客介绍了Apache Flink中实现流处理和批处理WordCount的详细步骤。在流处理部分,通过创建流处理环境,从socket获取文本流,然后进行数据转换、过滤和聚合操作。批处理部分则从文本文件读取数据,经过相似的转换和统计过程。两者的区别在于处理连续不断的数据流和一次性处理完整数据集。
摘要由CSDN通过智能技术生成

流处理WordCount

import org.apache.flink.streaming.api.scala._
//流处理wordcount
object StreamWordCount {
  def main(args: Array[String]): Unit = {
    //创建流处理执行环境
    val env = StreamExecutionEnvironment
      .getExecutionEnvironment


    //接受一个socket文本流
    val inputDataStream = env.socketTextStream("localhost",777)


    //进行转换处理统计
    val resultDataStream: DataStream[(String, Int)] = inputDataStream
      .flatMap(x => {
        x.split(" ")
      })
      .filter(_.nonEmpty)   //不为空
      .map((_,1))
      .keyBy(0)
      .sum(1)


    resultDataStream.print()


    //事件驱动 起一个进程 监听端口 等数据来做计算    启动任务执行  也就是调用环境
    //需要nc 启动开启端口  创建一个端口  相当于启动一个socket服务
    //nc -lk(一直保持) prot      也就是 nc -lk 777
    env.execute("stream word count")   //当前执行的job名字
  }
}

批处理WordCount

//批处理的word count


object WordCount {
  def main(args: Array[String]): Unit = {
    //创建一个批处理执行环境
    val env = ExecutionEnvironment.getExecutionEnvironment


    //从文件中读取数据
    val inputPath = "/Users/edy/IdeaProjects/flinksql/src/main/resources/hello.txt"
    val inputDataSet: DataSet[String] = env.readTextFile(inputPath)


    //对数据进行转换处理统计,先粉刺,再按照word、进行分组 最后进行聚合统计




    val resultDataSet = inputDataSet
      .flatMap(_.split(" "))
      .map((_,1))
      .groupBy(0)    //下标是按第一个元素进行key分组
      .sum(1)   //对所有数据的第二个元素求和


    resultDataSet.print()
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值