Flink批处理和流处理

AllenGd

已于 2022-08-26 13:46:37 修改

阅读量634

点赞数 1

分类专栏： Flink 文章标签： flink

于 2020-09-11 14:41:31 首次发布

本文链接：https://blog.csdn.net/Allenzyg/article/details/108533973

版权

Flink 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

Flink批处理

import org.apache.flink.api.scala._

object WordCount {
  def main(args: Array[String]): Unit = {
    //创建一个批处理的执行环境
    val env = ExecutionEnvironment.getExecutionEnvironment
    //从文件中读取数据
    val inputPath = "E:\\IntelliJ IDEA 2019.2.4\\FlinkTutorial\\src\\main\\resources\\hello"
    val inputDataSet = env.readTextFile(inputPath)
    //分词之后做count
    val wordContDataSet = inputDataSet.flatMap(_.split(" "))
      .map((_,1))
      .groupBy(0)
      .sum(1)
    //打印输出
    wordContDataSet.print()
  }
}

1.创建数据

2.执行代码

3.结果：

Flink流处理

import org.apache.flink.api.java.utils.ParameterTool
import org.apache.flink.streaming.api.scala._

object StreamWordCount {
  def main(args: Array[String]): Unit = {

    val params = ParameterTool.fromArgs(args)
    val host: String = params.get("host")
    val port: Int = params.getInt("port")

    // 创建一个流处理的执行环境
    val env = StreamExecutionEnvironment.getExecutionEnvironment
    //    env.setParallelism(1)
    //    env.disableOperatorChaining()

    // 接收socket数据流
    val textDataStream = env.socketTextStream(host, port)

    // 逐一读取数据，分词之后进行wordcount
    val wordCountDataStream = textDataStream.flatMap(_.split("\\s"))
      .filter(_.nonEmpty).startNewChain()
      .map( (_, 1) )
      .keyBy(0)
      .sum(1)

    // 打印输出
    wordCountDataStream.print().setParallelism(1)

    // 执行任务
    env.execute("stream word count job")
  }
}

1.参数设置：

添加服务器IP和端口：

2.在服务器上执行：

nc -lk 6666

注：端口6666可以修改。

3.执行代码

4.结果：

AllenGd

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
Flink批处理和流处理

Flink批处理import org.apache.flink.api.scala._object WordCount { def main(args: Array[String]): Unit = { //创建一个批处理的执行环境 val env = ExecutionEnvironment.getExecutionEnvironment //从文件中读取数据 val inputPath = "E:\\IntelliJ IDEA 2019.2.4\\Flink
复制链接

扫一扫