Flink批处理和流处理两种方式实现WordCount代码示例

使用scala实现批处理和流处理的wordcount示例

编写scala版本批处理wordcount

1.新建maven项目
2.导入pom坐标

<dependency>
    <groupId>org.apache.flink</groupId>
    <artifactId>flink-streaming-scala_2.11</artifactId>
    <version>1.3.2</version>
</dependency>
<dependency>
    <groupId>org.apache.flink</groupId>
    <artifactId>flink-connector-kafka-0.10_2.11</artifactId>
    <version>1.3.2</version>
</dependency>
<dependency>
    <groupId>org.apache.flink</groupId>
    <artifactId>flink-table_2.10</artifactId>
    <version>1.3.2</version>
</dependency>
<dependency>
    <groupId>org.apache.flink</groupId>
    <artifactId>flink-scala_2.10</artifactId>
    <version>1.3.2</version>
</dependency>

3.编写scala版本批处理wordcount代码

package com.qcj.wc_demo

import org.apache.flink.api.scala._

/**
  * 简单的批处理word count例子
  */
object WordCount {
  def main(args: Array[String]) {
    //批处理程序,需要创建ExecutionEnvironment
    val env = ExecutionEnvironment.getExecutionEnvironment
    //fromElements(elements:_*) --- 从一个给定的对象序列中创建一个数据流,所有的对象必须是相同类型的。
    val text = env.fromElements(
      "Who's there?",
      "I think I hear them. Stand, ho! Who's there?","hah")

    val counts = text.flatMap { _.toLowerCase.split("\\W+") filter { _.nonEmpty } }
      .map { (_, 1) }
      .groupBy(0)//根据第一个元素分组
      .sum(1)

    //打印
    counts.print()
  }
}

4.运行结果
在这里插入图片描述

编写scala版本流处理wordcount

1.安装nc
a.下载netcat。下载地址这里
b.解压压缩包到指定路径下
c.配置path环境变量

我的path变量:
E:\software\netcat-1.11

d.打开命令界面:Windows+R cmd。输入nc 命令即可.

2.编写scala版本流处理wordcount

package com.qcj.wc_demo

import org.apache.flink.streaming.api.scala._
import org.apache.flink.streaming.api.windowing.time.Time

/**
  * 实时接收word count例子
  *
  * 运行准备
  * 1.windows上安装netcat,下载解压,配置路径path就行了:
  *   参考博客:  https://blog.csdn.net/qq_37585545/article/details/82250984
  * 2.运行前先cmd启动nc:就可以输入数据了
  *   nc -lL -p 9999
  * 3.之后运行此程序,记住要先启动nc.后运行程序,不然会报错
  */
object WordCount2 {
  def main(args: Array[String]) {
    /*
    在Flink程序中首先需要创建一个StreamExecutionEnvironment
    (如果你在编写的是批处理程序,需要创建ExecutionEnvironment),它被用来设置运行参数。
    当从外部系统读取数据的时候,它也被用来创建源(sources)。
     */
    val env = StreamExecutionEnvironment.getExecutionEnvironment
    val text = env.socketTextStream("localhost", 9999)

    val counts = text.flatMap { _.toLowerCase.split("\\W+") filter { _.nonEmpty } }//nonEmpty非空的
      .map { (_, 1) }
      .keyBy(0)//通过Tuple的第一个元素进行分组
      .timeWindow(Time.seconds(5))//Windows 根据某些特性将每个key的数据进行分组 (例如:在5秒内到达的数据).
      .sum(1)

    //将结果流在终端输出
    counts.print
    //开始执行计算
    env.execute("Window Stream WordCount")
  }
}

3.cmd窗口运行nc
输入命令:nc -lL -p 9999 回车等待启动程序
在这里插入图片描述
4.运行程序,输入测试数据
在这里插入图片描述

例子github地址

例子github地址

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
Flink中的批处理作业可以使用多种不同的数据源。以下是一些常用的批处理数据源示例: 1. 文件源:可以从本地文件系统或分布式文件系统(如HDFS)中读取数据。您可以使用`readTextFile`方法读取文本文件,或者使用`readCsvFile`方法读取CSV格式的文件。 ```java ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment(); DataSet<String> data = env.readTextFile("file:///path/to/file"); ``` 2. 集合源:可以直接从Java集合中读取数据。您可以使用`fromCollection`方法将Java集合转换为DataSet,或者使用`fromElements`方法将单个元素转换为DataSet。 ```java ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment(); List<Integer> data = Arrays.asList(1, 2, 3, 4, 5); DataSet<Integer> dataSet = env.fromCollection(data); ``` 3. 数据库源:可以从关系型数据库(如MySQL、PostgreSQL等)中读取数据。您可以使用Flink提供的JDBC连接器来读取数据库中的数据。 ```java ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment(); BatchTableEnvironment tableEnv = BatchTableEnvironment.create(env); // 创建JDBC连接器 JDBCOptions jdbcOptions = JDBCOptions.builder() .setDriverName("com.mysql.jdbc.Driver") .setDBUrl("jdbc:mysql://localhost:3306/db_name") .setUsername("username") .setPassword("password") .setTableName("table_name") .build(); // 从数据库中读取数据 Table table = tableEnv.fromJDBC(jdbcOptions); DataSet<Row> dataSet = tableEnv.toDataSet(table, Row.class); ``` 这些只是Flink中几种常见的批处理数据源示例,您还可以根据实际需求实现自定义的数据源。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值