Day76_Flink(二）Flink算子操作

最新推荐文章于 2022-07-20 11:25:55 发布

dogedong

最新推荐文章于 2022-07-20 11:25:55 发布

阅读量660

点赞数 1

分类专栏： # 大数据优就业——第四阶段（Flink生态系统体系架构）文章标签： flink 大数据 big data

本文链接：https://blog.csdn.net/qq_36972345/article/details/121109107

版权

课程大纲	课程内容	学习效果	掌握目标
DataSet/Stream	Dataset/stream	掌握
Window操作	Window	掌握

DataSet/Stream API

Flink处理主要是分为流处理和批量处理。流处理、批量处理使用的api也大致相同，两者有很多相似之处，但是也有略微的不同之处，下面就两者api共同介绍一下。

最难写最复杂就是tramsform，这里面涉及到业务，不同的业务有不同的处理规则。

1.1 Environment

1.1.1 getExecutionEnvironment

创建一个执行环境，表示当前执行程序的上下文。如果程序是独立调用的，则此方法返回本地执行环境；如果从命令行客户端调用程序以提交到集群，则此方法返回此集群的执行环境，也就是说，getExecutionEnvironment 会根据查询运行的方式决定返回什么样的运行环境，是最常用的一种创建执行环境的方式。

val env: ExecutionEnvironment = ExecutionEnvironment.getExecutionEnvironment

val env = StreamExecutionEnvironment.getExecutionEnvironment

如果没有设置并行度，会以 flink-conf.yaml 中的配置为准，默认是 1。

1.2 Source

1.2.1 基于本地集合的source

在一个本地内存中，生成一个集合作为Flink处理的source。

离线处理代码如下：

import org.apache.flink.api.scala.ExecutionEnvironment
import org.apache.flink.api.scala._
object ListSource {
  def main(args: Array[String]): Unit = {
    val env = ExecutionEnvironment.getExecutionEnvironment
    val listDataSet: DataSet[String] = env.fromCollection(List("hadoop spark","hive hbase"))
    listDataSet.print()
  }
}

1.2.2 基于本地文件的source

导入本地文本数据作为数据源。

离线处理代码如下：

import org.apache.flink.api.scala.{DataSet, ExecutionEnvironment}

object FileSource {
  def main(args: Array[String]): Unit = {
    val env = ExecutionEnvironment.getExecutionEnvironment
    val fileDataSet = env.readTextFile("C:\\Users\\thinkpad\\Desktop\\words.txt")
fileDataSet.print()

实时处理代码如下：

import org.apache.flink.streaming.api.scala.{DataStream, StreamExecutionEnvironment}

object FileSourceStream {
  def main(args: Array[String]): Unit = {
    val env = StreamExecutionEnvironment.getExecutionEnvironment
    val fileDataStream: DataStream[String] = env.readTextFile("C:\\Users\\thinkpad\\Desktop\\words.txt")
    fileDataStream.print()
    env.execute("FileSourceStream is runned")
  }
}

1.2.3 基于HDFS的source

读取hdfs文件，作为数据源。

离线处理代码如下：

import org.apache.flink.api.scala.{DataSet, ExecutionEnvironment}

object hdfsSource {
  def main(args: Array[String]): Unit = {
    val env = ExecutionEnvironment.getExecutionEnvironment
    val hdfsDataSet: DataSet[String] = env.readTextFile("hdfs://linux01:9000/a.txt")
    hdfsDataSet.print()
  }
}

实时处理代码如下：

import org.apache.flink.streaming.api.scala.{DataStream, StreamExecutionEnvironment}
object hdfsSourceStream {
  def main(args: Array[String]): Unit = {
    val env = StreamExecutionEnvironment.getExecutionEnvironment
    val hdfsDataStream: DataStream[String] = env.readTextFile("hdfs://linux01:9000/a.txt")
    hdfsDataStream.print()
    env.execute("hdfsSourceStream is runned")
  }
}

1.2.4 基于 kafka 消息队列的source

处理代码如下：

import java.util.Properties
import org.apache.flink.api.common.serialization.SimpleStringSchema
import org.apache.flink.streaming.api.scala.{DataStream, StreamExecutionEnvironment}
import org.apache.flink.streaming.connectors.kafka.FlinkKafkaConsumer010
import org.apache.flink.api.scala._

object kafkaSourceStream {
  def main(args: Array[String]): Unit = {
    val env = StreamExecutionEnvironment.getExecutionEnvironment
    val props = new Properties()
    props.setProperty("bootstrap.servers", "linux01:9092,linux02:9092,linux03:9092")
    props.setProperty("group.id", "consumer-group")
    props.setProperty("key.deserializer", "org.apache.kafka.common.serialization.StringDeserializer")
    props.setProperty("value.deserializer", "org.apache.kafka.common.serialization.StringDeserializer")
props.setProperty("auto.offset.reset", "latest")
//SimpleStringSchema反序列化工具
    val kafkaDataStream: DataStream[String] = 
env.addSource(new FlinkKafkaConsumer010[String]("test",new SimpleStringSchema(),props))
    kafkaDataStream.print()
    env.execute(“kafkaSourceStream is runned”)
  }
}

1.2.5 自定义 Source作为数据源

除了以上的source数据来源，我们还可以自定义source，只是继承SourceFunction即可。

自定义source代码如下：

mport org.apache.flink.streaming.api.functions.source.SourceFunction

class MySource extends SourceFunction[String] {
  //定义标志位用来标记是否正常运行
  var running = true

  override def cancel(): Unit = {
    running = false
  }

  override def run(sourceContext: SourceFunction.SourceContext[String]): Unit = {
    val data: Range.Inclusive = 1.to(10)
    while (running) {
      data.foreach(t => {
        sourceContext.collect(t.toString)
      })
    }
  }
}

调用自定义source代码如下：

mport org.apache.flink.streaming.api.scala.{DataStream, StreamExecutionEnvironment}
import org.apache.flink.api.scala._

object DefineSource {
  def main(args: Array[String]): Unit = {
    val env = StreamExecutionEnvironment.getExecutionEnvironment
    val defineSource: DataStream[String] = env.addSource(new MySource())
    defineSource.print()
    env.execute("DefineSource is runned")
  }
}

1.3 Sink

sink 也就是Flink运行完后，最终要将数据输出到哪儿。

1.3.1基于本地内存集合的sink

将数据最终输出到内存中的集合中。

示例代码如下：

import org.apache.flink.api.scala.ExecutionEnvironment
import org.apache.flink.api.scala._

object listSink {
  def main(args: Array[String]): Unit = {
    val env = ExecutionEnvironment.getExecutionEnvironment
    val listDataSet: DataSet[String] = env.fromCollection(List("hadoop","spark","hive"))
    val list: Seq[String] = listDataSet.collect()
    list.foreach(println(_))
  }
}

1.3.2基于本地文件的sink

将结果输出到本地文件系统中。

示例代码如下：

import org.apache.flink.api.scala.ExecutionEnvironment
import org.apache.flink.api.scala._

object fileSink {
  def main(args: Array[String]): Unit = {
    val env = ExecutionEnvironment.getExecutionEnvironment
    val fileDataSet: DataSet[Strin

最低0.47元/天解锁文章

dogedong

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Day76_Flink(二）Flink算子操作

课程大纲课程内容学习效果掌握目标 DataSet/Stream Dataset/stream 掌握 Window操作 Window 掌握 DataSet/Stream APIFlink处理主要是分为流处理和批量处理。流处...
复制链接

扫一扫