Flink笔记

最新推荐文章于 2024-06-14 23:15:24 发布

fyq2016

最新推荐文章于 2024-06-14 23:15:24 发布

阅读量139

点赞数

分类专栏： Flink 大数据文章标签： Flink

本文链接：https://blog.csdn.net/fyq2016/article/details/103097856

版权

大数据同时被 2 个专栏收录

11 篇文章 0 订阅

订阅专栏

Flink

3 篇文章 0 订阅

订阅专栏

使用Flink的四个步骤

创建执行环境
添加Source
Transform
Sink

创建执行环境

Flink支持 批处理 和 流处理，两者创建执行环境的API是不一样的，创建批处理env的代码如下：

val env = ExecutionEnvironment.getExecutionEnvironment

创建流处理env的代码如下：

val env = StreamExecutionEnvironment.getExecutionEnvironment

添加Source

基于集合的source

val stream = env.fromCollection(List(
     TemperatureRecord("d1", 25.5, 100),
     TemperatureRecord("d2", 25.5, 100),
     TemperatureRecord("d3", 25.5, 100),
     TemperatureRecord("d4", 25.5, 100),
     TemperatureRecord("d5", 25.5, 100),
     TemperatureRecord("d6", 25.5, 100),
     TemperatureRecord("d7", 25.5, 100)
   ))

基于文件的source

val stream = env.readTextFile("""/source.txt""")

基于网络套接字的source

val dataStream = env.socketTextStream("192.168.1.101", 7777)

自定义的source
kafka source

val properties = new Properties()
properties.setProperty("bootstrap.servers", "192.168.1.101:9092")
properties.setProperty("zookeeper.connect", "192.168.1.101:2181")
properties.setProperty("group.id", "kafkaStreamTest")

val kafka11 = new FlinkKafkaConsumer011[String]("kafkaStreamTest", new SimpleStringSchema(), properties)

val stream = env.addSource(kafka11)

自定义测试source

class TestSourceFunction extends SourceFunction[String] {
  var running = true

  override def run(sourceContext: SourceFunction.SourceContext[String]): Unit = {

    var i = 0
    while (running) {
      i += 1
      sourceContext.collect(i + " " + "v_" + Random.nextInt(5))
      Thread.sleep(1000)
    }
  }

  override def cancel(): Unit = {
    running = false
  }

}

Transform

Flink中的tranform可以类比spark中的transform，也是进行转换的API，但细节可能不同

Transformation	转换	描述
map	DataStream → DataStream	取一个元素并产生一个元素
flatMap	DataStream → DataStream	取一个元素并产生0或多个元素
filter	DataStream → DataStream	对数据流进行过滤
keyBy	DataStream → KeyedStream	类似数据库中的group by
reduce	KeyedStream → DataStream	有一个泛型T，接收两个T类型的参数，返回一个T类型的参数，返回值作为下一次执行的第一个参数，第二个参数是数据流里面的数据
fold	KeyedStream → DataStream	已弃用类似reduce，但接收两个泛型，进出流的泛型可以不一样
Aggregations	KeyedStream → DataStream	对KeyedStream进行聚合，包含sum,min,max,minBy,maxBy
union	DataStream*→ DataStream	连接多个同类型的数据流
connect	DataStream,DataStream → ConnectedStreams	连接两个数据流，这两个数据流的类型可以不相同
split	DataStream → SplitStream	根据某些标准将流分成两个或多个流
select	SplitStream → DataStream	从拆分流中选择一个或多个流
window	KeyedStream → WindowedStream	在已经分区的KeyedStreams上定义Window
timeWindow	KeyedStream → WindowedStream	在已经分区的KeyedStreams上定义时间Window
countWindow	KeyedStream → WindowedStream	在已经分区的KeyedStreams上定义计数Window
windowAll	DataStream → WindowedStream	在普通的DataStreams上定义Window

Window api待更

以上操作都支持传入一个自定义的函数类，如MapFunction、RichMapFunction

Sink

Flink的Sink类似Spark中的action，主要用于数据的输出
常见的Sink

kafka Sink
首先，增加依赖

<dependency>
   <groupId>org.apache.flink</groupId>
   <artifactId>flink-connector-kafka-0.10_2.11</artifactId>
   <version>1.3.1</version>
</dependency>

主程序

val env = StreamExecutionEnvironment.getExecutionEnvironment
//TestObjectSourceFunction是自定义的测试Source
val stream = env.addSource(new TestObjectSourceFunction)
val producer = new FlinkKafkaProducer011[String]("localhost:9092", "test", new SimpleStringSchema())
stream.map(_.id)
  .addSink(producer)
env.execute("kafkaSinkTest")

es Sink
首先，增加依赖

 <dependency>
    <groupId>org.apache.flink</groupId>
    <artifactId>flink-connector-elasticsearch6_2.11</artifactId>
    <version>1.7.2</version>
</dependency>

主程序

val env = StreamExecutionEnvironment.getExecutionEnvironment
//TestObjectSourceFunction是默认的测试Source
val stream = env.addSource(new TestObjectSourceFunction)

val httpHosts = new util.ArrayList[HttpHost]
httpHosts.add(new HttpHost("localhost", 9200))

val esSink = new ElasticsearchSink.Builder[ApplyInfo](httpHosts, new ElasticsearchSinkFunction[ApplyInfo] {
  override def process(item: ApplyInfo, ctx: RuntimeContext, requestIndexer: RequestIndexer): Unit = {
	val esSource = new util.HashMap[String, String]()
	esSource.put("id", item.id)
	esSource.put("areaCode", item.areaCode)
	val req = Requests.indexRequest("applyInfo").`type`("applyInfo").source(esSource)
	requestIndexer.add(req)
  }
}).build()

stream.addSink(esSink)
env.execute("esSinkTest")

自定义Sink
实现自定义的Sink Function即可，一般实现RichSinkFunction会提供更丰富的功能

val env = StreamExecutionEnvironment.getExecutionEnvironment
//TestObjectSourceFunction是默认的测试Source
val stream = env.addSource(new TestObjectSourceFunction)
stream.addSink(new RichSinkFunction[ApplyInfo] {
  var out: OutputStream = _

  override def open(parameters: Configuration): Unit = {
	out = new FileOutputStream("/tmp/customSink.txt")
  }

  override def invoke(value: ApplyInfo, context: SinkFunction.Context[_]): Unit = {
	out.write((value.id + "," + value.areaCode + "\r\n").getBytes(StandardCharsets.UTF_8))
  }

  override def close(): Unit = {
	out.close()
  }

})
env.execute("esSinkTest")

fyq2016

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Flink笔记

使用Flink分四部创建执行环境添加SourceTransformSink创建执行环境Flink支持批处理和流处理，两者创建执行环境的API是不一样的，创建批处理env的代码如下：val env = ExecutionEnvironment.getExecutionEnvironment创建流处理env的代码如下：val env = StreamExecution...
复制链接

扫一扫