Flink toAppendStream与toRetractStream的区别

前言

通常我们在需要输出Table表数据时需要转换成DataStream流进行输出,然后转换流有两种模式toAppendStream追加模式、toRetractStream更新模式

toAppendStream:追加模式

  • 接收端口数据,测试追加模式

代码示例

import org.apache.flink.streaming.api.scala._
import org.apache.flink.table.api.{EnvironmentSettings, Table}
import org.apache.flink.table.api.scala._

//定义样例类WaterSensor
case class WaterSensor(id:String,ts:Long,vc:Double)
object TableOutCsv {
  def main(args: Array[String]): Unit = {
    //创建流执行环境
    val env: StreamExecutionEnvironment = StreamExecutionEnvironment.getExecutionEnvironment
    
    //创建表执行环境
    val table: EnvironmentSettings = EnvironmentSettings.newInstance()
      .useBlinkPlanner()
      .inStreamingMode()
      .build()
      
    val tableEnv: StreamTableEnvironment = StreamTableEnvironment.create(env,table)
    
   //接收指定端口得数据,并转换成样例类WaterSensor类型的DataStream
    val dataStream: DataStream[WaterSensor] = env.socketTextStream("192.168.95.99",7777)
      .map(a=>{
        val strings: Array[String] = a.split(",")
        WaterSensor(strings(0),strings(1).toLong,strings(2).toDouble)
      })
      
    //根据流创建一张Table类型得得对象
    val dataTable: Table = tableEnv.fromDataStream(dataStream)
    
    //调用Table API进行转换
    val dataTable2: Table = dataTable.select("id,vc").filter('id === "ws_003")
    
    //使用追加模式,当有数据更新时,直接在后面跟着输出
    dataTable2.toAppendStream[(String,Double)].print("append")
    
    //启动执行
    env.execute()
  }
}

启动端口
在这里插入图片描述
启动程序
在这里插入图片描述
测试数据

ws_001,1577844001,24.0
ws_002,1577844015,43.0
ws_003,1577844020,32.0

端口输入
在这里插入图片描述
程序输出

在这里插入图片描述
追加数据

ws_003,1577844020,23.0
ws_003,1577844020,65.0

程序输出
在这里插入图片描述

结论:使用toAppendStream就是当接收到新得数据时候不会影响之前得数据,而是在后面追加

toRetractStream:更新模式

  • 依然是接收端口数据,只不过这次我们使用Table API对数据进行count,查看使用toRetractStream得效果

代码示例

import org.apache.flink.streaming.api.scala._
import org.apache.flink.table.api.{EnvironmentSettings, Table}
import org.apache.flink.table.api.scala._

//定义样例类WaterSensor
case class WaterSensor(id:String,ts:Long,vc:Double)
object TableOutCsv {
  def main(args: Array[String]): Unit = {
    //创建流执行环境
    val env: StreamExecutionEnvironment = StreamExecutionEnvironment.getExecutionEnvironment
    
    //创建表执行环境
    val table: EnvironmentSettings = EnvironmentSettings.newInstance()
      .useBlinkPlanner()
      .inStreamingMode()
      .build()
      
    val tableEnv: StreamTableEnvironment = StreamTableEnvironment.create(env,table)
    
    //接收指定端口得数据,并转换成样例类WaterSensor类型的DataStream
    val dataStream: DataStream[WaterSensor] = env.socketTextStream("192.168.95.99",7777)
      .map(a=>{
        val strings: Array[String] = a.split(",")
        WaterSensor(strings(0),strings(1).toLong,strings(2).toDouble)
      })
      
    //根据流创建一张Table类型得得对象
    val dataTable: Table = tableEnv.fromDataStream(dataStream)
    
    //调用Table API进行转换
    val dataTable2: Table = dataTable
      .groupBy('id) //根据ID进行分组
      .select('id,'vc.count as 'countVC) //count相同ID得vc值
      
    //使用追加模式,当有数据更新时,直接在后面跟着输出
    dataTable2.toRetractStream[(String,Double)].print("retract")
    
    //启动执行
    env.execute()
  }
}

启动端口
在这里插入图片描述
启动程序
在这里插入图片描述
测试数据

ws_001,1577844001,24.0
ws_002,1577844015,43.0
ws_003,1577844020,32.0

端口输入
在这里插入图片描述
程序输出
在这里插入图片描述
追加数据

ws_003,1577844020,23.0
ws_003,1577844020,65.0

程序输出
在这里插入图片描述

结论:从输出得结果看,每条结果前都会有true,当接收到新得数据时会更新原先得数据,并在原先得数据前面标记false,也就是失效或者作废得意思,从而得到新得数据,到此应该也能很清晰得区分 toAppendStream与toRetractStream的区别了把

  • 2
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: Flink中的aggregate和reduce是不同的操作。aggregate是将多个输入元素转化为单个元素的操作,而reduce是将两个输入元素合并为一个元素的操作。区别在于,aggregate包含对多个元素的组合,而reduce只针对两个元素之间的组合操作。 ### 回答2: Flink是一个在大数据处理方面非常流行的流式数据处理引擎,它支持多种操作,其中Aggregate和Reduce是两种最常见的操作。Aggregate操作和Reduce操作在Flink中的使用和意义是不同的。 Aggregate操作是指对指定的Key中的元素进行聚合,将一个Key中的所有元素通过一个聚合函数进行计算,计算结果作为一个新的结果返回。主要特点是可以通过用户定义函数来实现聚合操作,同时还支持将结果中的Key和Value进行调换以满足不同的需求。这种操作主要适合于需要在数据流中计算一些汇总信息的场景。 Reduce操作与Aggregate操作的最根本区别在于其返回结果数据的格式,Reduce是将整个数据集合缩减成一个单一的结果型数据,而Aggregate则是对输入的Key进行聚合计算,返回与Key对应的结果型数据。 Reduce操作将输入数据流中的元素“归约”成一个结果元素,它将被发送到输出流中。 这种操作用于将具有相同关键字的元素合并为一个元素。Reduce操作在处理数据集和数据流时都很有用,因为它可以将数据分成不同部分,并将每个部分缩减为一个单一的结果以便后续处理。 总的来说,Flink的Aggregate操作和Reduce操作都是对数据流或数据集进行聚合计算的功能,只不过针对的数据集合和返回的结果型数据格式不同罢了。每种操作都有其适用的场景,在实际应用中应该根据需求进行选择。 ### 回答3: Flink是一个分布式流式处理引擎,其架构基于数据流而不是批处理。在Flink中,聚合操作是流式计算中最常用的操作之一。在聚合操作中,Flink提供了两种实现方式:Aggregate和Reduce。 Aggregate和Reduce都是聚合操作,它们都可以用于聚合输入数据流中的元素。Aggregate操作可以对输入的多个流元素进行转换,并将它们聚合成一个单一的输出元素。而Reduce操作只能聚合一个元素,并将多个元素转换为一个输出元素。 在Flink中,Aggregate和Reduce之间最显著的区别在于其并行处理能力。Aggregate操作可以实现并行聚合,因为它可以将输入流中的数据分成子流并在分布式环境中进行聚合。这意味着,Aggregate操作可以处理更大的数据文件,并利用更多的计算资源来加速数据处理。 相反,Reduce操作只能在一个流元素上执行聚合。因此,如果需要进行并行聚合处理,则需要使用Flink的keyed stream API来对输入数据流进行分区和分组。因为Reduce操作需要在同一分区中处理流元素,所以它只能使用单个计算资源来处理数据。 另外,Aggregate操作可以在窗口和时间点上进行聚合,因为它可以将输入数据流分组到窗口并在窗口中聚合多个元素。而Reduce操作只能在时间点上处理单个元素,因为它不能跨窗口进行聚合操作。 总而言之,Aggregate和Reduce都是Flink中常见的聚合操作。Aggregate操作可以用于流式计算的并行聚合和窗口聚合,而Reduce操作只能对单个流元素进行聚合操作。因此,在灵活性和可扩展性方面,Aggregate操作可能更优于Reduce操作。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值