Flink入门第十四课:Table api&Flink sql中的window操作、时间操作

 Window操作

package com.atguigu.GTable_api_Flink_sql;

import com.atguigu.Zbeans.SensorReading;
import org.apache.flink.streaming.api.TimeCharacteristic;
import org.apache.flink.streaming.api.datastream.DataStream;
import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.api.functions.timestamps.BoundedOutOfOrdernessTimestampExtractor;
import org.apache.flink.streaming.api.windowing.time.Time;
import org.apache.flink.table.api.EnvironmentSettings;
import org.apache.flink.table.api.Over;
import org.apache.flink.table.api.Table;
import org.apache.flink.table.api.Tumble;
import org.apache.flink.table.api.java.StreamTableEnvironment;
import org.apache.flink.table.planner.expressions.UnboundedRange;
import org.apache.flink.types.Row;

/**
 * 测试table api& flink sql中的group/over window
 */
public class CWindowTest  {

    public static void main(String[]args) throws Exception{
        //加载环境
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        EnvironmentSettings settings = EnvironmentSettings.newInstance()
                .useBlinkPlanner()
                .inStreamingMode().build();
        env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime);
        StreamTableEnvironment tableEnv = StreamTableEnvironment.create(env,settings); //创建表的执行环境

        //将数据读取成流并分配watermark
        DataStreamSource<String> inputStream = env.readTextFile("G:\\SoftwareInstall\\idea\\project\\UserBehaviorAnalysis\\BasicKnowledge\\src\\main\\resources\\sensor.txt");
        DataStream<SensorReading> mapStream = inputStream.map(line -> {
            String[] splits = line.split(",");
            return new SensorReading(new String(splits[0]), new Long(splits[1]), new Double(splits[2]));
        })
                .assignTimestampsAndWatermarks(new BoundedOutOfOrdernessTimestampExtractor<SensorReading>(Time.seconds(2)) {
            @Override
            public long extractTimestamp(SensorReading sen) {
                return sen.getTimestamp()*1000L;
            }
        });
        //将流转换成表,定义时间特性
        //tableEnv.fromDataStream(mapStream,"id,timestamp as ts,temperature as temp,pt.proctime");//追加处理时间字段,别名pt
        Table dataTable = tableEnv.fromDataStream(mapStream, "id,timestamp as ts,temperature as temp,rt.rowtime");//将原来的时间字段定义为事件时间字段,别名ts
        tableEnv.createTemporaryView("sensor",dataTable);//注册成视图,便于使用sql api


        /**
         * Table api&Flink SQL的group window操作
         *      DataStream api是先分组在开窗,而Table api&Flink SQL则正好相反,先开窗再分组,且窗口字段必须在分组字段中。
         *      Flink SQL中tumble_end和hop_end是窗口结束时间。
         */
        Table resultTable1 = dataTable.window(Tumble.over("10.seconds").on("rt").as("tw"))
                .groupBy("id,tw")
                .select("id,id.count as cou_id,temp.avg as avg_temp,tw.end");//tw.end获取窗口结束时间
        Table resultTable2 = tableEnv.sqlQuery("select id,count(id) as cou_id,avg(temp) as avg_temp,tumble_end(rt,interval '10' second) "
                + " from sensor group by id,tumble(rt,interval '10' second)");//flink sql的时间单位必须是单数

        /**
         * Table api&Flink SQL的over window操作
         *    处理时间:pt  对行数无界开窗:UNBOUNDED_ROW  对范围无界开窗:UNBOUNDED_RANGE
         *    preceding写10.seconds 10.rows为有界开窗。
         *    partitionBy可选。preceding可选,不写也会聚合之前所有的记录。
         */
        Table resultTable3 = dataTable.window(Over.partitionBy("id").orderBy("rt").preceding("2.rows").as("ow"))
                .select("id,rt,id.count over ow ,temp.avg over ow");
        Table resultTable4 = tableEnv.sqlQuery("select id,rt,count(id) over ow,avg(temp) over ow from " +
                " sensor window ow as(partition by id order by rt rows between 2 preceding and current row)");


        /**
         * 打印输出
         * 如果table api&Flink sql有非窗口内的聚合操作,则必须使用toRetractStream输出。
         * 如果聚合操作在窗口内,则可以直接使用toAppendStream或insertInto
         * 究其原因在于,非窗口内的聚合会更新动态结果表,而窗口内的聚合则只是到达窗口结束时间将结果输出到动态结果表。
         */
        dataTable.printSchema(); //打印表结构
        tableEnv.toAppendStream(resultTable1, Row.class).print("Table api的group window操作");
        tableEnv.toAppendStream(resultTable2, Row.class).print("Flink sql的group window操作");
        tableEnv.toAppendStream(resultTable3, Row.class).print("Table api的over window操作");
        tableEnv.toAppendStream(resultTable4, Row.class).print("Flink sql的over window操作");

        //执行
        env.execute("测试Table api&Flink sql的window操作");
    }
}

 时间操作

如何添加时间字段



DS转table时

    table.fromDataStream(ds,"id,salary,pt.proctime") 最后一个字段,pt为处理时间字段别名。
    table.fromDataStream(ds,"id,salary,rt.rowtime") 最后一个字段,rt为事件时间字段别名。
    table.fromDataStream(ds,"id,timestamp.rowtime rt") 将时间字段指定为事件时间,rt为别名。事件时间字段会变成以毫秒为单位。
    


定义schema时(可能都无法生效)

    .field("pt",DataTypes.TIMESTAMP(3)).proctime()  
         可能会报错。TIMESTAMP(3)代表秒后有三位,即毫秒。
    .rowtime(new Rowtime()
        .timestampsFromField("timestamp").watermarksPeriodicBounded(1000)) 
        无法生效。
    


创建源&目标表时

    pt as PROCTIME()    最后一个字段,必须是blink 的计划器
    rt as to_timestamp(from_unixtime(timestamp)),
    watermark for rt as rt - interval '1' second  必须是blink 的计划器

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

二百四十九先森

你的打赏是我努力的最大动力~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值