![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Flink
文章平均质量分 61
mojolang
精品驿站
展开
-
通过代码理解flink sql几种Join方式
flink SQL 适合离线处理的两种方式package com.staywithyou.flink.apitest.tableapi;import org.apache.flink.streaming.api.datastream.DataStream;import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;import org.apache.flink.table.api.Environment.转载 2022-02-09 14:43:23 · 765 阅读 · 0 评论 -
Flink Table & SQL: Minibatch、LocalGlobal、Split Distinct、Agg With Filter
总结Flink Table & SQL 流式聚合中的几个优化。MiniBatchLocalGlobalSplit DistinctAgg With FilterMiniBatchMiniBatch优化的核心思想是缓冲输入记录微批处理以减少对状态的访问,进而提升吞吐并减少数据的输出。以如下场景为例,看下开启MiniBatch聚合前后的差异。SELECT key, COUNT(1)FROM TGROUP BY key由上图可知:未开启MiniBatch..转载 2022-02-08 17:31:03 · 933 阅读 · 0 评论 -
Flink提交运行中常见问题总结,Flink开发问题汇总
Flink开发问题汇总一、flink里面能调用图算法吗?二、Cannot instantiate user function三、本地idea开发flink程序并本地运行读取HDFS文件四、The assigned slot container_e08_1539148828017_15937_01_003564_0 was removed五、java.util.concurrent.TimeoutException: Heartbeat of TaskManager with id contain转载 2022-01-24 00:50:49 · 6198 阅读 · 3 评论 -
flink table & sql(一)table基础概念、环境搭建、source、sink
一、concepts1、表表可以是虚拟(VIEWS)或常规(TABLES)。VIEWS可以从现有Table对象创建,通常是Table API或SQL查询的结果。TABLES描述外部数据,例如文件,数据库表或消息队列。表三部分标识符:目录、数据库、表名。其中,目录、数据库是可选的。tEnv.useCatalog("custom_catalog");tEnv.useDatabase("custom_database");1.1 临时表与永久表表可以是临时的,并与单个Flink会话的生命周期.转载 2022-01-21 10:16:22 · 1087 阅读 · 0 评论 -
flink table & sql(二)tableAPI
、table api1、Scan, Projection, and Filter(1)filter,isNotNull(),and,lowerCase(),as,count(),avg(),end,startpackage com.flink.sql.environment.tableAPI;import org.apache.flink.api.common.functions.MapFunction;import org.apache.flink.streaming.api.TimeCha.转载 2022-01-21 09:37:12 · 600 阅读 · 0 评论 -
HiveQL与SQL区别
1、Hive不支持等值连接 SQL中对两表内联可以写成:select * from dual a,dual b where a.key = b.key; Hive中应为:select * from dual a join dual b on a.key = b.key; 而不是传统的格式:SELECT t1.a1 as c1, t2.b1 as c2FROM t1, t2WHERE t1.a2 = t2.b22、分号字符 分号是SQL语句结束标记,在HiveQL中也是,但是在...转载 2022-01-19 06:26:40 · 814 阅读 · 0 评论 -
【Flink】状态一致性、端到端的精确一次(ecactly-once)保证
核心提示:当在分布式系统中引入状态时,自然也引入了一致性问题。一致性实际上是正确性级别的另一种说法,也就是说在成功处理故障并恢复之后得到的结果,与没有发生任何故障时得到的结果相比,前者到底有多正确?举例来说,假设要对最近一小时登录的用户计数。在系统经历故障之后,计数结果是多少?如果有偏差,是有漏掉的计数还是重复计数?后端写在前面:我是「云祁」,一枚热爱技术、会写诗的大数据开发猿。昵称来源于王安石诗中一句[ 云之祁祁,或雨于渊 ],甚是喜欢。写博客一方面是对自己学习的一点点总结及记录,另一方面..转载 2021-12-22 15:18:52 · 1600 阅读 · 0 评论 -
一文学完Flink流计算常用算子(Flink算子大全)
Flink和Spark类似,也是一种一站式处理的框架;既可以进行批处理(DataSet),也可以进行实时处理(DataStream)。所以下面将Flink的算子分为两大类:一类是DataSet,一类是DataStream。DataSet一、Source算子1. fromCollectionfromCollection:从本地集合读取数据例:valenv=ExecutionEnvironment.getExecutionEnvironmentvaltextDataSet...转载 2021-07-26 18:02:35 · 1438 阅读 · 0 评论 -
Flink自定义aggregate聚合函数的步骤
在Flink计算中,常见的一些操作是map或者flatmap一些数据之后keyby 开窗口进行计算。那么在这些计算当中有哪些算子呢?其中我分为两类算子。增量聚合 有reduce 和aggregate算子,全量聚合 有apply和process。那么今天我们就主要讲解一下常用的增量聚合算子aggregate算子。aggregate方法签名的三个类型 <数据源类型,累加器类型,输出类型>WindowFunction 方法签名的四个类型为 <IN, OUT, KEY, W exten转载 2021-06-09 17:57:01 · 1715 阅读 · 0 评论