Flink
文章平均质量分 82
大数据研习社
「大数据研习社」号主,实战大数据(Hadoop+Spark+Flink)作者,从Java开发到大数据开发13年。微信:dashuju_2017,加好友备注CSDN。
展开
-
Apache Flink 1.16重磅发布,仅22年Flink跨越3个大版本
有了这些功能,Python API 已经基本对齐了 Java 和 Scala API 中的大部分重要功能,用户已经可以使用 Python 语言完成大部分类型的 Flink 作业的开发。之前的流批集成强调统一的API和统一的计算框架。在这个版本中,如果上游子任务中的barrier在execution.checkpointing.aligned-checkpoint-timeout内无法发送到下游,Flink会先让上游子任务切换到UC,将barrier发送到下游,从而 减少背压下检查点超时的概率。原创 2022-11-09 11:01:37 · 3178 阅读 · 0 评论 -
数据库数据采集利器FlinkCDC
持续分享有用、有价值、精选的优质大数据干货致力于打造全网最优质的大数据专题原创 2022-08-10 15:26:10 · 4374 阅读 · 0 评论 -
FlinkCDC2.0利用FlinkSQL采集MySQL
FlinkCDC2.0解决了数据采集哪些问题呢?1.全量采集+增量采集的一致性需要加锁来保证2.不支持水平扩展3.全量采集阶段不支持checkpoint原创 2022-07-18 12:59:05 · 1602 阅读 · 0 评论 -
FlinkSQL自定义UDATF实现TopN
FlinkSQL的Table Aggregate functions对标Hive的UDATF,可以实现数据多进多出的聚合炸裂效果,常应用与window topn等应用场景。原创 2022-06-28 12:41:20 · 568 阅读 · 0 评论 -
FlinkSQL自定义UDAF使用的三种方式
FlinkSQL的Aggregate functions对标Hive的UDAF,可以实现数据多进一出的聚合效果,可以用于求最大值、最小值、平均值等应用场景。原创 2022-06-28 12:38:02 · 1025 阅读 · 0 评论 -
FlinkSQL自定义UDTF使用的四种方式
FlinkSQL的Table functions对标Hive的UDTF,可以实现数据⼀进多出的炸裂效果,广泛应用与电商、运营商、手机厂商等数据处理过程。原创 2022-06-28 12:35:34 · 1886 阅读 · 0 评论 -
Flink CDC 在大健云仓的实践
Flink CDC 在大健云仓的实践原创 2022-06-15 11:54:17 · 247 阅读 · 0 评论 -
【先收藏,早晚用得到】100个Flink高频面试题系列(四)
持续分享有用、有价值、精选的优质大数据面试题致力于打造全网最全的大数据面试专题题库原创 2022-06-16 13:11:47 · 642 阅读 · 0 评论 -
【先收藏,早晚用得到】100个Flink高频面试题系列(三)
持续分享有用、有价值、精选的优质大数据面试题致力于打造全网最全的大数据面试专题题库原创 2022-06-08 17:55:43 · 399 阅读 · 0 评论 -
【先收藏,早晚用得到】100个Flink高频面试题系列(二)
持续分享有用、有价值、精选的优质大数据面试题致力于打造全网最全的大数据面试专题题库原创 2022-06-06 18:08:30 · 357 阅读 · 0 评论 -
【先收藏,早晚用得到】100个Flink高频面试题系列(一)
持续分享有用、有价值、精选的优质大数据面试题致力于打造全网最全的大数据面试专题题库原创 2022-06-06 11:40:13 · 700 阅读 · 2 评论 -
【面试真题】今日头条大数据面试100题,收藏备用
1、简述WordCount 的实现过程2、简述MapReduce与 Spark 的区别与联系3、Spark 在客户端与集群运行的区别4、相同的 SQL 在 HiveSql 与 SparkSQL 的实现中,为什么 Spark 比 Hadoop 快5、简述自定义 UDF实现过程6、HBase 表设计有哪些注意事项7、谈谈你对HBase 的 HLog的理解8、数据同样存在 HDFS,为什么 HBase支持在线查询9、SparkSQL操作Hive中的数据遇到过什么问题嘛?10、S原创 2022-05-30 18:45:59 · 1998 阅读 · 0 评论 -
【先收藏,早晚用得到】49个Flink高频面试题系列(二)
持续分享有用、有价值、精选的优质大数据面试题致力于打造全网最全的大数据面试专题题库原创 2022-05-31 17:04:11 · 383 阅读 · 0 评论 -
【先收藏,早晚用得到】49个Flink高频面试题系列(一)
持续分享有用、有价值、精选的优质大数据面试题致力于打造全网最全的大数据面试专题题库原创 2022-05-26 14:43:13 · 2016 阅读 · 1 评论 -
【收藏吧,真的很有用的大数据面试专题】面试了8家,每次都会被面到这几道Flink面试题
持续分享有用、有价值、精选的优质大数据面试题致力于打造全网最全的大数据面试专题题库原创 2022-05-24 18:27:57 · 271 阅读 · 0 评论 -
项目案例:Flink1.14 SQL实现Window TOPN
在Flink1.13版本中,提出了窗口表值函数(Window TVF)的实现,用于替代旧版的窗口分组(group window)语法,极大简化了Flink SQL代码量,同时提高了执行性能。原创 2022-05-12 18:12:33 · 1262 阅读 · 0 评论 -
Flink1.13.5 SQL与Hive集成开发
1 添加依赖包Flink SQL与Hive集成需要添加相关依赖包如下所示:#Flink与hadoop兼容包flink-shaded-hadoop-2-uber-2.8.3-10.0.jar#Flink与hive集成包flink-sql-connector-hive-2.3.6_2.11-1.13.6.jar#其他依赖包(在hadoop安装目录的shere/hadoop/common目录下)commons-configuration-1.6.jarcommons-loggi原创 2022-05-10 18:51:16 · 1872 阅读 · 0 评论 -
Flink1.15 SQL实现自定义UDF
类似于Hive UDF,Flink SQL提供了丰富的函数类型来自定义函数,从而为Flink SQL统计分析复杂的数据格式提供了重要手段。原创 2022-05-09 19:21:25 · 3029 阅读 · 0 评论 -
Flink1.15 SQL实现翻滚窗口实时计算
摘要:随着Flink1.5的发布,FlinkSQL 流批一体更加成熟与完善。 Flink SQL可以替代Flink DataStream实现窗口计算。1 Flink翻滚窗口适用场景1.1定义将数据依据固定的窗口度对无界数据流进行切片。1.2特点时间对、窗口长度固定、event无重叠。1.3适用场景BI统计(计算各个时间段的指标)2 Flink SQL窗口编程模型Table table = input.window([...原创 2022-05-07 17:32:00 · 1801 阅读 · 0 评论 -
Flink SQL与Kafka整合的哪些事儿
1 Flink Table与Kafka集成案例1.1需求需求:Flink Table从kafka消费点击日志(JSON),转化为CSV格式之后输出到Kafka。1.2添加Maven依赖FlinkTable集成Kafka需引入如下依赖:<dependency><groupId>org.apache.flink</groupId><artifactId>flink-connector-kafka_${...原创 2022-04-29 17:29:16 · 2584 阅读 · 0 评论 -
Flink1.14.3 Table读写MySQL做数据聚合(1)
摘要使用JDBC SQL Connector,Source只支持批处理,Sink支持批处理和流处理。 Sink支持数据追加和更新,如果Flink Table API做聚合操作,使用Sink必须指定指定主键。 本案例独家使用Flink Table API(非SQL)方式读写MySQL,官网只讲解了SQL的使用方式。1 需求需求:Flink Table API从MySQL读取数据,然后做聚合操作,最后将聚合结果写入MySQL。2 添加Maven依赖FlinkTable集成My.原创 2022-04-28 18:51:19 · 2654 阅读 · 0 评论 -
【史上最全】Flink专题面试
1.前言《Flink 对线面试官》主要划分为一下 6 大主题,36 个 Flink 高频面试题: ⭐ 状态原理 ⭐ 时间窗口 ⭐ 编程技巧 ⭐ 实战经验 ⭐ 实时数仓 ⭐ 前沿探索 2.状态原理2.1.状态、状态后端、Checkpoint 三者之间的区别及关系?拿五个字做比喻:"铁锅炖大鹅",铁锅是状态后端,大鹅是状态,Checkpoint 是炖的动作。 状态:本质来说就是数据,在 Flink 中,其实就是 Flink 提供给转载 2022-04-27 18:25:43 · 4582 阅读 · 1 评论 -
【好文收藏】Flink1.14.3 Table与HBase集成遇到的坑
摘 要1.使用最新Flink1.14.3版本集成HBase,很多老的API已经过时。2.Flink1.14.3与HBase集成有很多兼容性问题3.Flink1.14.3与HBase集成实现代码比较稀缺,即使官方文档也有很多问题没有交代清楚,有很多坑。1 需求需求:Flink Table API从HBase NOSQL数据库读取表数据。2 添加Maven依赖FlinkTable集成HBase需引⼊如下依赖:<dependency> <groupId>..原创 2022-04-26 18:30:56 · 1434 阅读 · 1 评论 -
【深度好文】Flink1.14.3 Table读取Hive数据仓库
摘要:案例使用最新稳定版本Flink1.14.3。 Flink Table和SQL从Flink1.12版本已经成熟,可以在生产上放心使用。 Flink Table和SQL从Flink1.12实现了流批统一的所有特性。 Flink Table和SQL与Hive集成需要特别注意版本的兼容性。1 需求需求:Flink Table API从Hive数据仓库读取表数据。2 添加Maven依赖FlinkTable集成Hive需引⼊如下依赖:<dependency>..原创 2022-04-25 17:40:18 · 1594 阅读 · 0 评论 -
Flink SQL实现流批一体
1 Flink流批统一思想1.1 有界流和无界流在Flink中,批处理时流处理的一个特例。1.2 Flink老架构与问题1.从Flink用户角度(企业开发人员)(1)开发的时候,Flink SQL支持的不好,就需要在两个底层API中进行选择,甚至维护两套代码。(2)不同的语义、不同的connector支持、不同的错误恢复策略等。(3)Table API也会受不同的底层API、不同的connector等问题的影响。2.从Flink开发者角度(Flink社区人员)原创 2022-04-22 15:50:30 · 7812 阅读 · 0 评论 -
Flink1.14.3 Table API读取HDFS
1 需求需求:Flink Table API从HDFS分布式文件系统读取JSON⽂件。2 添加Maven依赖Flink使⽤JSON和HDFS引⼊如下依赖:#引入json格式依赖<dependency><groupId>org.apache.flink</groupId><artifactId>flink-json</artifactId><version>${flink.version}<...原创 2022-04-21 18:41:53 · 2485 阅读 · 0 评论 -
CDH6集成Flink【提供安装包】
01 Flink安装准备1.1 下载Flink安装包Cdh版本的Flink安装包如下所示(可加文章最下方微信免费获取):FLINK-1.9.0-csa1.0.0.0-cdh6.3.0.jarFLINK-1.9.0-csa1.0.0.0-cdh6.3.0-el7.parcelFLINK-1.9.0-csa1.0.0.0-cdh6.3.0-el7.parcel.shamanifest.json1.2 上传Flink安装包将下面三个文件传到本地的parcel源目录:/o原创 2022-04-20 18:13:09 · 1095 阅读 · 2 评论 -
阿里云基于Flink的流计算平台
01 流计算开发运维痛点1.1 任务需要底层API开发1.2 任务逻辑调试1.3 上下游数据预览1.4 任务指标曲线1.5 性能调优1.6 监控报警02基于Flink的流计算平台2.1 阿里云流计算2.2 Flink在双十一大屏应用2.3 Flink在阿里集团的应用2.4 Blink在阿里的应用2.5 Flink在阿里的改造整体改造SQL改造架构改造2.6 基于Blink的流计算.原创 2022-04-12 19:16:41 · 1802 阅读 · 0 评论 -
实时数仓之Flink维表关联难点解决方案
一 维表关联的典型场景和考量标准1.1维表关联的典型场景 在实时数仓中,我们经常需要做维表关联,但是用户维表一般在业务数据库中,业务方是不允许大数据部门直接到业务数据库进行维表关联,因为这会影响线上业务。此时我们需要将用户维表采集到大数据平台,然后事实表就可以直接跟维表进行关联,从而生成事实宽表,具体场景如下图所示。 在生产环境中,我们通过数据采集平台将用户维表采集到大数据平台,然后事实表跟用户维表直接关联就可以了呢? 答案,是不行的。因为在生产...原创 2022-04-01 18:26:33 · 1613 阅读 · 0 评论 -
基于FlinkCDC2.0+Flink SQL的实时采集与ETL解决方案
基于FlinkCDC2.0+Flink SQL的实时采集与ETL解决方案原创 2022-03-22 17:40:27 · 5877 阅读 · 0 评论 -
【项目实战】Flink+InfluxDB+Grafana实现对YARN集群队列资源进行画像
以Flink项目实现为主线,重点讲解Flink项目相关的核心技术,包含Flink流式计算、InfluxDB时序数据库和Grafana数据可视化等。基础的学员能快速上手Flink进行项目开发,有大数据基础的学员也能快速掌握Flink核心技术并积累Flink实际项目经验。原创 2022-03-17 18:09:58 · 2029 阅读 · 0 评论