flink
文章平均质量分 88
*星星之火*
从菜鸟到专家,陪同大家一起成长
展开
-
实践数据湖iceberg 第四十二课(业界视野)业界的流批一体架构
了解iceberg的特性后,把视野放到行业,看看行业的湖仓一体架构上怎么的,作者主要分析:微视、爱奇艺、小米、网易严选的架构原创 2023-03-01 10:44:33 · 565 阅读 · 0 评论 -
flink-sql 中怎样使用hive function?
flink-sql自带的函数,比较少,可以引入hive的函数hive-connector内置了hive module,提供了hive自带的系统函数原创 2023-02-28 11:25:07 · 688 阅读 · 1 评论 -
实践数据湖iceberg 第四十课 iceberg的sql运维方式(合并文件、合并元数据、清理历史快照)
iceberg的sql化运维(合并文件、合并元数据、清理历史快照)原创 2023-02-21 10:35:57 · 1101 阅读 · 0 评论 -
flink内存管理, 增加Task内存大小,减少ManageMemory, network内存的方法
flink内存管理, 增加Task内存大小,减少ManageMemory, network内存的方法原创 2022-12-30 16:34:24 · 3193 阅读 · 0 评论 -
实践数据湖iceberg 第四十一课 测试维表更新场景
flink sql 中kafka 表join mysql表,发现无法检测到mysql表到新增、update, 百度多篇文章,写得好像可以解决问题,但又没有详细的解决方法步骤,故而写本人,期后来者以填坑。本文记录测试思路、流程与结论。测试结论:1.kaka做为驱动表源,可以通过lookup的方式,感知mysql维表的变化 2.iceberg表无法使用lookup方式,不能通过lookup感知mysql维表的变化原创 2022-11-21 11:33:00 · 724 阅读 · 0 评论 -
flink cdc 没有Replication client ,Replication slave权限,报错,处理
fiink cdc 的表用户,需要有Replication client ,Replication slave权限。授权命令如下: grant Replication client on *.* to ods_base@'%'; grant replication slave on *.* to ods_base@'%'; flush privileges;原创 2022-09-09 16:54:39 · 3454 阅读 · 0 评论 -
实践数据湖iceberg 第三十六课 基于数据湖icerberg的流批一体架构--update mysql select from icberg语法是增量更新测试
续上一课,计算一个PV的,案例,最终把结果更新到MYSQL本文测试如下语法是否增量更新insert into default_catalog.default_database.mysql_pv select dt, cast(count(*) as int) as pv from hive_iceberg_catalog.ods_base.IcebergSink_XXZH /*+ OPTIONS('streaming'='true', 'monitor-interval'='1s')*/ where原创 2022-06-17 14:44:17 · 932 阅读 · 0 评论 -
实践数据湖iceberg 第三十五课 基于数据湖icerberg的流批一体架构--测试增量读是读全量还是仅读增量
上一课中,讲到增量更新,小弟的boss问到,增量实现,是读增量数据还是把历史数据也重新读了一次? 暴击,按照我的理解,就是读增量。。。,大佬是不认按照理解的! 好吧,测试一下,故有本文,读者感到我滴血的心嘛,试问大家有没有这种经历。。。......原创 2022-06-16 21:21:59 · 976 阅读 · 0 评论 -
实践数据湖iceberg 第三十四课 基于数据湖icerberg的流批一体架构-流架构测试
lambda架构中, kafka->flink中支持 各种流函数,数据入iceberg后,如何对icberg进行流操作,实现类似流函数的结果?基于数据湖的流批一体是什么意思?原创 2022-06-14 15:46:26 · 1672 阅读 · 4 评论 -
实践数据湖iceberg 第三十三课 升级flink到1.14,自带functioin支持json函数
需要flink支持类似hive的get_json_object的功能,又不想自定义function, 有什么办法?目前用flink1.13.5版本,看官网,自带function都没有这个函数,于是发现了新版本flink1.14提供了这些功能,于是有了升级的冲动。。。原创 2022-05-09 20:30:08 · 1282 阅读 · 0 评论 -
实践数据湖iceberg 第三十二课 DDL语句通过hive catalog持久化方法
问题: flink的sql-client上,创建表,只是当前session有用,退出回话,需要重新创建表。多人共享一个表,很麻烦,有什么办法?解决方法:把建表的DDL操作,持久化到HIVE上,由hive来管理。如何实现呢? 使用hive catalog,在hive catalog下创建表。所有表都是持久化的。原创 2022-05-07 14:40:14 · 1024 阅读 · 2 评论 -
实践数据湖iceberg 第三十一课 使用github的flink-streaming-platform-web工具,管理flink任务流,测试cdc重启场景
flink重启,需要从checkpoint恢复。涉及到任务工程化管理,自研一套这种工具,很耗时,对小公司来说,吃力不讨好,所有寻找了个开源方案, 测试flink-streaming-platform-web ,支持sql,jar,各种集群模式提交,亲测可用原创 2022-04-28 14:49:24 · 1326 阅读 · 1 评论 -
mysql binlog记录insert update delete的记录方式与flink sql不一样
查看insert,update,delete在mysql binlog中是如何进行记录的在flink sql中,update会转化为一条delete和一条insert, 故想看看在mysql binlog的记录方式原创 2022-04-20 16:08:52 · 1791 阅读 · 0 评论 -
实践数据湖iceberg 第二十九课 如何优雅高效获取flink的jobId
提交一个flink作业,希望获取这个作业的jobId,以便后续程序监控,例如获取checkpoint路径,从checkpoint点重启原创 2022-04-15 16:50:18 · 2739 阅读 · 0 评论 -
flink1.13.5编译,各种填坑
问题:使用官网flink1.13.5,hadoop2.7.2,无法把jar提交到集群进行standalone和yarn模式的部署解决方法:自编译源码原创 2022-04-07 17:47:33 · 3319 阅读 · 1 评论 -
实践数据湖iceberg 第二十七课 flink cdc 测试程序故障重启:能从上次checkpoint点继续工作
程序化部署,测试flink cdc重启恢复测试思路:1.程序停止时,进行checkpoint记录,记录checkpoint的位置 2.程序停止时,写入数据, 记录写入的数据, 测试重启后,能否从故障点开始恢复。结论:能原创 2022-04-07 17:32:42 · 3896 阅读 · 0 评论 -
实践数据湖iceberg 第二十五课 后台运行flink sql 增删改的效果
系列文章目录实践数据湖iceberg 第一课 入门实践数据湖iceberg 第二课 iceberg基于hadoop的底层数据格式实践数据湖iceberg 第三课 在sqlclient中,以sql方式从kafka读数据到iceberg实践数据湖iceberg 第四课 在sqlclient中,以sql方式从kafka读数据到iceberg(升级版本到flink1.12.7)实践数据湖iceberg 第五课 hive catalog特点实践数据湖iceberg 第六课 从kafka写入到iceber原创 2022-04-01 15:04:44 · 2082 阅读 · 0 评论 -
实践数据湖iceberg 第二十四课 iceberg元数据详细解析
本文彻底解释 iceberg元数据 存储细节实践数据湖icerberg专栏本专栏记录iceberg菜鸟到专家的过程,记录踩坑,填坑,iceberg特征的了解与原理的认知原创 2022-02-23 20:50:36 · 4883 阅读 · 0 评论 -
实践数据湖iceberg 第二十三课 flink-sql从checkpoint重启
成功测试flink-sql以非jar包的方式从checkpoint重启,完成故障恢复测试实践数据湖icerberg专栏本专栏记录iceberg菜鸟到专家的过程,记录踩坑,填坑,iceberg特征的了解与原理的认知原创 2022-02-23 15:46:18 · 4374 阅读 · 1 评论 -
实践数据湖iceberg 第二十二课 flink1.13.5 + iceberg0.131 CDC(CRUD测试成功)
成功测试 flink+mysql-cdc+iceberg数据湖的CRUD实践数据湖icerberg专栏本专栏记录iceberg菜鸟到专家的过程,记录踩坑,填坑,iceberg特征的了解与原理的认知原创 2022-02-22 21:13:47 · 2319 阅读 · 0 评论 -
实践数据湖iceberg 第二十一课 flink1.13.5 + iceberg0.131 CDC(测试成功INSERT,变更操作失败)
实践数据湖icerberg专栏本专栏记录iceberg菜鸟到专家的过程,记录踩坑,填坑,iceberg特征的了解与原理的认知原创 2022-02-22 19:30:46 · 2589 阅读 · 0 评论 -
实践数据湖iceberg 第二十课 flink + iceberg CDC场景(版本问题,测试失败)
实践数据湖icerberg专栏本专栏记录iceberg菜鸟到专家的过程,记录踩坑,填坑,iceberg特征的了解与原理的认知原创 2022-02-18 16:22:14 · 3366 阅读 · 0 评论 -
实践数据湖iceberg 第十九课 flink count iceberg,无结果问题
实践数据湖icerberg专栏本专栏记录iceberg菜鸟到专家的过程,记录踩坑,填坑,iceberg特征的了解与原理的认知原创 2022-02-15 20:51:02 · 1082 阅读 · 0 评论 -
实践数据湖iceberg 第十八课 多种客户端与iceberg交互启动命令(常用命令)
实践数据湖icerberg专栏本专栏记录iceberg菜鸟到专家的过程,记录踩坑,填坑,iceberg特征的了解与原理的认知原创 2022-02-15 20:49:58 · 1555 阅读 · 0 评论 -
实践数据湖iceberg 第十五课 spark3安装与集成iceberg0.13 (jersey包冲突,安装完成)
系列文章目录实践数据湖iceberg 第一课 入门实践数据湖iceberg 第二课 iceberg基于hadoop的底层数据格式实践数据湖iceberg 第三课 在sqlclient中,以sql方式从kafka读数据到iceberg实践数据湖iceberg 第四课 在sqlclient中,以sql方式从kafka读数据到iceberg(升级版本到flink1.12.7)实践数据湖iceberg 第五课 hive catalog特点实践数据湖iceberg 第六课 从kafka写入到iceber原创 2022-02-13 15:49:49 · 2549 阅读 · 0 评论 -
实践数据湖iceberg 第十四课 元数据合并(解决元数据随时间增加而元数据膨胀的问题)
系列文章目录实践数据湖iceberg 第一课 入门实践数据湖iceberg 第二课 iceberg基于hadoop的底层数据格式实践数据湖iceberg 第三课 在sqlclient中,以sql方式从kafka读数据到iceberg实践数据湖iceberg 第四课 在sqlclient中,以sql方式从kafka读数据到iceberg(升级版本到flink1.12.7)实践数据湖iceberg 第五课 hive catalog特点实践数据湖iceberg 第六课 从kafka写入到iceber原创 2022-02-11 14:56:39 · 2206 阅读 · 0 评论 -
实践数据湖iceberg 第十二课 catalog是什么
系列文章目录实践数据湖iceberg 第一课 入门实践数据湖iceberg 第二课 iceberg基于hadoop的底层数据格式实践数据湖iceberg 第三课 在sqlclient中,以sql方式从kafka读数据到iceberg实践数据湖iceberg 第四课 在sqlclient中,以sql方式从kafka读数据到iceberg(升级版本到flink1.12.7)实践数据湖iceberg 第五课 hive catalog特点实践数据湖iceberg 第六课 从kafka写入到iceber原创 2022-02-11 11:05:43 · 3100 阅读 · 0 评论 -
实践数据湖iceberg 第十一课 测试分区表完整流程(造数、建表、合并、删快照)
系列文章目录实践数据湖iceberg 第一课 入门实践数据湖iceberg 第二课 iceberg基于hadoop的底层数据格式实践数据湖iceberg 第三课 在sqlclient中,以sql方式从kafka读数据到iceberg实践数据湖iceberg 第四课 在sqlclient中,以sql方式从kafka读数据到iceberg(升级版本到flink1.12.7)实践数据湖iceberg 第五课 hive catalog特点实践数据湖iceberg 第六课 从kafka写入到iceber原创 2022-01-28 18:00:23 · 3766 阅读 · 0 评论 -
实践数据湖iceberg 第十课 快照删除
系列文章目录实践数据湖iceberg 第一课 入门实践数据湖iceberg 第二课 iceberg基于hadoop的底层数据格式实践数据湖iceberg 第三课 在sqlclient中,以sql方式从kafka读数据到iceberg实践数据湖iceberg 第四课 在sqlclient中,以sql方式从kafka读数据到iceberg(升级版本到flink1.12.7)实践数据湖iceberg 第五课 hive catalog特点实践数据湖iceberg 第六课 从kafka写入到iceber原创 2022-01-28 10:09:44 · 2565 阅读 · 2 评论 -
实践数据湖iceberg 第九课 合并小文件
系列文章目录提示:这里可以添加系列文章的所有文章的目录,目录需要自己手动添加例如:第一章 Python 机器学习入门之pandas的使用提示:写完文章后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录系列文章目录前言1. 合并小文件二、使用步骤1.引入库2.读入数据总结前言提示:这里可以添加本文要记录的大概内容:例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。提示:以下是本篇文章正文内容,下面案例可供参考原创 2022-01-28 10:07:50 · 3979 阅读 · 7 评论 -
实践数据湖iceberg 第八课 hive与iceberg集成
系列文章目录实践数据湖iceberg 第一课实践数据湖iceberg 第二课 iceberg基于hadoop的底层数据格式实践数据湖iceberg 第三课 在sqlclient中,以sql方式从kafka读数据到iceberg实践数据湖iceberg 第四课 在sqlclient中,以sql方式从kafka读数据到iceberg(升级版本到flink1.12.7)实践数据湖iceberg 第五课 hive catalog特点实践数据湖iceberg 第六课 从kafka写入到iceberg失败原创 2022-01-20 17:25:26 · 7739 阅读 · 9 评论 -
实践数据湖iceberg 第七课 实时写入到iceberg
系列文章目录提示:写完文章后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录系列文章目录前言1. 制造数据2. 通过flume把制造的数据,写入到kafka2.1 flume把日志直接写到kafka的配置文件2.2 准备启动flume agent的脚本2.3 检查是否写入到kafka3.把kakfa的行为数据入湖3.1.定义kafka表3.1.1 使用csv格式读取看看3.1.2 使用raw格式读取看看3.2 定义iceberg表3.3 kafka表入到iceberg4.观察生成的数据5.原创 2022-01-19 21:11:11 · 2773 阅读 · 0 评论 -
实践数据湖iceberg 第六课 从kafka写入到iceberg失败问题 解决
实践数据湖iceberg 系列文章目录文章目录实践数据湖iceberg 系列文章目录前言1. 解决方案2. 重跑flink sql总结前言遇到的问题: 前面3节课,从kafka读数据写入到iceberg,不报错,就是没有数据写成功,多次查看官网 https://iceberg.apache.org/#flink/, 没有解决方案。终极解决方案: 增加chepoint配置。没有checkpoint,就没有输出吐槽: 只看官网,就是笨蛋, 估计官网写文档的人都没有实践过,是否换个人去写官原创 2022-01-19 15:30:07 · 2284 阅读 · 3 评论 -
实践数据湖iceberg 第五课 hive catalog特点
系列文章目录提示:这里可以添加系列文章的所有文章的目录,目录需要自己手动添加例如:第一章 Python 机器学习入门之pandas的使用提示:写完文章后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录系列文章目录前言一、pandas是什么?二、使用步骤1.引入库2.读入数据总结前言提示:这里可以添加本文要记录的大概内容:例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。提示:以下是本篇文章正文内容,下面案例原创 2022-01-18 15:46:52 · 2169 阅读 · 4 评论 -
实践数据湖iceberg 第四课 在sqlclient中,以sql方式从kafka读数据到iceberg(升级版本到flink1.12.7)
系列文章目录提示:这里可以添加系列文章的所有文章的目录,目录需要自己手动添加例如:第一章 Python 机器学习入门之pandas的使用提示:写完文章后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录系列文章目录版本一、启动flink sql2. 建kafka表3. 读kafka的数据写入到kafka2.读入数据总结版本flink-1.12.7-bin-scala_2.12flink-sql-connector-hive-2.3.6_2.12-1.12.7.jarkafka_原创 2022-01-18 15:25:25 · 1345 阅读 · 0 评论 -
实践数据湖iceberg 第三课 在sqlclient中,以sql方式从kafka读数据到iceberg
实践数据湖iceberg 第三课 在sqlclient中,以sql方式从kafka读数据到iceberg在sqlclient中,以sql方式从kafka读数据到iceberg提示:写完文章后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录实践数据湖iceberg 第三课 在sqlclient中,以sql方式从kafka读数据到iceberg环境说明1. 启动带hive和kafka功能的flink-sql2. 创建一个hive datalog,来存放iceberg文件3 .catalog下创建原创 2022-01-18 10:49:12 · 2243 阅读 · 1 评论 -
实践数据湖iceberg 第二课 iceberg基于hadoop的底层数据格式
实践数据湖iceberg 第二课 iceberg基于hadoop的底层数据格式提示:写完文章后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录实践数据湖iceberg 第二课 iceberg基于hadoop的底层数据格式前言1、hadoop catalog创建1.1 执行建立 catalog脚本1.2 查看hdfs 目录2.建表2.1 建表2.2 查看建表后的目录结构1.写入数据1.1 写入1条数据1.2 写入数据本质上触发一个flink jiob1.3 查看hdfs目录1.4 再写一原创 2022-01-17 11:31:20 · 3088 阅读 · 0 评论 -
实践数据湖iceberg 第一课
数据湖iceberg 系列文章目录提示:写完文章后,目录可以自动生成,如何生成可参考右边的帮助文档数据湖实践第一课 flink+iceberg入门数据湖iceberg 系列文章目录前言一、数据湖iceberg实践环境说明二、启动flink sql客户端1. 启动flink standalone集群2.下载flink iceberg runtime的包,启动flink-sql3.创建基于hadoop的catalog4.写数据,读数据测试(hadoop catalog的限制)5.创建基于hive的cat原创 2022-01-12 16:43:07 · 4471 阅读 · 5 评论