- 博客(89)
- 收藏
- 关注
原创 windows安装conda环境,开发openai应用准备,运行第一个ai程序
作者开发第一个openai应用的环境准备、第一个openai程序调用成功,做个记录,希望帮助新来的你。第一次能成功运行的openai程序,狠开心。
2024-01-14 13:22:53 1006
原创 hive3.1核心源码思路
对大数据几个核心组件的源码,记录一下生命线提示:以下是本篇文章正文内容,下面案例可供参考对核心流程,生命线进行追踪。学习源码:核心思路,抓大放小。把上面的生命线抓住,需要分析具体问题再细看。
2023-10-10 16:26:20 792
原创 实践数据湖iceberg 第四十二课(业界视野)业界的流批一体架构
了解iceberg的特性后,把视野放到行业,看看行业的湖仓一体架构上怎么的,作者主要分析:微视、爱奇艺、小米、网易严选的架构
2023-03-01 10:44:33 704
原创 实践数据湖iceberg 第四十一课 iceberg的实时性-业界的checkpoint配置
对iceberg checkpoint时间设置,有疑问,官方建议至少一分钟,行内各个大公司配多久呢?作者,专门学习各个公司在datafund上的分享以及网络文章,记录几个大公司的配置时间
2023-03-01 10:14:55 487
原创 flink-sql 中怎样使用hive function?
flink-sql自带的函数,比较少,可以引入hive的函数hive-connector内置了hive module,提供了hive自带的系统函数
2023-02-28 11:25:07 778 1
原创 实践数据湖iceberg 第四十课 iceberg的sql运维方式(合并文件、合并元数据、清理历史快照)
iceberg的sql化运维(合并文件、合并元数据、清理历史快照)
2023-02-21 10:35:57 1247
原创 flink内存管理, 增加Task内存大小,减少ManageMemory, network内存的方法
flink内存管理, 增加Task内存大小,减少ManageMemory, network内存的方法
2022-12-30 16:34:24 3391
原创 实践数据湖iceberg 第四十一课 测试维表更新场景
flink sql 中kafka 表join mysql表,发现无法检测到mysql表到新增、update, 百度多篇文章,写得好像可以解决问题,但又没有详细的解决方法步骤,故而写本人,期后来者以填坑。本文记录测试思路、流程与结论。测试结论:1.kaka做为驱动表源,可以通过lookup的方式,感知mysql维表的变化 2.iceberg表无法使用lookup方式,不能通过lookup感知mysql维表的变化
2022-11-21 11:33:00 1016
原创 flink cdc 没有Replication client ,Replication slave权限,报错,处理
fiink cdc 的表用户,需要有Replication client ,Replication slave权限。授权命令如下: grant Replication client on *.* to ods_base@'%'; grant replication slave on *.* to ods_base@'%'; flush privileges;
2022-09-09 16:54:39 3604
原创 实践数据湖iceberg 第三十九课 清理快照前后数据文件变化分析
分析hive_iceberg_catalog.system.expire_snapshots()命令前后,数据湖表底层发生的变更
2022-08-05 16:58:05 1354
原创 实践数据湖iceberg 第三十八课 spark sql, Procedures语法进行数据治理(小文件合并,清理快照)
从kafka源写入iceberg,会生成大量的小文件,合并小文件,有代码的方式,spark3结合iceberg0.11后,支持使用sql方式实现文件治理,本文记录 expire_snapshots,rewrite_manifests的运行效果与底层文件的变化
2022-08-05 10:16:39 2073
原创 实践数据湖iceberg 第三十七课 kakfa写入iceberg的 icberg表的 enfource ,not enfource测试
测试 iceberg读取kafka的数据,能否根据kafka上的id,入湖时,自动更新iceberg的数据,对这个场景进行测试测试结果:不能
2022-07-22 16:25:50 1862
原创 实践数据湖iceberg 第三十六课 基于数据湖icerberg的流批一体架构--update mysql select from icberg语法是增量更新测试
续上一课,计算一个PV的,案例,最终把结果更新到MYSQL本文测试如下语法是否增量更新insert into default_catalog.default_database.mysql_pv select dt, cast(count(*) as int) as pv from hive_iceberg_catalog.ods_base.IcebergSink_XXZH /*+ OPTIONS('streaming'='true', 'monitor-interval'='1s')*/ where
2022-06-17 14:44:17 1136
原创 实践数据湖iceberg 第三十五课 基于数据湖icerberg的流批一体架构--测试增量读是读全量还是仅读增量
上一课中,讲到增量更新,小弟的boss问到,增量实现,是读增量数据还是把历史数据也重新读了一次? 暴击,按照我的理解,就是读增量。。。,大佬是不认按照理解的! 好吧,测试一下,故有本文,读者感到我滴血的心嘛,试问大家有没有这种经历。。。......
2022-06-16 21:21:59 1003
原创 实践数据湖iceberg 第三十四课 基于数据湖icerberg的流批一体架构-流架构测试
lambda架构中, kafka->flink中支持 各种流函数,数据入iceberg后,如何对icberg进行流操作,实现类似流函数的结果?基于数据湖的流批一体是什么意思?
2022-06-14 15:46:26 1903 4
原创 实践数据湖iceberg 第三十三课 升级flink到1.14,自带functioin支持json函数
需要flink支持类似hive的get_json_object的功能,又不想自定义function, 有什么办法?目前用flink1.13.5版本,看官网,自带function都没有这个函数,于是发现了新版本flink1.14提供了这些功能,于是有了升级的冲动。。。
2022-05-09 20:30:08 1419
原创 实践数据湖iceberg 第三十二课 DDL语句通过hive catalog持久化方法
问题: flink的sql-client上,创建表,只是当前session有用,退出回话,需要重新创建表。多人共享一个表,很麻烦,有什么办法?解决方法:把建表的DDL操作,持久化到HIVE上,由hive来管理。如何实现呢? 使用hive catalog,在hive catalog下创建表。所有表都是持久化的。
2022-05-07 14:40:14 1096 2
原创 实践数据湖iceberg 第三十一课 使用github的flink-streaming-platform-web工具,管理flink任务流,测试cdc重启场景
flink重启,需要从checkpoint恢复。涉及到任务工程化管理,自研一套这种工具,很耗时,对小公司来说,吃力不讨好,所有寻找了个开源方案, 测试flink-streaming-platform-web ,支持sql,jar,各种集群模式提交,亲测可用
2022-04-28 14:49:24 1374 1
原创 实践数据湖iceberg 第三十课 mysql->iceberg,不同客户端有时区问题
mysql->flink-sql-cdc->iceberg。从flink查数据时间没问题,从spark-sql查,时区+8了。对这个问题进行记录最后解决方案: 源表没有timezone, 下游表需要设置local timezone,这样就没问题了!
2022-04-21 16:33:34 3853
原创 mysql binlog记录insert update delete的记录方式与flink sql不一样
查看insert,update,delete在mysql binlog中是如何进行记录的在flink sql中,update会转化为一条delete和一条insert, 故想看看在mysql binlog的记录方式
2022-04-20 16:08:52 1912
原创 实践数据湖iceberg 第二十九课 如何优雅高效获取flink的jobId
提交一个flink作业,希望获取这个作业的jobId,以便后续程序监控,例如获取checkpoint路径,从checkpoint点重启
2022-04-15 16:50:18 2836
原创 实践数据湖iceberg 第二十八课 把公有仓库上不存在的包部署到本地仓库
**问题**: iceberg很多包,maven仓库没有,但iceberg提供了,通过pom编译打包,报错,原因是maven仓库没有这个包。**解决方法**:把这些包通过maven命令把包打到本地仓库
2022-04-14 16:56:50 1843
原创 flink1.13.5编译,各种填坑
问题:使用官网flink1.13.5,hadoop2.7.2,无法把jar提交到集群进行standalone和yarn模式的部署解决方法:自编译源码
2022-04-07 17:47:33 3424 1
原创 实践数据湖iceberg 第二十七课 flink cdc 测试程序故障重启:能从上次checkpoint点继续工作
程序化部署,测试flink cdc重启恢复测试思路:1.程序停止时,进行checkpoint记录,记录checkpoint的位置 2.程序停止时,写入数据, 记录写入的数据, 测试重启后,能否从故障点开始恢复。结论:能
2022-04-07 17:32:42 4169
原创 修改hive默认格式
文章目录前言一、修改hive默认格式方法二、测试是否生效总结前言设置hive默认格式,作用,统一数据格式。一、修改hive默认格式方法设置默认格式为rcfilehive (default)> set hive.default.fileformat.managed=rcfile;hive (default)> set hive.default.fileformat=rcfile;二、测试是否生效思路: 修改格式前后建表,检查表的格式建表,查看目前格式hive (defa
2022-04-06 11:48:09 2980
原创 实践数据湖iceberg 第二十六课 checkpoint设置方法
系列文章目录提示:这里可以添加系列文章的所有文章的目录,目录需要自己手动添加例如:第一章 Python 机器学习入门之pandas的使用提示:写完文章后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录系列文章目录前言checkpoint设置方法一、pandas是什么?二、使用步骤1.引入库2.读入数据3.总结前言checkpoint设置方法提示:以下是本篇文章正文内容,下面案例可供参考一、pandas是什么? StreamExecutionEnvironment
2022-04-01 16:36:48 2251
原创 实践数据湖iceberg 第二十五课 后台运行flink sql 增删改的效果
系列文章目录实践数据湖iceberg 第一课 入门实践数据湖iceberg 第二课 iceberg基于hadoop的底层数据格式实践数据湖iceberg 第三课 在sqlclient中,以sql方式从kafka读数据到iceberg实践数据湖iceberg 第四课 在sqlclient中,以sql方式从kafka读数据到iceberg(升级版本到flink1.12.7)实践数据湖iceberg 第五课 hive catalog特点实践数据湖iceberg 第六课 从kafka写入到iceber
2022-04-01 15:04:44 2298
原创 hive select * 语法中去掉部分列
hive表有很多列,大部分列需要,其中一列不需要,例如分区表的dt字段不要,例如1000列中去掉1列
2022-03-23 18:06:09 8130
原创 小文件治理之hive文件合并:hive小文件合并的三种方法
合并小文件太多的方法: 一、concatenate方法二、insert overwrite方法总结 三、insert overwrite select *
2022-03-23 15:08:43 16062 1
原创 小文件治理之hadoop集群监控:文件目录个数 获取的三种方法
系列文章目录提示:这里可以添加系列文章的所有文章的目录,目录需要自己手动添加例如:第一章 Python 机器学习入门之pandas的使用提示:写完文章后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录系列文章目录前言一、二、jmx获取二、使用hadoop fs -count 获取三、代码实现总结前言提示:这里可以添加本文要记录的大概内容:例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。提示:以下是本篇文章正
2022-03-15 08:06:38 947
原创 apache源码 学以致用 第二课: 跟kafka学习 程序优雅退出
程序运行后,需要做资源清理,删除目录、关闭数据库连接等,本文学习kafka,顶级大师的代码,看看怎样把本领学到手。在main方法中增加 Runtime.getRuntime().addShutdownHook(new Thread()) 来实现资源的清理
2022-03-11 14:42:16 2711
原创 apache源码学以致用 第一课:为什么写这个专栏
文章目录为什么写这个专栏为什么写这个专栏平时看源码,看后,可能经过反复看,学习、加实践,实践过程中有疑惑,再参考一下世界顶级代码。突然想起,从历史记忆中找各种点点滴滴的东西,很难。现在想到更好的方法是:看到一个好的方法,应用与工作中的实际案例,写下文章,容易未来整理,也给后人学习。...
2022-03-11 10:12:51 75
原创 小文件治理之hadoop集群监控:Jmx上的TotalFiles其实是TotalFilesAndDirectory 总文件+总目录数
文章目录前言一、50070页面,这2个数字的意思二、验证方法步骤1.停止集群,记录目前的数据步骤2. put一个有3个block的文件看看,对比变化总结前言50070页面上的文件数和block数,通过jmx获取时,看字面上的意思对不上,所以,专门写个文章分析一下。提示:以下是本篇文章正文内容,下面案例可供参考一、50070页面,这2个数字的意思第一个是文件数+目录数的总和,目前是66236,第二个数是65530个block,block的个数(不包含副本)二、验证方法**验证方法:**停止
2022-03-09 14:20:56 2444
原创 hadoop fs -count 返回的是目录树和文件数
文章目录测试hadoop fs -count 返回前2个数值的意思测试hadoop fs -count 返回前2个数值的意思[root@hadoop101 software]# hadoop fs -ls -R /tmp/testdrwxr-xr-x - root supergroup 0 2022-03-09 11:11 /tmp/test/software-rw-r--r-- 2 root supergroup 209419991 2022-03-09 11:11
2022-03-09 11:24:47 2385
原创 小文件治理之hadoop集群监控: hdfs jvm数据获取
文章目录前言一、获取jvm使用情况信息二、获取的所有信息三、获取指定信息方法四、更多namenode的参数信息总结前言怎样爬取50070页面的信息,一开始想写个爬虫,后来发现,可以通过接口调用,节省了很多麻烦一、获取jvm使用情况信息}[root@hadoop101 ~]# curl hadoop101:50070/jmx?qry=java.lang:type=Memory{ "beans" : [ { "name" : "java.lang:type=Memory", "
2022-03-08 19:46:13 887
原创 实践数据湖iceberg 第二十四课 iceberg元数据详细解析
本文彻底解释 iceberg元数据 存储细节实践数据湖icerberg专栏本专栏记录iceberg菜鸟到专家的过程,记录踩坑,填坑,iceberg特征的了解与原理的认知
2022-02-23 20:50:36 4992
原创 实践数据湖iceberg 第二十三课 flink-sql从checkpoint重启
成功测试flink-sql以非jar包的方式从checkpoint重启,完成故障恢复测试实践数据湖icerberg专栏本专栏记录iceberg菜鸟到专家的过程,记录踩坑,填坑,iceberg特征的了解与原理的认知
2022-02-23 15:46:18 4537 1
原创 实践数据湖iceberg 第二十二课 flink1.13.5 + iceberg0.131 CDC(CRUD测试成功)
成功测试 flink+mysql-cdc+iceberg数据湖的CRUD实践数据湖icerberg专栏本专栏记录iceberg菜鸟到专家的过程,记录踩坑,填坑,iceberg特征的了解与原理的认知
2022-02-22 21:13:47 2561
原创 实践数据湖iceberg 第二十一课 flink1.13.5 + iceberg0.131 CDC(测试成功INSERT,变更操作失败)
实践数据湖icerberg专栏本专栏记录iceberg菜鸟到专家的过程,记录踩坑,填坑,iceberg特征的了解与原理的认知
2022-02-22 19:30:46 2898
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人