小皮蛋儿子-CSDN博客

原创 iceberg表flink访问有两种方式

'catalog-table'='ods_iceberg_bi_o2o_stream_v1_0904', -- 真实的表名。'catalog-name'='hive', -- 当前的catalog 名称，用户自定义即可。'connector'='iceberg', -- 固定值 iceberg。'catalog-type'='hive', -- 指定hive类型。'catalog-database'='dl_test', -- 真实的库名。

2024-09-29 10:50:12 214

原创 flink实时kafka写入doris

【代码】flink实时kafka写入doris。

2024-09-25 19:01:49 308

原创 spark-hbase-BulkLoad

方法2: BulkLoad 的方式导入，spark 读取 hive 表，写入hbase 需要的 HFile 类型的文件，写在 hdfs 上面，再使用BulkLoad ，把数据加载移动到hbase表中。缺点: 数据量较大会建成hbase regionserver 压力大，可能会导致regionserver not online ，宕机，造成服务不可用的状态，数据量小没事。方法1：先建 hbase表，再建hbase的外表hive表，做好字段映射，起一个MR 任务写入 hive外表，

2024-08-14 18:12:00 595

原创 doris 2.1.5 升级,在2.1.4的基础上升级

第一次启动 OBSERVER , 需要加一下 --helper ，后面再重启不用加了，主要是同步fe schema。# 貌似sudo 启动不了，不知道其他的这个原因不。doris 2.1.5 升级。

2024-08-08 17:34:23 472

原创 doris-2.1.4 本地部署

doris-2.1.4 本地部署

2024-07-22 09:53:32 722

原创 flinkSQL数据去重

结论：flinkSQL 流式数据去重，与批式逻辑一致。-- flinkSQL数据去重。-- kafka 数据准备。

2024-07-12 09:55:20 512

原创 hive meta 修复

如果出现锁表，或者 iceberg 表删除没有删干净，是由于hive 里面有还有元数据导致的，下面是删除元数据的的操作步骤，手动处理。TABLE_PARAMS 表属性存储。SERDES 表的format存储。SDS hdfs表库表位置存储。COLUMNS_V2 表字段存储。DBS hdfs表位置存储。TBLS 库表名存储。CDS 表id 存储。

2024-07-11 14:26:14 428

原创一起学AI,AIGC心行动

bge模型的微调微调脚本：https://github.com/FlagOpen/FlagEmbedding/tree/master/examples/finetune。1.MTEB、C-MTEB github地址 https://github.com/embeddings-benchmark/mteb#leaderboard。github地址 https://github.com/FlagOpen/FlagEmbedding/blob/master/README_zh.md。0.会、能、安全上网。

2024-07-11 14:16:39 330

原创 Flink 入湖，spark 压缩合并 iceberg 小文件方案

解决方案2：自定义flink kafka source 源，需要压缩的时候，关闭写入数据的开关，从而达到 flink写数据无提交，直到压缩任务完成，再把开发打开，优点：官方提供的spark 压缩api，效果好，资源复用，并发高，2.Flink采集入湖，Spark小文件合并压缩，如果flink 提交快照时，与压缩任务提前的冲突，会导致压缩提交失败，Flink采集周期短，压缩时间长，这个问题会非常明显，几乎不可用，时间长了，最终雪崩。参考 src/main/java/task/SparkSqlSumit。

2024-06-27 17:02:16 559

原创 doris 编译环境准备

目前测试的docker的方式 2.0.3的方式打包成功，docker image 和 github 分支都是2.0.3 的版本最终打包成功。master 分支使用 apache/doris:build-env-ldb-toolchain-latest docker image。# 提前在 host 主机构建 maven 的 .m2 目录，以便将下载的 Java 库可以多次在 Docker 复用。# 虽然只打算编译某个模块，还是会先安装环境的，估计使用doker是首选，比较干净。

2024-05-20 15:30:30 277 1

原创 drois开窗累计和计算

技术方案使用flink加工流式数据，如果采用按累计开窗，会对状态使用内存占比高，控制整点小时触发，但是不建议使用，可以使用按小时分段计算的方式，累计值使用开窗函数进行聚合，sink表为mysql8,可以跳转，如果是mysq5.7,就菜B了，不过还有一种方式，那就是sink换成 doris，也能有效的支持这种场景，下面是示例，doris 做实时查询的并发后续待验证。`dt` INT(10) NOT NULL COMMENT "日期",`h` INT(10) NOT NULL COMMENT "时间段",

2024-01-12 15:21:35 727 2

原创 flink1.16 系统集成了 sql gateway 功能

# flink1.16 系统集成了 sql gateway 功能，其中包括两种方式，1. rest 2.hiveserver2# 测试 read write. hive iceberg 都可以

2023-02-20 16:55:35 745

原创 linux 守护进程 keepAlive

常用的 supervisord daemontools 的方式管理

2022-10-18 14:43:23 585

原创 spark操作iceberg表与hive表 join 示例

spark操作iceberg表与hive表 join 示例

2022-09-08 10:56:42 1003 1

原创 flink 消费 kafka offset 自动提交

flink 消费kafka 程序重启后，从原先的自动提交的点继续消费，earliest 不用再从开始消费如果开启了checkpoint 以 checkpoint为准，enable.auto.commit 失效，如果没有开启，则以enable.auto.commit 为准

2022-06-29 17:27:33 3506

原创 flink 本地调试连接远程hive-java-scala两个版本的

flink 本地环境调试，连接远程的hive 。hive-site.xml

2022-06-22 16:05:29 673

原创 iceberg flink upsert 流式数据入湖

iceberg flink upsert 流式数据入湖

2022-05-10 10:23:25 1263

原创 iceberg - checklist 清单

iceberg 调研

2022-05-09 15:04:42 911

原创 spark 处理流入数据入湖

spark 处理流入数据入湖

2022-05-09 14:52:19 921

原创 spark 流读iceberg v1 表

spark 流读iceberg v1 表

2022-04-28 11:09:44 1019 2

原创 2021-03-15 scala map 小括号与大括号

spark编程的时候的时候看到这样的一个用法：作为接触scala两天半的我有些看不明白了。好一番搜索看到这样的答案：下面的问题，表面上看是小括号与花括号的问题。// map方法这样写不能编译通过scala> List(2).map( case 2 => "OK" )// 换做花括号就可以了scala> List(2).map{ case 2 => "OK" }不了解原因的话，觉得很诡异。分析一下，首先，map方法接受一个函数，这个函数将List中的

2021-03-15 18:22:24 482

原创 2021-02-25 hadoop2.x 与3.x 端口对比

2021-02-25 19:13:52 192

原创 2021-02-25 数仓项目的搭建方向

数仓的搭建方向1.搭建 hadoop 集群 jdk之上2.配置 namenode datanoode resourcenode secondnode yarn 调度3.安装 mysql flume sqoop zk Kafka hivespark on hive4.导入日志、导入 db 数据，使用 hive 外链表格式化导入到 hadoop 分层 ods dwd dws dwt ads5.Azkaban 管理导入数据的脚本文件及调度6.Superset 可视化展示7.Pres...

2021-02-25 19:11:35 100

原创 2021-01-28 Hive 常用函数

常用日期函数unix_timestamp:返回当前或指定时间的时间戳 select unix_timestamp();select unix_timestamp("2020-10-28",'yyyy-MM-dd');from_unixtime：将时间戳转为日期格式select from_unixtime(1603843200);current_date：当前日期select current_date;current_timestamp：当前的日期加时间select curren...

2021-01-28 19:36:34 391

原创 2021-01-20 hadoop 常用的端口汇总

1.系统8080，80 用于tomcat和apache的端口。22 ssh的端口2.Web UI用于访问和监控Hadoop系统运行状态Daemon 缺省端口配置参数 HDFS Namenode 50070 dfs.http.address Datanodes 50075 dfs.datanode.http.address Secondarynamenode 50090 dfs.secondary.http.address

2021-01-20 10:36:59 388

原创 2021-01-18 HDFS MapReduce 运动准备工作

HDFS MapReduce发现使用docker 也能很方便的解决虚拟机的问题1.启动集群 namenode 、 datanode端口：500702.启动Yarn 运行 MapReduceresourcemangernodemangeryarn 端口：80883.历史服务器内部端口：10020 web端口： 19888historyserver4.启动hdfs 的服务core-site.xmlhdfs-site.xmlyarn 的...

2021-01-18 16:17:40 74

原创 2021-01-15 hadoop HDFS 准备工作-docker 建立环境

hadoop HDFS原理架构模式为 master/slaveHDFS/Yarn/HBasemaster --> NameNode --> namespaceslave --> DataNode --> block 默认 128M 默认3个备份docker hadoop 分布式搭建环境https://blog.csdn.net/k393393/article/details/91410409查找一个，个人的镜像，有条件的话可以自己搭建，用doc...

2021-01-15 18:34:47 151

原创 2021-01-15 hadoop 框架和hadoop 生态圈的概念梳理

hadoop 框架HDFS 分布式文件系统 MapReduce 海量计算数据 ShuffleYarn 运算资源调度框架hadoop 生态圈Flume 数据采集工具Hue 交互组件通过这个页面，方便交互式操作、集成平台需要的其他软件Hive 基于大数据技术（文件系统+运算框架）的SQL数据仓库工具 sql语句转化成了 MapReduce 程序来操作HDFS当中的数据进行相关的计算分析Impala sql语义级查询，基Hive 完成数据的快速查询分析HB...

2021-01-15 14:11:51 213

celltobig的专栏