自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(24)
  • 资源 (2)
  • 收藏
  • 关注

原创 doris-2.1.4 本地部署

doris-2.1.4 本地部署

2024-07-22 09:53:32 462

原创 flinkSQL数据去重

结论:flinkSQL 流式数据去重,与批式逻辑一致。-- flinkSQL数据去重。-- kafka 数据准备。

2024-07-12 09:55:20 392

原创 hive meta 修复

如果出现锁表,或者 iceberg 表删除没有删干净,是由于hive 里面有还有元数据导致的,下面是删除元数据的的操作步骤 ,手动处理。TABLE_PARAMS 表属性存储。SERDES 表的format存储。SDS hdfs表库表位置存储。COLUMNS_V2 表字段存储。DBS hdfs表位置存储。TBLS 库表名 存储。CDS 表id 存储。

2024-07-11 14:26:14 401

原创 一起学AI,AIGC心行动

bge模型的微调 ​微调脚本:https://github.com/FlagOpen/FlagEmbedding/tree/master/examples/finetune。1.MTEB、C-MTEB github地址 https://github.com/embeddings-benchmark/mteb#leaderboard。github地址 https://github.com/FlagOpen/FlagEmbedding/blob/master/README_zh.md。0.会、能、安全上网。

2024-07-11 14:16:39 298

原创 Flink 入湖,spark 压缩合并 iceberg 小文件 方案

解决方案2:自定义flink kafka source 源,需要压缩的时候,关闭写入数据的开关,从而达到 flink写数据无提交,直到压缩任务完成,再把开发打开,优点:官方提供的spark 压缩api,效果好,资源复用,并发高,2.Flink采集入湖,Spark小文件合并压缩,如果flink 提交快照时,与压缩任务提前的冲突,会导致压缩提交失败,Flink采集周期短,压缩时间长,这个问题会非常明显,几乎不可用,时间长了,最终雪崩。参考 src/main/java/task/SparkSqlSumit。

2024-06-27 17:02:16 403

原创 doris 编译环境准备

目前测试的docker的方式 2.0.3的方式 打包成功,docker image 和 github 分支 都是2.0.3 的版本 最终打包成功。master 分支 使用 apache/doris:build-env-ldb-toolchain-latest docker image。# 提前在 host 主机构建 maven 的 .m2 目录,以便将下载的 Java 库可以多次在 Docker 复用。# 虽然只打算编译某个模块 ,还是会先安装环境的,估计使用doker是首选,比较干净。

2024-05-20 15:30:30 236 1

原创 drois开窗累计和计算

技术方案使用flink加工流式数据,如果采用按累计开窗,会对状态使用内存占比高,控制整点小时触发,但是不建议使用,可以使用按小时分段计算的方式,累计值 使用开窗函数进行聚合,sink表为mysql8,可以跳转,如果是mysq5.7,就菜B了,不过还有一种方式,那就是sink换成 doris,也能有效的支持这种场景,下面是示例,doris 做实时查询的并发后续待验证。`dt` INT(10) NOT NULL COMMENT "日期",`h` INT(10) NOT NULL COMMENT "时间段",

2024-01-12 15:21:35 612 2

原创 flink1.16 系统集成了 sql gateway 功能

# flink1.16 系统集成了 sql gateway 功能,其中包括两种方式,1. rest 2.hiveserver2# 测试 read write. hive iceberg 都可以

2023-02-20 16:55:35 709

原创 linux 守护进程 keepAlive

常用的 supervisord daemontools 的方式管理

2022-10-18 14:43:23 560

原创 spark操作iceberg表与hive表 join 示例

spark操作iceberg表与hive表 join 示例

2022-09-08 10:56:42 969 1

原创 flink 消费 kafka offset 自动提交

flink 消费kafka 程序重启后,从原先的自动提交的点继续消费,earliest 不用再从开始消费如果开启了checkpoint 以 checkpoint为准 ,enable.auto.commit 失效,如果没有开启,则以enable.auto.commit 为准

2022-06-29 17:27:33 3365

原创 flink 本地调试连接远程hive-java-scala两个版本的

flink 本地环境调试,连接远程的hive 。hive-site.xml

2022-06-22 16:05:29 657

原创 iceberg flink upsert 流式数据入湖

iceberg flink upsert 流式数据入湖

2022-05-10 10:23:25 1231

原创 iceberg - checklist 清单

iceberg 调研

2022-05-09 15:04:42 899

原创 spark 处理流入数据入湖

spark 处理流入数据入湖

2022-05-09 14:52:19 897

原创 spark 流读iceberg v1 表

spark 流读iceberg v1 表

2022-04-28 11:09:44 959 2

原创 2021-03-15 scala map 小括号与大括号

spark编程的时候的时候看到这样的一个用法:作为接触scala两天半的我有些看不明白了。好一番搜索看到这样的答案:下面的问题,表面上看是小括号与花括号的问题。// map方法这样写不能编译通过scala> List(2).map( case 2 => "OK" )// 换做花括号就可以了scala> List(2).map{ case 2 => "OK" }不了解原因的话,觉得很诡异。分析一下,首先,map方法接受一个函数,这个函数将List中的

2021-03-15 18:22:24 470

原创 2021-02-25 hadoop2.x 与3.x 端口对比

2021-02-25 19:13:52 179

原创 2021-02-25 数仓项目的搭建方向

数仓的搭建方向1.搭建 hadoop 集群 jdk之上2.配置 namenode datanoode resourcenode secondnode yarn 调度3.安装 mysql flume sqoop zk Kafka hivespark on hive4.导入 日志 、导入 db 数据, 使用 hive 外链表 格式化导入到 hadoop 分层 ods dwd dws dwt ads5.Azkaban 管理导入数据的脚本文件及调度6.Superset 可视化展示7.Pres...

2021-02-25 19:11:35 94

原创 2021-01-28 Hive 常用函数

常用日期函数unix_timestamp:返回当前或指定时间的时间戳 select unix_timestamp();select unix_timestamp("2020-10-28",'yyyy-MM-dd');from_unixtime:将时间戳转为日期格式select from_unixtime(1603843200);current_date:当前日期select current_date;current_timestamp:当前的日期加时间select curren...

2021-01-28 19:36:34 379

原创 2021-01-20 hadoop 常用的端口汇总

1.系统8080,80 用于tomcat和apache的端口。22 ssh的端口2.Web UI用于访问和监控Hadoop系统运行状态Daemon 缺省端口 配置参数 HDFS Namenode 50070 dfs.http.address Datanodes 50075 dfs.datanode.http.address Secondarynamenode 50090 dfs.secondary.http.address

2021-01-20 10:36:59 373

原创 2021-01-18 HDFS MapReduce  运动准备工作

HDFS MapReduce发现使用docker 也能很方便的解决虚拟机的问题1.启动集群 namenode 、 datanode端口:500702.启动Yarn 运行 MapReduceresourcemangernodemangeryarn 端口:80883.历史服务器 内部端口:10020 web端口: 19888historyserver4.启动hdfs 的服务core-site.xmlhdfs-site.xmlyarn 的...

2021-01-18 16:17:40 68

原创 2021-01-15 hadoop HDFS 准备工作-docker 建立环境

hadoop HDFS原理架构模式为 master/slaveHDFS/Yarn/HBasemaster --> NameNode --> namespaceslave --> DataNode --> block 默认 128M 默认3个备份docker hadoop 分布式搭建环境https://blog.csdn.net/k393393/article/details/91410409查找一个,个人的镜像,有条件的话可以自己搭建,用doc...

2021-01-15 18:34:47 144

原创 2021-01-15 hadoop 框架和hadoop 生态圈的概念梳理

hadoop 框架HDFS 分布式文件系统 MapReduce 海量计算数据 ShuffleYarn 运算资源调度框架hadoop 生态圈Flume 数据采集工具Hue 交互组件 通过这个页面,方便交互式操作、集成平台需要的其他软件Hive 基于大数据技术(文件系统+运算框架) 的SQL数据仓库工具 sql语句 转化成了 MapReduce 程序来操作HDFS当中的数据进行相关的计算分析Impala sql语义级查询,基Hive 完成数据的快速查询分析HB...

2021-01-15 14:11:51 206

Hibernate开发包

Hibernate开发包

2012-10-26

GVIM编辑工具

gvim编程工具

2012-09-26

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除