北念不是光头-CSDN博客

原创急速 idea配置spark开发环境

spark用2.12 版本3.0.1（适配linux本地部署）添加csala模块使得新建时候出现scala类文件。4、项目模块添加scala模块。到这里开发环境就已经配置完成。下载idea可以用最新版。6、新建object文件。1、新建java项目。2、jdk选择1.8。7、简单运行打印结果。

2026-02-03 10:57:32 49

原创 dolphinscheduler 实践调度项目

把源数据从关系型数据库通过shell脚本封装sqoop抽取到hive中。抽取脚本抽取数据时候sqoop需要调用sqoop绝对路径。项目简介：计算客户存款、取款、转账等数据。和数据抽取项目前期准备相同。注意环境变量的使用方式。数据导出到mysql。

2026-01-30 00:25:29 48

原创 Apache DolphinScheduler：深入了解大数据调度工具

都会遍历所有的 worker，使其 current\_weight+weight，同时累加所有 worker 的 weight，计为 total\_weight，然后挑选 current\_weight 最大的作为本次执行任务的 worker，与此同时，将这台 worker 的 current\_weight-total\_weight。在这种架构下，集群中的管理者是被动态选择出来的，而不是预置的，并且集群在发生故障的时候，集群的节点会自发的举行"会议"来选举新的"管理者"去主持工作。

2026-01-26 17:45:00 912

原创 kafuka的使用

未来，Kafka 将继续向无 Zookeeper 架构（KRaft）演进，进一步提升性能和稳定性，同时与流处理框架（如 Kafka Streams、Flink）的集成会更加紧密。zookeeper.connect 设为所有 Zookeeper 节点地址（如 192.168.1.101:2181,192.168.1.102:2181,192.168.1.103:2181）。分区（Partition）：主题的最小存储单元，每个主题可划分为多个分区，分区内的消息按写入顺序存储（类似日志文件）。

2026-01-23 14:54:56 1003

原创 python 中实现连接hive数据库

【代码】python 中实现连接hive数据库。

2026-01-21 17:58:34 250

原创在hive中实现拉链表的更新和merge into

Hive中实现拉链表更新和模拟MERGE INTO操作的方法摘要：拉链表通过记录生效时间（start_date）和失效时间（end_date）来存储历史数据。更新步骤包括：1）关闭旧记录，将增量数据对应记录的end_date设为update_time-1；2）插入新记录，设置start_date为update_time，end_date为9999-12-31。对于不支持MERGE INTO的Hive，可通过创建临时表实现类似功能：1）将需要更新的数据插入临时表；2）保留原始表中不存在的记录（可选）；3）用

2026-01-06 19:51:27 681

BeiNianwansui的博客

原创急速 idea配置spark开发环境

原创 dolphinscheduler 实践调度项目

原创 Apache DolphinScheduler：深入了解大数据调度工具

原创 kafuka的使用

原创 python 中实现连接hive数据库

原创在hive中实现拉链表的更新和merge into

原创数据抽取银行小项目练习

原创 linux数据到hive的脚本练习

原创 sqoop抽取mysql数据到hive数据库中

原创数据倾斜的处理

空空如也

空空如也