自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 急速 idea配置spark开发环境

spark用2.12 版本3.0.1(适配linux本地部署)添加csala模块使得新建时候出现scala类文件。4、项目模块添加scala模块。到这里开发环境就已经配置完成。下载idea可以用最新版。6、新建object文件。1、新建java项目。2、jdk选择1.8。7、简单运行打印结果。

2026-02-03 10:57:32 49

原创 dolphinscheduler 实践调度项目

把源数据从关系型数据库通过shell脚本封装sqoop抽取到hive中。抽取脚本 抽取数据时候sqoop需要调用sqoop绝对路径。项目简介:计算客户存款、取款、转账等数据。和数据抽取项目前期准备相同。注意环境变量的使用方式。数据导出到mysql。

2026-01-30 00:25:29 48

原创 Apache DolphinScheduler:深入了解大数据调度工具

都会遍历所有的 worker,使其 current\_weight+weight,同时累加所有 worker 的 weight,计为 total\_weight,然后挑选 current\_weight 最大的作为本次执行任务的 worker,与此同时,将这台 worker 的 current\_weight-total\_weight。在这种架构下,集群中的管理者是被动态选择出来的,而不是预置的,并且集群在发生故障的时候,集群的节点会自发的举行"会议"来选举新的"管理者"去主持工作。

2026-01-26 17:45:00 912

原创 kafuka的使用

未来,Kafka 将继续向无 Zookeeper 架构(KRaft)演进,进一步提升性能和稳定性,同时与流处理框架(如 Kafka Streams、Flink)的集成会更加紧密。zookeeper.connect 设为所有 Zookeeper 节点地址(如 192.168.1.101:2181,192.168.1.102:2181,192.168.1.103:2181)​。分区(Partition):主题的最小存储单元,每个主题可划分为多个分区,分区内的消息按写入顺序存储(类似日志文件)。

2026-01-23 14:54:56 1003

原创 python 中实现连接hive数据库

【代码】python 中实现连接hive数据库。

2026-01-21 17:58:34 250

原创 在hive中实现拉链表的更新和merge into

Hive中实现拉链表更新和模拟MERGE INTO操作的方法摘要: 拉链表通过记录生效时间(start_date)和失效时间(end_date)来存储历史数据。更新步骤包括:1)关闭旧记录,将增量数据对应记录的end_date设为update_time-1;2)插入新记录,设置start_date为update_time,end_date为9999-12-31。对于不支持MERGE INTO的Hive,可通过创建临时表实现类似功能:1)将需要更新的数据插入临时表;2)保留原始表中不存在的记录(可选);3)用

2026-01-06 19:51:27 681

原创 数据抽取 银行小项目练习

本文介绍了一个银行客户交易数据分析项目的数据处理流程。项目从MySQL关系型数据库抽取客户存款、取款、转账等交易数据,通过Sqoop工具导入Hive数据仓库,经过三层架构处理:ODS层存储原始数据,DW层进行数据清洗(去除异常字符、空值等),DM层完成指标计算(如各机构不同交易类型的金额汇总)。最终将计算结果通过Sqoop导回MySQL,形成机构维度的交易统计报表。整个流程采用Shell脚本实现自动化,包含建表、数据抽取、清洗转换、计算分析和结果导出等完整ETL环节。

2026-01-03 10:18:09 302

原创 linux数据到hive的脚本练习

项目说明1.写shell脚本把ods,dw,dm层的建表语句进行封装2.在Linux端准备源数据,使用shell脚本把数据导入到ods客户基表、dw产品码表、dw地址码表3.进行数据的清洗,把ods层的客户基表通过sql的正则进行清洗之后把数据从ods层抽取dw层4.计算各地区各产品指标销售总额s_amt 按产品和地区分组sum(txt_amt)排名:根据计算的s_amt,按照地区开窗分组进行排名

2026-01-02 19:06:16 204

原创 sqoop抽取mysql数据到hive数据库中

本文介绍了Sqoop工具的安装配置过程:首先解压Sqoop安装包并配置环境变量,更新PATH路径;然后复制并修改配置文件模板,设置Hadoop和Hive路径;接着添加MySQL和Oracle的JDBC驱动到lib目录;最后通过执行sqoop help命令验证安装是否成功。整个过程涵盖了Sqoop部署的关键步骤,包括环境配置、驱动添加和安装验证。

2025-12-31 13:56:45 266

原创 数据倾斜的处理

本文目录:一、调优概述二、数据倾斜发生时的现象三、数据倾斜发生的原理四、如何定位导致数据倾斜的代码五、某个task执行特别慢的情况六、某个task莫名其妙内存溢出的情况七、查看导致数据倾斜的key的数据分布情况八、数据倾斜的解决方案:解决方案一:使用 Hive ETL 预处理数据解决方案二:过滤少数导致倾斜的key解决方案三:提高shuffle操作的并行度解决方案四:两阶段聚合(局部聚合+全局聚合)解决方案五:将reduce join转为map join解决方案六:采样倾斜key并分

2025-12-31 09:44:50 347

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除