自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(24)
  • 收藏
  • 关注

原创 21-学习笔记尚硅谷数仓搭建-数据仓库模拟数据生成

本文详细介绍了大数据环境下模拟数据的生成与同步流程。首先说明了数据模拟要求:需要生成2022-06-04至2022-06-08的业务数据,其中2022-06-08还需包含日志数据。具体步骤包括:1)启动HDFS服务并清理历史数据;2)通过修改配置文件逐日生成模拟数据;3)将全量数据同步到HDFS;4)清除Maxwell断点记录后启动增量同步。最终在HDFS上形成30张表(17张全量表+13张增量表),并提供了数据查看方法。整个过程注重数据校验,确保生成的数据符合业务场景需求。

2026-01-25 08:43:11 455

原创 20-学习笔记尚硅谷数仓搭建-数据仓库开发环境搭建-hive连接DataGrip

本文详细介绍了使用DataGrip连接Hive的完整流程:1)下载安装最新版DataGrip并配置非商业许可证;2)启动HDFS和HiveServer2服务;3)创建项目并配置Hive数据源连接;4)新建数据库操作。同时提供了常见问题解决方案:注释乱码处理、索引报错忽略、内存溢出调整(修改hive-env.sh配置HADOOP_HEAPSIZE)、JSON表字段显示异常(修改hive-site.xml添加SerDe配置)。最后强调重启服务后需测试连接验证。所有操作默认在atguigu用户下执行。

2026-01-25 08:42:56 595

原创 19-学习笔记尚硅谷数仓搭建-数据仓库运行环境搭建(spark安装及配置)

摘要:本文详细记录了Spark安装配置过程,包括:1)在hadoop102节点解压安装Spark3.3.1并配置环境变量;2)上传Spark jar包到HDFS并修改hive-site.xml配置Spark执行引擎;3)通过创建测试表验证安装成功;4)优化YARN资源调度配置(capacity-scheduler.xml)提升数据插入性能。关键步骤包含环境变量设置、HDFS目录创建、配置文件修改及YARN重启等操作,最终实现Spark与Hive集成并完成性能调优。

2026-01-24 08:56:00 836

原创 18-学习笔记尚硅谷数仓搭建-数据仓库运行环境搭建(hive的安装及配置)

本文详细介绍了Hive的安装部署及元数据配置到MySQL的过程。主要包括:1)在hadoop102节点上解压Hive安装包、配置环境变量和解决日志冲突;2)将MySQL驱动拷贝到Hive目录,配置hive-site.xml文件连接MySQL元数据库;3)初始化元数据库、修改字符集后启动HDFS和Hive客户端。通过执行show databases命令验证安装是否成功。整个流程涵盖了从软件安装到元数据配置的关键步骤,为后续使用Hive进行大数据处理奠定了基础。

2026-01-24 08:55:44 280

原创 Python计算机能力挑战赛编程技巧与数据类型全解析(40种常见新手可能易错点、难理解内容)

本文总结了Python编程中的关键知识点:1. 复数运算与数字类型转换规则;2. 字符串、列表、元组等序列类型的操作技巧;3. 字典和集合的特殊用法;4. 常用内置函数(zip/map/filter/reduce等)的使用方法;5. 装饰器、生成器、迭代器等高级特性;6. 类与对象的基本概念;7. 常见算法的实现策略。涵盖了数据类型处理、控制流、函数式编程、面向对象编程等核心内容,并提供了典型场景下的代码示例,可作为Python编程的快速参考指南。

2026-01-23 18:20:06 1345

原创 17-学习笔记尚硅谷数仓搭建-ER模型和维度模型的概念以及数据仓库为什么选择维度模型

摘要:数据建模是信息系统的核心设计环节,ER模型与维度模型分别适用于不同场景。ER模型通过实体、属性和联系实现高度规范化设计,采用范式理论消除冗余,适用于事务处理系统;维度模型则以事实表和维度表构成星型结构,通过反规范化提升分析性能,是数据仓库的理想选择。两种模型在数据结构、冗余处理和应用目标上存在显著差异:ER模型优先保证数据一致性,维度模型侧重查询效率与业务可理解性。实际应用中,二者形成互补关系,共同支撑从业务操作到决策分析的数据价值链。

2026-01-23 17:01:11 757

原创 16-学习笔记尚硅谷数仓搭建-数据仓库概念及内部分层结构

数据仓库是专门用于数据分析决策的"数据图书馆",它将各业务系统的数据进行收集、清洗和整合。典型的分层结构包括:ODS层(原始数据)、DWD层(数据清洗标准化)、DWS层(主题汇总)、ADS层(应用数据)和DIM层(公共维度)。与数据库相比,数据仓库更侧重历史数据分析而非实时业务处理,采用反范式设计面向主题,适合复杂查询和大数据量分析。整个过程如同从原料加工到成品上菜的流水线,最终服务于企业决策分析需求。

2026-01-21 22:26:20 964

原创 数据清洗:6步搞定数据预处理

本文摘要:数据清洗是数据分析的重要环节,主要包括六个步骤:1)处理缺失值(识别、删除或填充);2)处理重复值(识别并删除);3)处理异常值(通过统计方法或可视化识别并处理);4)数据类型转换与标准化(包括日期格式统一);5)数据分列与合并;6)数据转换与映射(重命名列、值替换)。文中详细介绍了各种方法的Python实现代码,包括pandas和numpy库的使用技巧,并提供了正态性检验等统计方法。通过系统化的数据清洗流程,可显著提升数据质量,为后续分析奠定基础。

2026-01-20 19:04:17 933

原创 15-学习笔记尚硅谷数仓搭建-整个数仓项目的采集流程总结

本文介绍了大数据采集项目的完整流程,包含三条数据采集线路:1)用户行为日志数据通过Flume采集到Kafka再存入HDFS;2)MySQL全量业务数据通过DataX同步到HDFS;3)MySQL增量数据通过Maxwell捕获binlog写入Kafka再通过Flume存入HDFS。详细阐述了Flume、Kafka、DataX和Maxwell等核心组件的架构原理、关键特性及在项目中的具体配置实现。项目采用模块化设计,为后续构建离线数仓和实时数仓提供了完整的数据采集解决方案。

2026-01-19 11:37:11 1513

原创 14-学习笔记尚硅谷数仓搭建-通过flume将Kafka中增量数据同步到HDFS脚本实现及整个采集项目脚本

本文详细介绍了使用Flume将Kafka中的业务数据同步到HDFS的完整配置流程。主要内容包括:1) 编写Flume配置文件,配置Kafka Source和HDFS Sink;2) 开发自定义拦截器处理时间戳和表名;3) 编写Flume启停脚本;4) 配置Maxwell实现增量数据同步;5) 实现首日全量数据同步;6) 创建集群服务管理脚本。通过这套方案,可以构建一个完整的数据采集管道,将MySQL业务数据通过Maxwell、Kafka、Flume最终存储到HDFS中,为后续数据处理提供基础。

2026-01-18 10:16:06 1177

原创 13-学习笔记尚硅谷数仓搭建-DataX安装部署以及将MySQL的全量数据同步到HDFS脚本实现

本文详细介绍了使用DataX将MySQL数据同步到HDFS的全流程。主要内容包括:1)DataX安装步骤和解压验证;2)通过配置生成器自动创建JSON配置文件;3)测试单个表同步并验证数据;4)编写批量同步脚本实现全量数据迁移。关键步骤涉及HDFS目录创建、JSON文件配置检查以及通过脚本实现多表批量同步。操作均在hadoop102节点执行,最终数据会按日期分区存储在HDFS指定路径下。整个过程涵盖了从环境准备到自动化执行的完整数据同步解决方案。

2026-01-18 10:15:29 556

原创 12-学习笔记尚硅谷数仓搭建-将Kafka中的日志数据同步到Hadoop集群的HDFS分布式文件系统的flume配置

本文介绍了将Kafka数据同步到HDFS的完整配置流程:1)配置Flume作业文件,定义Kafka Source、File Channel和HDFS Sink组件;2)解决日志数据零点漂移问题,通过拦截器修正时间戳;3)详细说明了自定义TimestampInterceptor拦截器的开发过程,包括Maven配置和核心代码实现;4)提供Flume启动/停止脚本;5)部署流程包括jar包放置、服务启动和数据验证。重点解决了日志时间戳漂移问题,确保数据按实际生成时间正确分区存储到HDFS。

2026-01-17 09:56:03 1000

原创 11-学习笔记尚硅谷数仓搭建-Maxwell实时流单个表全量数据同步到Kafka

本文介绍了大数据项目中数据同步的操作流程:首先通过xcalljps命令检查服务进程,若无则使用zk.sh等脚本启动相关服务;其次详细说明了历史数据全量同步的概念和操作步骤,以activity_info表为例演示了使用Maxwell将MySQL初始数据同步到Kafka的过程,并解释了Kafka中数据条目多于源数据库的原因(包含界定全量数据的标志记录)。该同步机制既能保证Kafka拥有完整历史数据,又能持续获取实时变更数据,同时优化内存使用。

2026-01-17 09:55:50 573

原创 10-学习笔记尚硅谷数仓搭建-Maxwell安装、相关配置及启动脚本,最后将增量数据(实时数据)通过Maxwell上传到Kafka

本文介绍了使用Maxwell实时捕获MySQL数据变更并发送到Kafka的完整流程。主要内容包括:1)在/opt/module目录安装配置Maxwell;2)修改MySQL配置开启binlog日志;3)创建Maxwell专用数据库和用户;4)配置Maxwell连接Kafka集群和指定topic;5)编写启停脚本管理Maxwell服务;6)通过生成模拟数据验证功能,成功在Kafka中查看到MySQL变更的JSON数据。整个过程实现了MySQL数据变更的实时捕获和传输,为后续数据处理提供了基础。

2026-01-16 10:04:08 776

原创 09-学习笔记尚硅谷数仓搭建-安装MySQL及远程工具连接(navicat)

本文介绍了MySQL的安装配置及远程连接过程。首先在/opt/software/mysql目录下执行安装脚本,root和atguigu用户密码均为000000。安装完成后需验证root用户的plugin是否为mysql_native_password,否则需修改配置。远程连接使用Navicat工具,配置主机、端口和密码后,导入gmall.sql文件创建数据库和表。若导入后未显示表,建议重新连接Navicat查看。整个流程包含MySQL安装、权限配置、远程连接测试和数据库初始化等关键步骤。

2026-01-16 10:03:47 506

原创 08-学习笔记尚硅谷数仓搭建-配置flume将日志文件放入Kafka

本文详细介绍了使用Flume采集日志数据并上传至Kafka的完整流程。主要内容包括:1)配置Flume采集文件,设置TAILDIR源和Kafka通道;2)编写Flume启动/停止脚本;3)启动Zookeeper和Kafka服务后执行日志采集;4)通过命令行或KafkaTool工具验证数据采集情况。文中提供了具体配置参数和操作命令,重点说明了如何解决KafkaTool中数据显示为16进制的问题,通过修改显示格式为String或JSON可更直观查看日志数据。

2026-01-15 09:30:00 798

原创 07-学习笔记尚硅谷数仓搭建-安装flume及配置

本文介绍了Flume的安装和配置过程。首先将Flume安装包解压到/opt/module目录并重命名。然后配置log4j2.xml文件,修改日志目录为/opt/module/flume/log,并添加控制台输出功能以便查看报错信息。配置内容包括设置日志轮转策略(100MB或每天轮转)、日志保留策略(最多20个文件,总大小不超过1GB)以及不同组件的日志级别设置。所有操作只需在hadoop102节点上执行。

2026-01-15 09:00:00 435

原创 06-学习笔记尚硅谷数仓搭建-使用Kafka tool工具在windows上查看

本文介绍了搭建Hadoop集群环境的步骤:1)通过ipaddr和hostname命令查看3台主机的IP和主机名;2)在Windows系统hosts文件中添加集群IP与主机名映射;3)下载并安装KafkaTool工具进行连接测试。操作包括修改系统文件、配置网络映射和工具安装,为后续Hadoop集群搭建提供基础环境准备。

2026-01-14 00:54:20 236

原创 05-学习笔记尚硅谷数仓搭建-Kafka安装配置及群体启动脚本

本文详细介绍了Kafka的安装配置和集群管理流程。主要内容包括:1) Kafka安装步骤和解压配置;2) 修改server.properties关键配置项(broker.id、监听地址、日志目录等);3) 配置环境变量并分发到集群节点;4) 启动Kafka服务及注意事项;5) 编写集群管理脚本实现一键启停。特别强调Kafka依赖Zookeeper服务,启动前需确保Zookeeper已运行,并建议间隔10秒检查Kafka进程状态以避免异常情况。文档提供了完整的配置示例和脚本代码,适合用于搭建生产环境下的Kaf

2026-01-14 00:26:36 898

原创 04-学习笔记尚硅谷数仓搭建-zookeeper安装配置及群起脚本

本文介绍了Zookeeper集群的安装配置过程:1)下载安装包并解压到指定目录;2)创建zkData目录并配置myid文件;3)修改zoo.cfg配置文件,设置集群节点信息;4)分发配置到其他节点并修改对应的myid值;5)分别启动各节点服务;6)编写群起脚本实现集群的统一启动、停止和状态查看。文中详细说明了配置文件修改内容,包括dataDir路径设置和集群server配置,并提供了完整的操作命令流程。

2026-01-13 22:13:23 362

原创 03-学习笔记尚硅谷数仓搭建-Hadoop安装配置及集群启动脚本

本文详细介绍了Hadoop集群的安装配置与启动流程:1.首先创建xcall脚本实现多主机命令同步执行;2.完成Hadoop软件安装和环境变量配置;3.详细配置core-site.xml、hdfs-site.xml、yarn-site.xml和mapred-site.xml等核心文件;4.说明集群启动步骤,包括NameNode格式化、HDFS和YARN服务启动;5.提供集群管理脚本hdp.sh实现一键启停功能。文档包含完整的配置文件示例和脚本代码,涵盖了Hadoop3.3.4版本的主要配置项和集群管理方法。

2026-01-13 02:32:51 1028

原创 02-学习笔记尚硅谷数仓搭建-模拟日志数据生成

本文介绍了在Hadoop环境中部署Java日志生成程序并创建自动化脚本的过程。首先在hadoop102主机创建目录并上传Java程序及相关配置文件,通过命令行运行程序生成测试日志数据。然后编写lg.sh脚本实现自动化操作,包括SSH连接和执行Java程序,并通过修改权限和创建软连接使脚本可在任意位置执行。脚本运行后会在指定目录生成模拟日志文件app.log。该方案简化了日志数据生成流程,便于后续测试使用。

2026-01-12 23:40:37 430

原创 01-学习笔记尚硅谷数仓搭建-基础Linux环境搭建(使用3台主机模拟Hadoop集群)

本文详细介绍了Hadoop集群环境的搭建过程。首先通过宿主机克隆3台虚拟机,修改网络配置并设置主机名;接着配置集群分发脚本xsync实现文件同步;然后设置三台主机间的SSH免密登录;最后完成JDK的安装与环境配置,并通过分发脚本将JDK同步到所有节点。整个过程包括:网络设置(IP地址、主机名修改)、集群分发脚本配置、SSH免密登录设置以及JDK安装和环境变量配置等关键步骤,为后续Hadoop集群部署奠定了基础。所有操作均通过命令行完成,并配有详细的操作说明和验证方法。

2026-01-12 22:41:45 1196 2

原创 实用工具1------百度网盘提速下载(简单)

本文介绍了使用Motrix下载器解析网盘文件的详细步骤:1.访问指定网站并下载Motrix下载器;2.设置下载器参数(保存路径、监听端口16800);3.在网站输入网盘链接和当日解析密码;4.解析文件后通过Motrix批量下载。该方法可显著提高下载速度,适用于个人或他人分享的网盘文件下载。

2026-01-09 00:03:15 337 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除