- 博客(44)
- 收藏
- 关注
原创 01-从零构建LangChain知识体系通俗易懂!!!
本文以生动比喻系统介绍了LangChain知识体系框架。文章将大模型应用比作森林,LangChain则是导航地图和工具包。内容分为六个层级:1)底层基础(LLM、Prompt、Embedding);2)核心模式RAG(检索增强生成);3)开发框架(组件化设计、LCEL语法);4)高级编排(LangGraph状态图、代理工具);5)服务部署(LangServe API化);6)运维监控(LangSmith全周期管理)。每个概念都配有通俗比喻和专业定义,帮助开发者从零构建LLM应用开发能力,特别强调RAG作为主
2026-02-11 21:59:36
989
原创 39-学习笔记尚硅谷数仓搭建-将ADS层分析好的数据通过DataX传入MySQL
本文详细介绍了数据仓库ADS层数据导出到MySQL的完整流程。首先创建了gmall_report数据库和16张分析表,包括用户行为、订单统计、商品分析等主题。然后配置DataX工具,通过自动生成的配置文件将HDFS上的ADS层数据导出到MySQL。最后提供了批量导出脚本,可一次性完成所有表的数据迁移。整个过程确保数据从ODS层经过DWD、DWS层最终到达ADS层,形成完整的数仓分析链路,为后续数据可视化提供基础。
2026-02-09 22:10:30
435
原创 38-学习笔记尚硅谷数仓搭建-ADS层流量、用户、商品、优惠卷主题建表语句数据装载及ADS层数据装载脚本
本文摘要: 该文档详细记录了电商数据分析系统的ADS层建表和数据装载过程,包含六大主题: 流量分析:渠道流量统计、页面路径分析 用户行为:用户变动、留存率、新增活跃、行为漏斗等 商品分析:品牌复购率、品类订单统计、购物车Top3等 交易分析:支付间隔、省份交易统计 优惠券分析:使用统计 自动化脚本:提供完整的ADS层数据装载Shell脚本 文档采用标准化的Hive建表语句,包含详细字段说明,并通过union方式实现增量数据装载。最后提供了可执行脚本,支持按主题或全量更新数据。所有分析指标均按1/7/30天多
2026-02-09 20:27:55
508
原创 37-学习笔记尚硅谷数仓搭建-ADS层分析并以各品牌商品下单统计为例
本文详细解析了数据仓库ADS层的设计与实现。ADS层作为面向业务应用的最终数据存储层,采用行式存储(TSV)、GZIP压缩和非分区设计,具有直接可用的特点。文章深入分析了品牌商品下单统计表的建表语句、字段设计、数据装载策略和核心SQL实现,重点讲解了UNION去重、LATERAL VIEW EXPLODE炸裂函数等关键技术。在性能优化方面,提出了存储优化和查询技巧建议,并探讨了数据监控维护方案。ADS层设计需兼顾业务友好性、性能、数据一致性和可维护性,是数据仓库实现业务价值的关键环节。
2026-02-08 22:21:42
576
原创 36-学习笔记尚硅谷数仓搭建-DWS层数据装载脚本
本文介绍了数据仓库中三类数据装载脚本的实现方法: 最近一日数据装载脚本: 包含首日初始化脚本和每日增量脚本 处理9个维度表数据,包括交易、用户、流量等指标 支持单表或全量执行模式 最近n日数据装载脚本: 计算30天内和近7天的累计指标 主要处理省份订单和用户SKU订单数据 历史至今数据装载脚本: 包含首日全量装载和每日增量更新 维护用户订单累计和用户登录累计数据 所有脚本均支持日期参数传入,未传入时默认处理前一天数据,并采用分区表存储数据。脚本通过Hive SQL实现ETL过程,包含维度关联、指标计算等操作
2026-02-08 21:41:07
184
原创 35-学习笔记尚硅谷数仓搭建-DWS层最近n日汇总表及历史至今汇总表建表语句
本文介绍了四种数据汇总表的建表语句和数据装载方法:1.交易域用户商品粒度订单n日汇总表,包含7日和30日订单数据统计;2.交易域省份粒度订单n日汇总表,统计各省份7日和30日订单指标;3.交易域用户粒度订单历史至今汇总表,记录用户首次/末次下单日期及累计指标;4.用户域用户粒度登录历史至今汇总表,统计用户首次/末次登录日期及累计登录次数。每类表格均采用ORC存储格式,支持分区管理,并提供了首日和每日数据装载的SQL实现方案。
2026-02-08 21:27:04
203
原创 34-学习笔记尚硅谷数仓搭建-DWS层最近一日汇总表建表语句汇总
本文介绍了电商数据仓库中9个维度汇总表的建表语句和数据装载方法,包括交易域用户商品粒度订单表、用户粒度订单表、用户粒度加购表、用户粒度支付表、省份粒度订单表,工具域用户优惠券使用表,互动域商品收藏表,以及流量域会话和访客页面浏览表。每类表都包含详细的字段说明和分区设计,采用ORC存储格式并启用Snappy压缩。数据装载分为首日全量装载和每日增量装载两种模式,通过关联维度表获取完整信息,同时针对Hive矢量化查询的bug提供了解决方案。这些汇总表为电商数据分析提供了多维度、多层次的统计基础。
2026-02-08 21:18:25
202
原创 33-学习笔记尚硅谷数仓搭建-DWS层交易域用户粒度订单表分析及设计代码
本文详细解析了数据仓库DWS层三种汇总表的核心代码实现:1)最近1日汇总表采用增量更新策略,通过分组聚合计算用户商品粒度指标;2)最近N日汇总表复用1日表数据,通过条件聚合实现7日/30日指标计算;3)历史至今汇总表采用Full Outer Join或Union All两种方式实现增量累加。文章重点剖析了代码中的优化技巧,包括NULL值处理、分区裁剪、矢量化执行等,并对比了不同实现方案的优缺点。这些代码设计体现了数据仓库分层建模的思想,在保证数据准确性的同时提升计算效率。
2026-02-07 23:28:14
905
原创 32-学习笔记尚硅谷数仓搭建-DWD层首日数据装载脚本及每日数据装载脚本
本文介绍了两个Hive数据装载脚本:首日数据装载脚本(ods_to_dwd_init.sh)和每日数据装载脚本(ods_to_dwd.sh)。首日脚本用于初始化装载数据仓库维度表,包含购物车、订单、支付、优惠券、用户行为等多个数据域的SQL语句。每日脚本则用于增量更新这些维度表,处理新增和变更数据。两个脚本都支持按日期参数执行,并可选择单独执行某个表或全部表("all"选项)。脚本使用Hive动态分区模式,包含从ODS层到DWD层的数据转换逻辑,涉及多个表关联和数据处理。执行前需赋予脚本
2026-02-03 22:48:24
198
原创 31-学习笔记尚硅谷数仓搭建-DWD层工具域优惠券使用(支付)、互动域收藏商品、流量域页面浏览、用户域用户注册、用户域用户登录事务事实表建表语句及分析
本文详细介绍了数据仓库DWD层(数据明细层)的多域事务事实表设计,包括优惠券使用、商品收藏、页面浏览、用户注册和登录等核心业务场景。通过分层架构设计(ODS→DWD→DWS→ADS),实现了从原始数据到应用数据的完整流转。重点解析了各事实表的业务价值、数据装载逻辑和典型分析场景,如优惠券核销率分析、用户收藏行为分析、页面流量统计等。同时提供了数据治理方案(一致性检查、血缘分析)和性能优化建议(分区、索引、压缩)。最后总结了在运营分析、用户行为分析、产品优化和商业决策等方面的应用价值,并给出常见问题的解决方案
2026-02-03 22:39:14
784
原创 30-学习笔记尚硅谷数仓搭建-DWD层交易域购物车周期快照事实表及交易域交易流程累积快照事实表建表语句及分析
本文分析了数据仓库中两种典型的事实表设计:1)交易域购物车周期快照事实表(dwd_trade_cart_full),每日全量记录未下单购物车状态,用于分析商品留存率和转化漏斗;2)交易域交易流程累积快照事实表(dwd_trade_trade_flow_acc),跟踪订单全生命周期(下单、支付、完成),采用特殊分区策略(9999-12-31表示进行中订单)。两者在更新频率(每日全量vs事件驱动)、数据粒度(购物车vs订单)和应用场景(转化分析vs流程时效)上形成互补,共同支持用户消费旅程的完整分析。文中详细阐
2026-02-03 22:18:50
669
原创 29-学习笔记尚硅谷数仓搭建-DWD层交易域下单事务事实表和交易域支付成功事务事实表
本文介绍了电商交易域核心事实表的设计实现,包括下单明细表(dwd_trade_order_detail_inc)和支付成功明细表(dwd_trade_pay_detail_suc_inc)。下单表记录SKU级别的订单明细,通过关联4个ODS表获取完整信息;支付表则需关联5个表,并只记录状态为1602的支付成功数据。设计亮点包括:维度退化减少关联、金额分摊便于分析、增量更新提高效率、状态过滤保证质量。支付表采用复杂逻辑处理跨日订单支付场景,确保数据准确性。这两张表为交易分析提供了高质量明细数据,支持下单转化率
2026-02-03 21:55:36
821
原创 28-学习笔记尚硅谷数仓搭建-DWD层交易域加购事务事实表建表语句及详细分析
本文解析了电商数据仓库中加购行为事实表的建表与数据装载逻辑。关键点包括:1)区分date_id(年月日)和create_time(精确时间)两个时间字段,前者用于节假日分析;2)首日全量装载使用create_time,而增量装载采用Maxwell采集的时间戳,因涉及insert和update两种操作;3)增量数据需判断是否为真实加购(sku_num增加),通过比较新旧值并处理类型转换。这些设计确保了加购行为分析的准确性和灵活性,为后续业务决策提供可靠数据支持。
2026-01-31 22:27:21
1152
原创 27-学习笔记尚硅谷数仓搭建-数据仓库DWD层介绍及其事务表(行为)相关概念
DWD层是数据仓库的核心明细层,位于ODS层之后,主要承担数据清洗、维度退化、事实表构建等职责。该层包含三类事实表:事务事实表记录业务事件(如订单支付)、周期快照表定期记录状态(如每日库存)、累积快照表跟踪完整业务流程(如订单全生命周期)。DWD层采用列式存储(Parquet/ORC)、时间分区和字段分桶优化性能,并通过数据域划分实现业务逻辑隔离。最佳实践建议遵循一致性、完整性原则,通过分区策略、索引优化和数据质量保障机制确保高效可靠。DWD层为上层应用提供干净、一致、易用的数据基础,是数据仓库建设的核心环
2026-01-31 20:09:01
942
原创 26-学习笔记尚硅谷数仓搭建-DIM层特殊的维度表——用户维度表的建表、分析及DIM层数据装载脚本
本文详细介绍了用户维度拉链表的设计与实现方案。主要内容包括:1. 创建用户维度拉链表结构,包含用户ID、脱敏信息、开始/结束日期等字段,采用ORC格式存储并分区管理;2. 数据装载过程分首日全量装载和每日增量更新,通过start_date和end_date标记数据有效期;3. 实现数据脱敏处理,对姓名、手机号、邮箱等敏感信息进行保护;4. 采用分区设计(9999-12-31分区存最新数据,日期分区存历史数据)提升查询效率;5. 对比拉链表与JOIN方式的优势,说明其存储高效、查询简单、支持历史追踪等特点。文
2026-01-30 00:15:18
956
原创 25-学习笔记尚硅谷数仓搭建-DIM层其余(优惠卷、活动、地区、营销坑位、营销渠道、日期)维度表建表语句、简单分析
本文详细介绍了数据仓库DIM层中多个维度表的建表过程及数据装载方法,包括优惠券、活动、地区、营销坑位、营销渠道和日期维度表。重点分析了优惠券维度表中通过父类编码筛选和字符串拼接生成优惠规则的技术实现,以及日期维度表采用临时表转换格式的特殊处理方式。其他维度表如活动表采用类似优惠券表的方法,地区、营销坑位和营销渠道表则相对简单。文章通过具体SQL示例展示了从ODS层到DIM层的数据转换过程,并解释了各表设计的业务考量,为数据仓库维度建模提供了实用参考。
2026-01-29 22:23:01
826
原创 24-学习笔记尚硅谷数仓搭建-DIM层的维度表建表思路及商品表维度表的具体建表解析
维度表是数据仓库中用于提供业务分析视角的核心表,它通过描述"谁、什么、何时、何地、如何"等实体信息,为事实数据提供解释和筛选条件。典型维度表包括商品、时间、顾客、门店等,具有文本描述为主、属性变化慢、表结构宽而短等特点。维度表与事实表形成"黄金搭档",前者提供分析维度,后者记录可度量的业务事实。维度表设计采用星型模型(反规范化),将所有相关属性整合到一张宽表中,以提高查询性能和易用性。以商品维度表为例,其建表过程包括确定主维表和相关维表、整合多级分类和品牌信息,并使用
2026-01-28 19:18:22
1386
2
原创 23-学习笔记尚硅谷数仓搭建-ODS层业务全量表、增量表结构设计及数据装载脚本
本文介绍了电商数据仓库中全量表和增量表的设计方案。全量表部分包含17张业务表,采用TSV格式存储,涵盖活动信息、商品分类、用户购物车等基础数据;增量表部分包含13张业务表,采用JSON格式存储,记录订单、支付、退款等动态数据变化。同时提供了自动化数据装载脚本,通过Hive将HDFS中的原始数据加载到对应ODS层表中,并支持按日期分区和全量/增量模式加载。该方案实现了电商业务数据的完整采集和高效存储,为后续数据分析提供可靠数据基础。
2026-01-27 22:07:25
348
原创 22-学习笔记尚硅谷数仓搭建-ODS层日志表建表语句解析、数据装载及脚本装载数据
本文介绍了Hive中创建日志数据表的完整过程。首先给出了完整的建表语句,创建了一个包含复杂数据类型(struct、array)的外部表ods_log_inc,用于存储日志数据。然后详细解析了建表语句的各个部分,包括字段说明、分区设置、格式转换等关键点。接着介绍了两种数据装载方式:直接在Hive中执行SQL语句装载数据,以及编写自动化脚本实现定时数据装载。脚本支持传入日期参数,未传入时默认处理前一天的日志数据。整个流程涵盖了从表结构设计到数据加载的完整数据处理环节。
2026-01-26 23:01:09
535
2
原创 Python基础速查手册:30秒掌握基础知识点,快速回忆知识点
本文摘要: Python基础知识包括字符串操作、列表、集合、字典、元组等数据类型的使用方法,以及条件判断、循环、格式化输出等基本语法。函数部分详细介绍了函数定义、参数传递、返回值、闭包、装饰器等概念,并讲解了内置函数和推导式的应用。文件操作涵盖读取、写入、修改文件的方法。面向对象编程部分从类定义、属性方法到继承、多态三大特性进行了系统讲解,包括特殊方法如__init__、__str__的使用。最后简要介绍了爬虫基础知识,包括请求方法、数据解析和存储等。全文内容全面,适合Python初学者系统学习基础语法和核
2026-01-26 09:56:33
885
原创 21-学习笔记尚硅谷数仓搭建-数据仓库模拟数据生成
本文详细介绍了大数据环境下模拟数据的生成与同步流程。首先说明了数据模拟要求:需要生成2022-06-04至2022-06-08的业务数据,其中2022-06-08还需包含日志数据。具体步骤包括:1)启动HDFS服务并清理历史数据;2)通过修改配置文件逐日生成模拟数据;3)将全量数据同步到HDFS;4)清除Maxwell断点记录后启动增量同步。最终在HDFS上形成30张表(17张全量表+13张增量表),并提供了数据查看方法。整个过程注重数据校验,确保生成的数据符合业务场景需求。
2026-01-25 08:43:11
851
原创 20-学习笔记尚硅谷数仓搭建-数据仓库开发环境搭建-hive连接DataGrip
本文详细介绍了使用DataGrip连接Hive的完整流程:1)下载安装最新版DataGrip并配置非商业许可证;2)启动HDFS和HiveServer2服务;3)创建项目并配置Hive数据源连接;4)新建数据库操作。同时提供了常见问题解决方案:注释乱码处理、索引报错忽略、内存溢出调整(修改hive-env.sh配置HADOOP_HEAPSIZE)、JSON表字段显示异常(修改hive-site.xml添加SerDe配置)。最后强调重启服务后需测试连接验证。所有操作默认在atguigu用户下执行。
2026-01-25 08:42:56
1179
原创 19-学习笔记尚硅谷数仓搭建-数据仓库运行环境搭建(spark安装及配置)
摘要:本文详细记录了Spark安装配置过程,包括:1)在hadoop102节点解压安装Spark3.3.1并配置环境变量;2)上传Spark jar包到HDFS并修改hive-site.xml配置Spark执行引擎;3)通过创建测试表验证安装成功;4)优化YARN资源调度配置(capacity-scheduler.xml)提升数据插入性能。关键步骤包含环境变量设置、HDFS目录创建、配置文件修改及YARN重启等操作,最终实现Spark与Hive集成并完成性能调优。
2026-01-24 08:56:00
991
原创 18-学习笔记尚硅谷数仓搭建-数据仓库运行环境搭建(hive的安装及配置)
本文详细介绍了Hive的安装部署及元数据配置到MySQL的过程。主要包括:1)在hadoop102节点上解压Hive安装包、配置环境变量和解决日志冲突;2)将MySQL驱动拷贝到Hive目录,配置hive-site.xml文件连接MySQL元数据库;3)初始化元数据库、修改字符集后启动HDFS和Hive客户端。通过执行show databases命令验证安装是否成功。整个流程涵盖了从软件安装到元数据配置的关键步骤,为后续使用Hive进行大数据处理奠定了基础。
2026-01-24 08:55:44
427
原创 Python计算机能力挑战赛编程技巧与数据类型全解析(40种常见新手可能易错点、难理解内容)
本文总结了Python编程中的关键知识点:1. 复数运算与数字类型转换规则;2. 字符串、列表、元组等序列类型的操作技巧;3. 字典和集合的特殊用法;4. 常用内置函数(zip/map/filter/reduce等)的使用方法;5. 装饰器、生成器、迭代器等高级特性;6. 类与对象的基本概念;7. 常见算法的实现策略。涵盖了数据类型处理、控制流、函数式编程、面向对象编程等核心内容,并提供了典型场景下的代码示例,可作为Python编程的快速参考指南。
2026-01-23 18:20:06
1498
原创 17-学习笔记尚硅谷数仓搭建-ER模型和维度模型的概念以及数据仓库为什么选择维度模型
摘要:数据建模是信息系统的核心设计环节,ER模型与维度模型分别适用于不同场景。ER模型通过实体、属性和联系实现高度规范化设计,采用范式理论消除冗余,适用于事务处理系统;维度模型则以事实表和维度表构成星型结构,通过反规范化提升分析性能,是数据仓库的理想选择。两种模型在数据结构、冗余处理和应用目标上存在显著差异:ER模型优先保证数据一致性,维度模型侧重查询效率与业务可理解性。实际应用中,二者形成互补关系,共同支撑从业务操作到决策分析的数据价值链。
2026-01-23 17:01:11
1123
原创 16-学习笔记尚硅谷数仓搭建-数据仓库概念及内部分层结构
数据仓库是专门用于数据分析决策的"数据图书馆",它将各业务系统的数据进行收集、清洗和整合。典型的分层结构包括:ODS层(原始数据)、DWD层(数据清洗标准化)、DWS层(主题汇总)、ADS层(应用数据)和DIM层(公共维度)。与数据库相比,数据仓库更侧重历史数据分析而非实时业务处理,采用反范式设计面向主题,适合复杂查询和大数据量分析。整个过程如同从原料加工到成品上菜的流水线,最终服务于企业决策分析需求。
2026-01-21 22:26:20
996
原创 数据清洗:6步搞定数据预处理
本文摘要:数据清洗是数据分析的重要环节,主要包括六个步骤:1)处理缺失值(识别、删除或填充);2)处理重复值(识别并删除);3)处理异常值(通过统计方法或可视化识别并处理);4)数据类型转换与标准化(包括日期格式统一);5)数据分列与合并;6)数据转换与映射(重命名列、值替换)。文中详细介绍了各种方法的Python实现代码,包括pandas和numpy库的使用技巧,并提供了正态性检验等统计方法。通过系统化的数据清洗流程,可显著提升数据质量,为后续分析奠定基础。
2026-01-20 19:04:17
1100
原创 15-学习笔记尚硅谷数仓搭建-整个数仓项目的采集流程总结
本文介绍了大数据采集项目的完整流程,包含三条数据采集线路:1)用户行为日志数据通过Flume采集到Kafka再存入HDFS;2)MySQL全量业务数据通过DataX同步到HDFS;3)MySQL增量数据通过Maxwell捕获binlog写入Kafka再通过Flume存入HDFS。详细阐述了Flume、Kafka、DataX和Maxwell等核心组件的架构原理、关键特性及在项目中的具体配置实现。项目采用模块化设计,为后续构建离线数仓和实时数仓提供了完整的数据采集解决方案。
2026-01-19 11:37:11
1753
原创 14-学习笔记尚硅谷数仓搭建-通过flume将Kafka中增量数据同步到HDFS脚本实现及整个采集项目脚本
本文详细介绍了使用Flume将Kafka中的业务数据同步到HDFS的完整配置流程。主要内容包括:1) 编写Flume配置文件,配置Kafka Source和HDFS Sink;2) 开发自定义拦截器处理时间戳和表名;3) 编写Flume启停脚本;4) 配置Maxwell实现增量数据同步;5) 实现首日全量数据同步;6) 创建集群服务管理脚本。通过这套方案,可以构建一个完整的数据采集管道,将MySQL业务数据通过Maxwell、Kafka、Flume最终存储到HDFS中,为后续数据处理提供基础。
2026-01-18 10:16:06
1395
原创 13-学习笔记尚硅谷数仓搭建-DataX安装部署以及将MySQL的全量数据同步到HDFS脚本实现
本文详细介绍了使用DataX将MySQL数据同步到HDFS的全流程。主要内容包括:1)DataX安装步骤和解压验证;2)通过配置生成器自动创建JSON配置文件;3)测试单个表同步并验证数据;4)编写批量同步脚本实现全量数据迁移。关键步骤涉及HDFS目录创建、JSON文件配置检查以及通过脚本实现多表批量同步。操作均在hadoop102节点执行,最终数据会按日期分区存储在HDFS指定路径下。整个过程涵盖了从环境准备到自动化执行的完整数据同步解决方案。
2026-01-18 10:15:29
584
原创 12-学习笔记尚硅谷数仓搭建-将Kafka中的日志数据同步到Hadoop集群的HDFS分布式文件系统的flume配置
本文介绍了将Kafka数据同步到HDFS的完整配置流程:1)配置Flume作业文件,定义Kafka Source、File Channel和HDFS Sink组件;2)解决日志数据零点漂移问题,通过拦截器修正时间戳;3)详细说明了自定义TimestampInterceptor拦截器的开发过程,包括Maven配置和核心代码实现;4)提供Flume启动/停止脚本;5)部署流程包括jar包放置、服务启动和数据验证。重点解决了日志时间戳漂移问题,确保数据按实际生成时间正确分区存储到HDFS。
2026-01-17 09:56:03
1031
原创 11-学习笔记尚硅谷数仓搭建-Maxwell实时流单个表全量数据同步到Kafka
本文介绍了大数据项目中数据同步的操作流程:首先通过xcalljps命令检查服务进程,若无则使用zk.sh等脚本启动相关服务;其次详细说明了历史数据全量同步的概念和操作步骤,以activity_info表为例演示了使用Maxwell将MySQL初始数据同步到Kafka的过程,并解释了Kafka中数据条目多于源数据库的原因(包含界定全量数据的标志记录)。该同步机制既能保证Kafka拥有完整历史数据,又能持续获取实时变更数据,同时优化内存使用。
2026-01-17 09:55:50
594
原创 10-学习笔记尚硅谷数仓搭建-Maxwell安装、相关配置及启动脚本,最后将增量数据(实时数据)通过Maxwell上传到Kafka
本文介绍了使用Maxwell实时捕获MySQL数据变更并发送到Kafka的完整流程。主要内容包括:1)在/opt/module目录安装配置Maxwell;2)修改MySQL配置开启binlog日志;3)创建Maxwell专用数据库和用户;4)配置Maxwell连接Kafka集群和指定topic;5)编写启停脚本管理Maxwell服务;6)通过生成模拟数据验证功能,成功在Kafka中查看到MySQL变更的JSON数据。整个过程实现了MySQL数据变更的实时捕获和传输,为后续数据处理提供了基础。
2026-01-16 10:04:08
810
原创 09-学习笔记尚硅谷数仓搭建-安装MySQL及远程工具连接(navicat)
本文介绍了MySQL的安装配置及远程连接过程。首先在/opt/software/mysql目录下执行安装脚本,root和atguigu用户密码均为000000。安装完成后需验证root用户的plugin是否为mysql_native_password,否则需修改配置。远程连接使用Navicat工具,配置主机、端口和密码后,导入gmall.sql文件创建数据库和表。若导入后未显示表,建议重新连接Navicat查看。整个流程包含MySQL安装、权限配置、远程连接测试和数据库初始化等关键步骤。
2026-01-16 10:03:47
523
原创 08-学习笔记尚硅谷数仓搭建-配置flume将日志文件放入Kafka
本文详细介绍了使用Flume采集日志数据并上传至Kafka的完整流程。主要内容包括:1)配置Flume采集文件,设置TAILDIR源和Kafka通道;2)编写Flume启动/停止脚本;3)启动Zookeeper和Kafka服务后执行日志采集;4)通过命令行或KafkaTool工具验证数据采集情况。文中提供了具体配置参数和操作命令,重点说明了如何解决KafkaTool中数据显示为16进制的问题,通过修改显示格式为String或JSON可更直观查看日志数据。
2026-01-15 09:30:00
819
原创 07-学习笔记尚硅谷数仓搭建-安装flume及配置
本文介绍了Flume的安装和配置过程。首先将Flume安装包解压到/opt/module目录并重命名。然后配置log4j2.xml文件,修改日志目录为/opt/module/flume/log,并添加控制台输出功能以便查看报错信息。配置内容包括设置日志轮转策略(100MB或每天轮转)、日志保留策略(最多20个文件,总大小不超过1GB)以及不同组件的日志级别设置。所有操作只需在hadoop102节点上执行。
2026-01-15 09:00:00
450
原创 06-学习笔记尚硅谷数仓搭建-使用Kafka tool工具在windows上查看
本文介绍了搭建Hadoop集群环境的步骤:1)通过ipaddr和hostname命令查看3台主机的IP和主机名;2)在Windows系统hosts文件中添加集群IP与主机名映射;3)下载并安装KafkaTool工具进行连接测试。操作包括修改系统文件、配置网络映射和工具安装,为后续Hadoop集群搭建提供基础环境准备。
2026-01-14 00:54:20
255
原创 05-学习笔记尚硅谷数仓搭建-Kafka安装配置及群体启动脚本
本文详细介绍了Kafka的安装配置和集群管理流程。主要内容包括:1) Kafka安装步骤和解压配置;2) 修改server.properties关键配置项(broker.id、监听地址、日志目录等);3) 配置环境变量并分发到集群节点;4) 启动Kafka服务及注意事项;5) 编写集群管理脚本实现一键启停。特别强调Kafka依赖Zookeeper服务,启动前需确保Zookeeper已运行,并建议间隔10秒检查Kafka进程状态以避免异常情况。文档提供了完整的配置示例和脚本代码,适合用于搭建生产环境下的Kaf
2026-01-14 00:26:36
921
原创 04-学习笔记尚硅谷数仓搭建-zookeeper安装配置及群起脚本
本文介绍了Zookeeper集群的安装配置过程:1)下载安装包并解压到指定目录;2)创建zkData目录并配置myid文件;3)修改zoo.cfg配置文件,设置集群节点信息;4)分发配置到其他节点并修改对应的myid值;5)分别启动各节点服务;6)编写群起脚本实现集群的统一启动、停止和状态查看。文中详细说明了配置文件修改内容,包括dataDir路径设置和集群server配置,并提供了完整的操作命令流程。
2026-01-13 22:13:23
379
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅