- 博客(13)
- 收藏
- 关注
原创 Spark实时流处理:通话记录分析实战
实时流处理需关注数据源(Kafka)、处理逻辑(时长计算)和输出(HDFS目录结构)。测试时优先验证生产者和消费者链路。
2025-06-09 22:10:39
325
原创 Spark窗口操作与RFM客户价值分析
窗口操作是复杂分组统计的核心工具,适用于排名、归一化等场景。RFM模型通过量化客户行为,精准识别高价值用户。
2025-06-09 22:05:58
214
原创 Spark大数据分析综合案例:需求分析与数据清洗
某电商平台提供美妆商品订单数据和beauty_prod_sales.csv商品价格分析:每个商品小类中价格最高的前5个商品。月度统计:每月订单的订购数量和消费金额。地区分析:订购数量排名前20的城市。商品热度:按类型统计各美妆产品的订购数量排行。省份需求:各省份的美妆订购数量排行。客户价值挖掘:通过RFM模型(最近购买时间、消费频率、总消费金额)评估客户价值。数据示例商品编号,商品名称,商品小类,商品大类,销售单价x001,商品1,面膜,护肤品,121。
2025-06-09 22:01:53
400
原创 Jupyter Notebook集成PySpark
findspark简化了Jupyter与PySpark的集成,适合交互式数据分析。注意内存管理和路径配置是关键。findspark简化了Jupyter与PySpark的集成,适合交互式数据分析。注意内存管理和路径配置是关键。
2025-06-09 16:14:26
281
原创 Netcat+Spark Streaming:实时词频统计实战
通过Netcat模拟实时数据流,结合Spark Streaming实现每秒级的词频统计,并解析核心代码逻辑。
2025-04-20 20:13:20
325
原创 Kafka消息生产与消费:从Topic创建到实时通信
通过命令行工具快速创建Kafka主题,实现生产者与消费者的双向通信,并验证消息传递的可靠性。
2025-04-20 20:09:00
196
原创 Kafka集群安装与配置全攻略:从零搭建到服务启动
手把手教你如何在Linux环境下安装Kafka,配置ZooKeeper依赖,并通过进程管理确保服务稳定运行。
2025-04-20 20:06:37
435
原创 Spark RDD的创建与常用转换操作详解
方法可以将本地集合(如列表、元组、集合)转换为分布式RDD。文件上传后需验证路径是否存在(使用 hdfs dfs -ls。函数定义后需保留空行(PySpark Shell要求)。支持按复合结构的字段排序(如按元组的第三个元素排序)。支持压缩文件(如.gz),Spark会自动解压读取。对RDD中的每个元素应用函数,生成新RDD。元组和集合需先转换为可迭代对象(如列表)。开头,HDFS路径需以 hdfs://注意文件路径的协议前缀(file://将每个元素转换为可迭代对象后展开。按指定规则对RDD元素排序。
2025-03-05 19:10:36
746
原创 基于Ubuntu虚拟机的Spark大数据环境搭建全流程指南
在VMWare中创建Ubuntu 20.04虚拟机(内存≥4GB,磁盘≥40GB(40gb我认为足够了,电脑的硬盘空间有点不足))Hadoop/Spark目录权限设为spark:spark。安装完成后调整虚拟机配置(推荐:2核CPU/4GB内存)拼写错误(正确应为fs.defaultFS。选择典型安装,并选择相应的光盘映像文件。无NameNode进程。或建议将环境变量添加到。
2025-03-01 22:38:48
742
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅