Za1uu-CSDN博客

原创 Spark集群部署与YARN模式实战

集群部署需关注环境一致性、资源分配和权限管理。通过YARN可实现资源调度隔离，适合生产环境大规模任务运行。

2025-06-09 22:14:41 319

原创 Spark实时流处理：通话记录分析实战

实时流处理需关注数据源（Kafka）、处理逻辑（时长计算）和输出（HDFS目录结构）。测试时优先验证生产者和消费者链路。

2025-06-09 22:10:39 325

原创美妆订单数据可视化与结果保存

可视化直观呈现分析结果，而HDFS存储支持大规模数据处理。Pyecharts灵活易用，适合快速生成交互式图表。

2025-06-09 22:08:08 195

原创 Spark窗口操作与RFM客户价值分析

窗口操作是复杂分组统计的核心工具，适用于排名、归一化等场景。RFM模型通过量化客户行为，精准识别高价值用户。

2025-06-09 22:05:58 214

某电商平台提供美妆商品订单数据和beauty_prod_sales.csv商品价格分析：每个商品小类中价格最高的前5个商品。月度统计：每月订单的订购数量和消费金额。地区分析：订购数量排名前20的城市。商品热度：按类型统计各美妆产品的订购数量排行。省份需求：各省份的美妆订购数量排行。客户价值挖掘：通过RFM模型（最近购买时间、消费频率、总消费金额）评估客户价值。数据示例商品编号,商品名称,商品小类,商品大类,销售单价x001,商品1,面膜,护肤品,121。

2025-06-09 22:01:53 400

原创 PyCharm安装与Spark开发配置

通过PyCharm搭建专业PySpark开发环境。

2025-06-09 16:25:40 539

原创 Jupyter Notebook集成PySpark

findspark简化了Jupyter与PySpark的集成，适合交互式数据分析。注意内存管理和路径配置是关键。findspark简化了Jupyter与PySpark的集成，适合交互式数据分析。注意内存管理和路径配置是关键。

2025-06-09 16:14:26 281

原创 PySpark环境安装与基础测试

PySpark安装需严格匹配Python/Java版本。通过本地模式可快速验证环境，为分布式计算打下基础。

2025-06-09 16:11:35 327

原创 Netcat+Spark Streaming：实时词频统计实战

通过Netcat模拟实时数据流，结合Spark Streaming实现每秒级的词频统计，并解析核心代码逻辑。

2025-04-20 20:13:20 325

原创 Kafka消息生产与消费：从Topic创建到实时通信

通过命令行工具快速创建Kafka主题，实现生产者与消费者的双向通信，并验证消息传递的可靠性。

2025-04-20 20:09:00 196

原创 Kafka集群安装与配置全攻略：从零搭建到服务启动

手把手教你如何在Linux环境下安装Kafka，配置ZooKeeper依赖，并通过进程管理确保服务稳定运行。

2025-04-20 20:06:37 435

原创 Spark RDD的创建与常用转换操作详解

方法可以将本地集合（如列表、元组、集合）转换为分布式RDD。文件上传后需验证路径是否存在（使用 hdfs dfs -ls。函数定义后需保留空行（PySpark Shell要求）。支持按复合结构的字段排序（如按元组的第三个元素排序）。支持压缩文件（如.gz），Spark会自动解压读取。对RDD中的每个元素应用函数，生成新RDD。元组和集合需先转换为可迭代对象（如列表）。开头，HDFS路径需以 hdfs://注意文件路径的协议前缀（file://将每个元素转换为可迭代对象后展开。按指定规则对RDD元素排序。

2025-03-05 19:10:36 746

原创基于Ubuntu虚拟机的Spark大数据环境搭建全流程指南

在VMWare中创建Ubuntu 20.04虚拟机（内存≥4GB，磁盘≥40GB（40gb我认为足够了，电脑的硬盘空间有点不足））Hadoop/Spark目录权限设为spark:spark。安装完成后调整虚拟机配置（推荐：2核CPU/4GB内存）拼写错误（正确应为fs.defaultFS。选择典型安装，并选择相应的光盘映像文件。无NameNode进程。或建议将环境变量添加到。

2025-03-01 22:38:48 742