自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

原创 Spark集群部署与YARN模式实战

集群部署需关注环境一致性、资源分配和权限管理。通过YARN可实现资源调度隔离,适合生产环境大规模任务运行。

2025-06-09 22:14:41 319

原创 Spark实时流处理:通话记录分析实战

实时流处理需关注数据源(Kafka)、处理逻辑(时长计算)和输出(HDFS目录结构)。测试时优先验证生产者和消费者链路。

2025-06-09 22:10:39 325

原创 美妆订单数据可视化与结果保存

可视化直观呈现分析结果,而HDFS存储支持大规模数据处理。Pyecharts灵活易用,适合快速生成交互式图表。

2025-06-09 22:08:08 195

原创 Spark窗口操作与RFM客户价值分析

窗口操作是复杂分组统计的核心工具,适用于排名、归一化等场景。RFM模型通过量化客户行为,精准识别高价值用户。

2025-06-09 22:05:58 214

原创 Spark大数据分析综合案例:需求分析与数据清洗

某电商平台提供美妆商品订单数据和beauty_prod_sales.csv商品价格分析:每个商品小类中价格最高的前5个商品。月度统计:每月订单的订购数量和消费金额。地区分析:订购数量排名前20的城市。商品热度:按类型统计各美妆产品的订购数量排行。省份需求:各省份的美妆订购数量排行。客户价值挖掘:通过RFM模型(最近购买时间、消费频率、总消费金额)评估客户价值。数据示例商品编号,商品名称,商品小类,商品大类,销售单价x001,商品1,面膜,护肤品,121。

2025-06-09 22:01:53 400

原创 PyCharm安装与Spark开发配置

通过PyCharm搭建专业PySpark开发环境。

2025-06-09 16:25:40 539

原创 Jupyter Notebook集成PySpark

findspark简化了Jupyter与PySpark的集成,适合交互式数据分析。注意内存管理和路径配置是关键。findspark简化了Jupyter与PySpark的集成,适合交互式数据分析。注意内存管理和路径配置是关键。

2025-06-09 16:14:26 281

原创 PySpark环境安装与基础测试

PySpark安装需严格匹配Python/Java版本。通过本地模式可快速验证环境,为分布式计算打下基础。

2025-06-09 16:11:35 327

原创 Netcat+Spark Streaming:实时词频统计实战

通过Netcat模拟实时数据流,结合Spark Streaming实现每秒级的词频统计,并解析核心代码逻辑。

2025-04-20 20:13:20 325

原创 Kafka消息生产与消费:从Topic创建到实时通信

通过命令行工具快速创建Kafka主题,实现生产者与消费者的双向通信,并验证消息传递的可靠性。

2025-04-20 20:09:00 196

原创 Kafka集群安装与配置全攻略:从零搭建到服务启动

手把手教你如何在Linux环境下安装Kafka,配置ZooKeeper依赖,并通过进程管理确保服务稳定运行。

2025-04-20 20:06:37 435

原创 Spark RDD的创建与常用转换操作详解

方法可以将本地集合(如列表、元组、集合)转换为分布式RDD。文件上传后需验证路径是否存在(使用 hdfs dfs -ls。函数定义后需保留空行(PySpark Shell要求)。支持按复合结构的字段排序(如按元组的第三个元素排序)。支持压缩文件(如.gz),Spark会自动解压读取。对RDD中的每个元素应用函数,生成新RDD。元组和集合需先转换为可迭代对象(如列表)。开头,HDFS路径需以 hdfs://注意文件路径的协议前缀(file://将每个元素转换为可迭代对象后展开。按指定规则对RDD元素排序。

2025-03-05 19:10:36 746

原创 基于Ubuntu虚拟机的Spark大数据环境搭建全流程指南

在VMWare中创建Ubuntu 20.04虚拟机(内存≥4GB,磁盘≥40GB(40gb我认为足够了,电脑的硬盘空间有点不足))Hadoop/Spark目录权限设为spark:spark。安装完成后调整虚拟机配置(推荐:2核CPU/4GB内存)拼写错误(正确应为fs.defaultFS。选择典型安装,并选择相应的光盘映像文件。无NameNode进程。或建议将环境变量添加到。

2025-03-01 22:38:48 742

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除