簌簌曌-CSDN博客

原创 CentOS7 + JDK8 虚拟机安装与 Hadoop + Spark 集群搭建实践

在大数据时代，Hadoop 和 Spark 是两种非常重要的分布式计算框架。本文将详细介绍如何在 CentOS7 + JDK8 的虚拟机环境中搭建 Hadoop + Spark 分布式集群，包括 Spark Standalone 和 Hadoop + Spark on YARN 两种模式，并提供具体的代码示例。

2025-06-04 15:20:29 804

原创 Spark和Kafka的实时通话计费系统样例笔记

本项目完整实现了从数据生成、消息队列传输到实时处理的完整流程，关键技术点包括：Kafka生产者和消费者的使用Spark Streaming实时处理框架结构化数据处理与存储大数据环境配置与问题排查这种架构可以扩展到其他实时数据处理场景，如日志分析、用户行为跟踪等。关键是要处理好环境依赖和版本兼容性问题。

2025-05-28 16:12:37 547

Spark SQL窗口函数：窗口函数可以对分组后的数据进行操作而不减少行数常用窗口函数：rank(), dense_rank(), row_number(), percent_rank()执行顺序在GROUP BY之后，ORDER BY之前数据清洗技巧：使用regexp_replace处理异常字符类型转换保证数据一致性空值处理和去重RFM模型实现：Recency(最近购买时间)Frequency(购买频率)Monetary(消费金额)通过归一化和加权计算客户价值得分。

2025-05-22 08:59:31 1126

原创 Spark大数据处理核心知识点总结

两种方式：

2025-05-21 14:39:39 844

原创 Spark离线数据处理知识点总结

基础数据处理pip install pandas==1.2.4 # 数据清洗利器# 大数据处理pip install pyspark==3.0.3 # 分布式计算框架# 数据可视化pip install pyecharts==1.9.0 # 交互式图表。

2025-05-14 17:46:41 645

原创 PySpark环境搭建与Spark伪分布式集群部署指南（5.6）

本文详细介绍了PySpark环境的三种搭建方式（交互式shell、Jupyter Notebook和PyCharm）以及Spark伪分布式集群的部署步骤。通过修改主机名、配置Spark环境文件和启动相关服务，我们成功搭建了一个Spark伪分布式集群，并验证了Local、Standalone和YARN三种部署模式。在实际工作中，可以根据项目需求选择合适的开发环境和部署模式。对于学习和测试，Local模式最为简单；

2025-05-06 15:04:12 737

原创 Kafka安装测试及与Spark Streaming集成指南(4.29)

Kafka是一个分布式消息"发布-订阅"系统，作为高性能的消息中间件，它能够：- 通过强大的消息队列处理海量数据- 可靠地在不同端点间传递消息- 同时支持离线和实时数据消费- 将消息持久化到磁盘防止数据丢失- 与Spark无缝集成实现实时流计算核心概念：- Broker：Kafka集群中的每个节点称为一个broker(经纪人)- Topic：消息分类，同一类消息存储在同一topic中- Partition：每个topic可分为多个分区，对应磁盘上的日志文件。

2025-04-29 15:34:13 1048

原创使用PySpark Streaming实现实时单词计数：从搭建到运行

通过这个简单的示例，我们实现了：使用PySpark Streaming处理实时数据流通过socket接收实时文本数据对文本进行单词计数每3秒输出一次统计结果这个基础框架可以扩展为更复杂的实时处理应用，如实时日志分析、实时推荐系统等。希望这篇教程对你入门Spark Streaming有所帮助！

2025-04-22 14:31:13 448

原创 2025.4.15数据库笔记（PySpark SQL 实战：从基础查询到数据分析案例）

PySpark SQL 是 Apache Spark 提供的用于结构化数据处理的模块，它提供了一个名为 SparkSession 的编程抽象，可以执行 SQL 查询并返回 DataFrame 结果。PySpark SQL 的强大之处在于它能够将 SQL 查询与 Spark 的函数式编程 API 无缝集成。通过本文，我们系统地学习了PySpark SQL的各种查询操作，从基础查询到高级分析，并通过两个实际案例展示了PySpark SQL在数据分析中的应用。

2025-04-15 15:41:59 629

原创 2025.4.8笔记

df.sort(df.age,df .score ,ascending=[1,0]).show() #1=True: 升序，0=False:降序 df.sort(df.age.asc(),df.score.desc()).show() #desc:降序，asc:升序。df.groupBy( 'gender' ).agg({'age ' : 'mean' ,'score' : 'max'}) .show() #agg()聚合操作，aggregate。

2025-04-08 15:42:55 416

原创 2025.4.1学习笔记

更新软件源并安装# 服务管理命令sudo systemctl start mysql # 启动服务sudo systemctl enable mysql # 设置开机自启sudo systemctl status mysql # 查看服务状态。

2025-04-01 20:00:00 534

原创 Spark数据处理实例

词频统计案例1.需求分析这个文件的数据是非结构化的，每行的单词个数是不固定的，也没有具体的含义。为了使用Spark SQL来处理它，第1步工作就是要将这个文件的数据转换成结构化的形式，由于我们真正关注的是各个单词，因此可以像以往那样将文件数据转换为RDD，然后经过一定的处理后将其转变为DataFrame，这样就可以由SparkSQL来处理2.SparkSQL编程实现首先将文件数据转换为rdd1，由于它是非结构化的数据，因此同样需要把每行包含的单词切解出来。

2025-03-26 21:10:07 486

原创基本 TopN 问题与RDD 问题实践

基本 TopN 问题与RDD 问题实践

2025-03-19 18:01:38 389

原创 RDD转换行动操作

union合并数据intersection数据交集subtract数据减集groupBy分组数据groupByKey分组数据reduceByKey合并数据sortByKey排序数据keys和values操作mapValues和flatMapValues操作collect操作take操作。

2025-03-12 17:56:30 563

原创 RDD的创建和转换

RDD（Resilient Distributed Dataset）是Spark中最基本的数据结构，代表分布式的不可变的数据集。RDD可以在集群中进行并行计算，并且具有容错性，即当由于节点故障而导致数据丢失时，可以通过RDD的血统信息重新计算出丢失的数据。错误日志中显示的关键信息是：TypeError: must be str, not int 这表在代码中尝试将字符串和整数相加，而 Python 不允许这种操作。2）在其中输入下面第一行的代码后，可以查看 RDD 类包含的功能方法。

2025-03-05 17:58:26 469

原创 spark大数据环境搭建

Spark是一个开源的分布式计算框架，最初在加州大学伯克利分校AMPLab开发。它提供了高效的数据处理能力，可以在大规模数据集上进行快速计算和分析。Spark支持多种编程语言，包括Java、Scala和Python，同时提供了丰富的API，使得用户可以方便地进行数据处理、机器学习、图计算等各种任务。Spark的主要特点包括内存计算、容错性、高性能和易用性，因此在大数据处理领域得到了广泛应用。

2025-02-26 20:50:17 1562 1