庫禄-CSDN博客

原创 CentOS7 + JDK8 虚拟机安装与 Hadoop + Spark 集群搭建实践

本文将详细介绍如何在 CentOS7 + JDK8 的虚拟机环境中搭建 Hadoop + Spark 分布式集群，包括 Spark Standalone 和 Hadoop + Spark on YARN 两种模式，并提供具体的代码示例。将 Hadoop 和 Spark 的安装包（如 hadoop-2.6.5.tar.gz 和 spark-2.4.8-bin-withouthadoop.tgz）上传到 vm01 虚拟机的 /root 目录下。

2025-06-10 12:56:48 1014

原创 Spark和Kafka的实时通话计费系统样例笔记

2025-06-09 22:20:36 328

原创 Spark大数据分析与可视化实战案例

withColumn('cust_province', regexp_replace('cust_province','自治区|维吾尔|回族|壮族|省|市','')) \。.withColumn("od_quantity", regexp_replace('od_quantity','个','')) \。.withColumn("od_price", regexp_replace('od_price','元','')) \。yaxis_opts=opts.AxisOpts(name="金额(亿元)"),

2025-06-09 22:19:50 473

原创 Spark大数据处理核心知识点总结

创建方式：SparkSession.builder.appName('name').getOrCreate()排名：rank(), dense_rank(), row_number()groupBy() + 聚合函数(sum, avg, count等)first_value()/last_value()：窗口首尾值。公式：(rank - 1) / (total_rows - 1)提取日期组件：year(), month(), day()等。分布：percent_rank(), cume_dist()

2025-06-09 22:19:05 271

原创 Spark离线数据处理知识点总结

F.col("人数")/F.lag("人数").over(Window.orderBy("行为序列"))))(df.groupBy(F.date_format("订单日期", "yyyy-MM").alias("月份"))F.when((F.col("R") < 30) & (F.col("F") > 5), "高价值")df['数量'] = df['数量'].str.extract('(\d+)').astype(int).agg(F.count("*").alias("人数"))

2025-06-09 22:17:54 720

原创 PySpark环境搭建与Spark伪分布式集群部署指南

通过修改主机名、配置Spark环境文件和启动相关服务，我们成功搭建了一个Spark伪分布式集群，并验证了Local、Standalone和YARN三种部署模式。对于学习和测试，Local模式最为简单；>>> sc = SparkContext('local[2]','pyspark lib') # 如果sc创建错误，输入sc.stop()>>> rdd.collect() # 或使用 rdd.foreach(print)>>> print(datas) # 输出: [1, 2, 3, 4, 5]

2025-06-09 22:16:49 670

原创 Kafka安装测试及与Spark Streaming集成指南

ssc = StreamingContext(sc, 1) # 1秒的批处理间隔。- 确认Zookeeper(2181)和Kafka(9092)端口未被占用。- Broker：Kafka集群中的每个节点称为一个broker(经纪人)- Partition：每个topic可分为多个分区，对应磁盘上的日志文件。- 使用`sudo netstat -tuln`检查端口。- Offset：消息在分区文件中的位置标识，保证消息顺序性。- Topic：消息分类，同一类消息存储在同一topic中。

2025-06-09 22:16:02 522

原创使用PySpark Streaming实现实时单词计数：从搭建到运行

本文将带你一步步实现一个基于PySpark Streaming的实时单词计数应用。这个应用能够监听网络端口，实时统计输入文本中的单词出现频率。这个基础框架可以扩展为更复杂的实时处理应用，如实时日志分析、实时推荐系统等。日志信息过多：可以通过sc.setLogLevel("WARN")设置日志级别，只显示警告及以上级别的日志。netcat命令错误：注意正确的命令是nc -lk 9999，不是nc -link 9999。创建StreamingContext，设置批处理间隔为3秒。使用pprint()打印结果。

2025-06-09 22:15:13 143

原创 PySpark SQL 实战：从基础查询到数据分析案例

PySpark SQL 是 Apache Spark 提供的用于结构化数据处理的模块，它提供了一个名为 SparkSession 的编程抽象，可以执行 SQL 查询并返回 DataFrame 结果。通过本文，我们系统地学习了PySpark SQL的各种查询操作，从基础查询到高级分析，并通过两个实际案例展示了PySpark SQL在数据分析中的应用。# 查询日期在2022-05-10到2022-05-15之间的访问记录。# 查询name为'Google'或'菜鸟教程'的记录。

2025-06-09 22:13:05 994

原创课堂的笔记

三、基于DSL的DataFrame的数据操作(DSL:Domain Spcific Language,领域特定的语言，类似RDD算子)1、数据查询:(1)筛选:where()/filter()df1 = df.where('age>=10')df2= df.where('age>=12 and score>80') df.where( 'age>=12 and score>80').show()df.where( (df.age>12) & (df.score>80)).show() df.where(df

2025-06-09 22:11:33 335

2302_82081351的博客

原创 CentOS7 + JDK8 虚拟机安装与 Hadoop + Spark 集群搭建实践

原创 Spark和Kafka的实时通话计费系统样例笔记

原创 Spark大数据分析与可视化实战案例

原创 Spark大数据处理核心知识点总结

原创 Spark离线数据处理知识点总结

原创 PySpark环境搭建与Spark伪分布式集群部署指南

原创 Kafka安装测试及与Spark Streaming集成指南

原创使用PySpark Streaming实现实时单词计数：从搭建到运行

原创 PySpark SQL 实战：从基础查询到数据分析案例

原创课堂的笔记

原创 MySQL

原创 spark大数据环境搭建

原创 Spark数据处理实例

原创基本 TopN 问题与RDD 问题实践

原创 RDD转换行动操作

原创 RDD的创建和转换

空空如也

空空如也