他不饿-CSDN博客

原创 Spark Streaming实时数据计算

ssc.checkpoint("file:///tmp/spark") #启动检查点机制。#(2)启动两个线程,每五秒为一个批次,创建DStream管家ssc对象,并启用检查点机制。#(2)启动两个线程,每五秒为一个批次,创建DStream管家ssc对象,并启用检查点机制。#(5)启动DStream流计算的循环运行,并等待程序终止(ctrl+c结束)#(5)启动DStream流计算的循环运行,并等待程序终止(ctrl+c结束)#(5)启动流计算循环执行,并等待程序终止(ctrl+c结束)

2025-06-10 14:22:27 635

原创 Ubuntu20.04安装MySQL 8.0最新版

mysql-client_8.0.27-1ubuntu20.04_amd64.deb mysql-community-client_8.0.27-1ubuntu20.04_amd64.deb , 要安装的是第⼀个不带 community 的这个 ( 因为之前安装了 community 版本还是报这个错，安装 mysql-community-server_8.0.27-1ubuntu20.04_amd64.deb 这个包。以上的依赖都安装完后，就可以安装 server 了。client-core包安装。

2025-06-10 14:21:04 1600

原创 DStream输出操作

4.保存以上代码并退出编辑器，确保nc服务端在监听9999端口，然后在Linux终端窗体中通过spark-submit命令将NetworkWordCountSave.py程序提交到Spark运行，然后在nc服务端输入文字内容（打开两个终端窗口，在上面窗口中输入）6.查看主目录中的streaming文件夹，里面出现了很多以output-开关的子目录，其中保存的就是不同批次时间点的数据文件。ssc = StreamingContext(sc, 2) # 批处理间隔2秒。# 词频统计结果保存到文件系统。

2025-06-10 14:17:25 382

原创 NetworkWordCountSave.py

NetworkWordCountSave.py》这一脚本正是利用了Spark Streaming来实现一个实时的词频统计系统，该系统可以将处理结果保存至外部存储系统中，如HDFS。《NetworkWordCountSave.py》通过Spark Streaming读取网络数据流，借助Kafka进行数据的高效读写，实现了数据的实时读取和处理。该脚本执行的主要步骤包括：建立与Kafka的连接、从Kafka接收消息、对消息进行实时词频统计，最后将统计结果保存至指定的存储系统。

2025-06-10 14:15:11 283

原创搭建spark伪分布集群

2.更改了主机名，还需要修改/etc/hosts文件，在这个文件设定了IP地址与主机名的对应关系，类似DNS域名服务器的功能。3.修改spark相关配置文件，包括spark-env.sh和slave两个文件。5.重启spark集群出现worker和master表示成功。7.在浏览器输入：http://vm01:8080/ 查看。1.先查看虚拟机的默认名称，将其修改为vm01。4.将localhost改为vm01 保存退出。

2025-06-10 14:14:16 117

原创 Spark大数据分析案例

美妆商品订单数据存储在CSV文件中，它们都是结构化的数据，Spark SQL要做的工作包括数据清洗和数据预处理两个方面。| D31449| 2019-5-1| S12455| 南区|广西壮族自治区| 百色市| X051| 1236| 203| 250908.0|.withColumn('cust_province', regexp_replace('cust_province','自治区|维吾尔|回族|壮族|省|市','')) \。

2025-06-10 14:13:08 541

原创 Spark大数据分析案例

美妆商品订单数据存储在CSV文件中，它们都是结构化的数据，Spark SQL要做的工作包括数据清洗和数据预处理两个方面。| D32470|2019-4-11| S18696| 北区| 北京市| 北京市| X010| 887| 58| 51446.0|.withColumn('cust_province', regexp_replace('cust_province','自治区|维吾尔|回族|壮族|省|市','')) \。

2025-06-07 21:34:29 542

原创 Spark实时流数据处理实例

（2）打开一个Linux终端窗体，在其中输入下面的命令，将消息接收者程序提交到Spark中运行，其中用到的spark-streaming-kafka-0-8-assembly_2.11-2.4.8.jar依赖库文件此前已下载放在~/streaming目录中，为避免每次提交应用程序时在命令行手动指定，可以将其复制到集群的各节点Spark安装目录中（位于/usr/local/spark/jars目录）从输出结果可以清楚地看到，接收的Kafka消息是一系列（K,V）键值对形式的二元组，其中的K代表。

2025-06-07 21:33:44 508

原创 Jupyter Notebook环境配置与测试

启动服务：jupyter notebook # 浏览器自动打开 http://localhost:8888。print(rdd.collect()) # 输出：[1, 2, 3, 4, 5]在Notebook中运行代码：import findspark。findspark：使PySpark在Jupyter中正常导入。注意：代码需写在同一个Cell中，按Shift+Enter执行。findspark.init() # 只需执行一次。1. 安装Jupyter与findspark。

2025-06-07 21:29:03 260

原创搭建分布集群

3.修改spark相关配置文件，包括spark-env.sh和slave两个文件。2.修改/etc/hosts文件，在这个文件设定了IP地址与主机名的对应关系。5.重启spark集群出现worker和master表示成功。7.在浏览器输入：http://vm01:8080/ 查看。4.将localhost改为vm01 保存退出。1.查看虚拟机的默认名称，将其修改为vm01。

2025-06-07 21:27:29 141

原创 RDD的创建和转换操作

转换操作是Spark中对RDD进行处理的基本操作，它们是惰性执行的，只有在触发行动操作时才会执行计算。容错机制：RDD通过lineage机制实现容错，如果某个分区的数据丢失，可以通过重新计算其父RDD的对应分区来恢复。groupByKey操作通常用于键值对RDD，它将具有相同键的值聚合在一起，并返回一个新的RDD。分区的合理设置：分区的数量会影响数据处理的效率。filter操作根据给定的条件过滤RDD中的元素，并返回一个新的RDD。map操作将RDD中的每个元素应用一个函数，并返回一个新的RDD。

2025-06-07 21:26:39 366

原创 spark实操与知识摘要

sudo tar -zxf spark-2.4.8-bin-without-hadoop.tgz -C /usr/local #解压到local文件夹。sudo tar -zxf jdk-8u201-linux-x64.tar.gz -C /usr/local #解压到local文件夹。sudo ln -s spark-2.4.8-bin-without-hadoop.tgz/ spark #创建快捷方式名称为spark。to override,按:wq!

2025-06-07 21:25:28 193

原创 spark 知识总结

Row(id='12', name='宋江', age=25, gender='男', object='chinese', score=50), Row(id='12', name='宋江', age=25, gender='男', object='math', score=60)]rdd = sc.parallelize([1,2,3,6,5,4,6,12,23]).groupBy(lambda x:x%3) #将元素分成3组，第一组x%3==0，第二组x%3==1，第三组x%3==2。

2025-06-07 21:22:08 1638

原创 Jupyter远程密码设置和访问

打开.jupyter/jupyter_notebook_config.py文件，找到并修改以下配置项。（根据上图文件位置，找到文件并打开）。原文链接：https://blog.csdn.net/2401_87241283/article/details/146885345。这会在用户主目录下生成.jupyter/jupyter_notebook_config.py文件。确保两次密码输入一致，输入确认的密码后，密码会被加密并保存到配置文件中。在浏览器输入 http：//（你的ip地址）：8888，即可访问。

2025-06-07 21:20:48 348

原创 DataFrame

>>data=sc.textFile('file:///home/spark/mydata/03/test. txt').map(Iambda x:x.split('')).map(lambda x:(x[0], x[1], int(x[2]), x[3], x[4], int(x[5]))) #读取文件内容,将第三位和第四位改为整数类型。>>>schema = ['id', 'name', 'age', 'score', 'gender'] #命名,第一个为id 第二个为name。

2025-06-07 21:19:34 1757

原创窗口操作.

不过有时候我们关注的并不是分组统计问题，而是类似“有来自多个班的学生成绩，分别对每个班的学生进行成绩排名”这样的问题，不是对所有班的学生进行排名，而是针对每个班的学生进行单独的排名.显然，首先这是一个分组问题，但不能通过GROUP BY来解决。实际上，窗口可以理解为“指定记录的集合”，即每条记录都有其对应的窗口，窗口的功能与GROUP BY类似，它们都能将满足条件的记录划分出来。（2）当窗口函数和聚合函数一起使用时，窗口函数是基于聚合后的数据执行的，也就是说，先执行聚合操作，再执行窗口函数。

2025-06-07 21:18:47 323

原创数据查询.

spark.sql("select * from website where name in ('Google','菜鸟教程')").show()(1)指定字段：spark.sql("select name, country from website").show()(0)全字段查询：spark.sql("select * from website").show(10, False)查询日访问次数count字段的平均值(sum(),avg(), max(), min(), count())

2025-06-07 21:18:01 365

原创 spark环境搭建和配置

Spark环境搭建和配置需要考虑操作系统、Java开发包（JDK）以及Hadoop等组件的安装与配置。在开始搭建Spark环境之前，首先需要检查系统的兼容性，安装适合操作系统的JDK版本，并且配置好相关的环境变量。Hadoop作为大数据处理的底层框架，其YARN组件更是Spark运行的基础，因此搭建Spark环境时，Hadoop的安装与配置也不可或缺。在搭建Spark环境时，首先需要下载Spark的组件。可以通过网络云盘提供的链接下载到所需的文件。下载完成后，解压文件并根据解压后的目录结构进行配置。在配

2025-06-07 21:14:00 587 1

原创 TopN问题

在处理大数据集时，TopN问题是一个常见的任务，它通常要求快速识别出数据中数值最大的前N个元素。在PySpark的环境中，我们可以利用RDD（弹性分布式数据集）来实现这种类型的数据分析。RDD是Spark中用于处理大数据的基石，它提供了容错的、并行操作的数据集合。本文将分析在PySpark中处理TopN问题的各种方法和实践。基本的TopN问题可以通过直接使用RDD的top()方法来解决。top()方法可以对RDD中的元素按照给定的排序函数进行排序，并返回排在前面的N个元素。例如，给定一组学生信息和他们的

2025-06-07 21:09:26 534

2501_90921105的博客

原创 Spark Streaming实时数据计算

原创 Ubuntu20.04安装MySQL 8.0最新版

原创 DStream输出操作

原创 NetworkWordCountSave.py

原创搭建spark伪分布集群

原创 Spark大数据分析案例

原创 Spark大数据分析案例

原创 Spark实时流数据处理实例

原创 Jupyter Notebook环境配置与测试

原创搭建分布集群

原创 RDD的创建和转换操作

原创 spark实操与知识摘要

原创 spark 知识总结

原创 Jupyter远程密码设置和访问

原创 DataFrame

原创窗口操作.

原创数据查询.

原创 spark环境搭建和配置

原创 TopN问题

空空如也

空空如也