- 博客(19)
- 收藏
- 关注
原创 Spark Streaming实时数据计算
ssc.checkpoint("file:///tmp/spark") #启动检查点机制。#(2)启动两个线程,每五秒为一个批次,创建DStream管家ssc对象,并启用检查点机制。#(2)启动两个线程,每五秒为一个批次,创建DStream管家ssc对象,并启用检查点机制。#(5)启动DStream流计算的循环运行,并等待程序终止(ctrl+c结束)#(5)启动DStream流计算的循环运行,并等待程序终止(ctrl+c结束)#(5)启动流计算循环执行,并等待程序终止(ctrl+c结束)
2025-06-10 14:22:27
635
原创 Ubuntu20.04安装MySQL 8.0最新版
mysql-client_8.0.27-1ubuntu20.04_amd64.deb mysql-community-client_8.0.27-1ubuntu20.04_amd64.deb , 要安 装的是第⼀个不带 community 的这个 ( 因为之前安装了 community 版本还是报这个错,安装 mysql-community-server_8.0.27-1ubuntu20.04_amd64.deb 这个包。以上的依赖都安装完后,就可以安装 server 了。client-core包安装。
2025-06-10 14:21:04
1600
原创 DStream输出操作
4.保存以上代码并退出编辑器,确保nc服务端在监听9999端口,然后在Linux终端窗体中通过spark-submit命令将NetworkWordCountSave.py程序提交到Spark运行,然后在nc服务端输入文字内容(打开两个终端窗口,在上面窗口中输入)6.查看主目录中的streaming文件夹,里面出现了很多以output-开关的子目录,其中保存的就是不同批次时间点的数据文件。ssc = StreamingContext(sc, 2) # 批处理间隔2秒。# 词频统计结果保存到文件系统。
2025-06-10 14:17:25
382
原创 NetworkWordCountSave.py
NetworkWordCountSave.py》这一脚本正是利用了Spark Streaming来实现一个实时的词频统计系统,该系统可以将处理结果保存至外部存储系统中,如HDFS。《NetworkWordCountSave.py》通过Spark Streaming读取网络数据流,借助Kafka进行数据的高效读写,实现了数据的实时读取和处理。该脚本执行的主要步骤包括:建立与Kafka的连接、从Kafka接收消息、对消息进行实时词频统计,最后将统计结果保存至指定的存储系统。
2025-06-10 14:15:11
283
原创 搭建spark伪分布集群
2.更改了主机名,还需要修改/etc/hosts文件,在这个文件设定了IP地址与主机名的对应关系,类似DNS域名服务器的功能。3.修改spark相关配置文件,包括spark-env.sh和slave两个文件。5.重启spark集群 出现worker和master表示成功。7.在浏览器输入:http://vm01:8080/ 查看。1.先查看虚拟机的默认名称,将其修改为vm01。4.将localhost改为vm01 保存退出。
2025-06-10 14:14:16
117
原创 Spark大数据分析案例
美妆商品订单数据存储在CSV文件中,它们都是结构化的数据,Spark SQL要做的工作包括数据清洗和数据预处理两个方面。| D31449| 2019-5-1| S12455| 南区|广西壮族自治区| 百色市| X051| 1236| 203| 250908.0|.withColumn('cust_province', regexp_replace('cust_province','自治区|维吾尔|回族|壮族|省|市','')) \。
2025-06-10 14:13:08
541
原创 Spark大数据分析案例
美妆商品订单数据存储在CSV文件中,它们都是结构化的数据,Spark SQL要做的工作包括数据清洗和数据预处理两个方面。| D32470|2019-4-11| S18696| 北区| 北京市| 北京市| X010| 887| 58| 51446.0|.withColumn('cust_province', regexp_replace('cust_province','自治区|维吾尔|回族|壮族|省|市','')) \。
2025-06-07 21:34:29
542
原创 Spark实时流数据处理实例
(2)打开一个Linux终端窗体,在其中输入下面的命令,将消息接收者程序提交到Spark中运行,其中用到的spark-streaming-kafka-0-8-assembly_2.11-2.4.8.jar依赖库文件此前已下载放在~/streaming目录中,为避免每次提交应用程序时在命令行手动指定,可以将其复制到集群的各节点Spark安装目录中(位于/usr/local/spark/jars目录)从输出结果可以清楚地看到,接收的Kafka消息是一系列(K,V)键值对形式的二元组,其中的K代表。
2025-06-07 21:33:44
508
原创 Jupyter Notebook环境配置与测试
启动服务:jupyter notebook # 浏览器自动打开 http://localhost:8888。print(rdd.collect()) # 输出:[1, 2, 3, 4, 5]在Notebook中运行代码:import findspark。findspark:使PySpark在Jupyter中正常导入。注意:代码需写在同一个Cell中,按Shift+Enter执行。findspark.init() # 只需执行一次。1. 安装Jupyter与findspark。
2025-06-07 21:29:03
260
原创 搭建分布集群
3.修改spark相关配置文件,包括spark-env.sh和slave两个文件。2.修改/etc/hosts文件,在这个文件设定了IP地址与主机名的对应关系。5.重启spark集群 出现worker和master表示成功。7.在浏览器输入:http://vm01:8080/ 查看。4.将localhost改为vm01 保存退出。1.查看虚拟机的默认名称,将其修改为vm01。
2025-06-07 21:27:29
141
原创 RDD的创建和转换操作
转换操作是Spark中对RDD进行处理的基本操作,它们是惰性执行的,只有在触发行动操作时才会执行计算。容错机制:RDD通过lineage机制实现容错,如果某个分区的数据丢失,可以通过重新计算其父RDD的对应分区来恢复。groupByKey操作通常用于键值对RDD,它将具有相同键的值聚合在一起,并返回一个新的RDD。分区的合理设置:分区的数量会影响数据处理的效率。filter操作根据给定的条件过滤RDD中的元素,并返回一个新的RDD。map操作将RDD中的每个元素应用一个函数,并返回一个新的RDD。
2025-06-07 21:26:39
366
原创 spark实操与知识摘要
sudo tar -zxf spark-2.4.8-bin-without-hadoop.tgz -C /usr/local #解压到local文件夹。sudo tar -zxf jdk-8u201-linux-x64.tar.gz -C /usr/local #解压到local文件夹。sudo ln -s spark-2.4.8-bin-without-hadoop.tgz/ spark #创建快捷方式名称为spark。to override,按:wq!
2025-06-07 21:25:28
193
原创 spark 知识总结
Row(id='12', name='宋江', age=25, gender='男', object='chinese', score=50), Row(id='12', name='宋江', age=25, gender='男', object='math', score=60)]rdd = sc.parallelize([1,2,3,6,5,4,6,12,23]).groupBy(lambda x:x%3) #将元素分成3组,第一组x%3==0,第二组x%3==1,第三组x%3==2。
2025-06-07 21:22:08
1638
原创 Jupyter远程密码设置和访问
打开.jupyter/jupyter_notebook_config.py文件,找到并修改以下配置项。(根据上图文件位置,找到文件并打开)。原文链接:https://blog.csdn.net/2401_87241283/article/details/146885345。这会在用户主目录下生成.jupyter/jupyter_notebook_config.py文件。确保两次密码输入一致,输入确认的密码后,密码会被加密并保存到配置文件中。在浏览器输入 http://(你的ip地址):8888,即可访问。
2025-06-07 21:20:48
348
原创 DataFrame
>>data=sc.textFile('file:///home/spark/mydata/03/test. txt').map(Iambda x:x.split('')).map(lambda x:(x[0], x[1], int(x[2]), x[3], x[4], int(x[5]))) #读取文件内容,将第三位和第四位改为整数类型。>>>schema = ['id', 'name', 'age', 'score', 'gender'] #命名,第一个为id 第二个为name。
2025-06-07 21:19:34
1757
原创 窗口操作.
不过有时候我们关注的并不是分组统计问题,而是类似“有来自多个班的学生成绩,分别对每个班的学生进行成绩排名”这样的问题,不是对所有班的学生进行排名,而是针对每个班的学生进行单独的排名.显然,首先这是一个分组问题,但不能通过GROUP BY来解决。实际上,窗口可以理解为“指定记录的集合”,即每条记录都有其对应的窗口,窗口的功能与GROUP BY类似,它们都能将满足条件的记录划分出来。(2)当窗口函数和聚合函数一起使用时,窗口函数是基于聚合后的数据执行的,也就是说,先执行聚合操作,再执行窗口函数。
2025-06-07 21:18:47
323
原创 数据查询.
spark.sql("select * from website where name in ('Google','菜鸟教程')").show()(1)指定字段:spark.sql("select name, country from website").show()(0)全字段查询:spark.sql("select * from website").show(10, False)查询日访问次数count字段的平均值(sum(),avg(), max(), min(), count())
2025-06-07 21:18:01
365
原创 spark环境搭建和配置
Spark环境搭建和配置需要考虑操作系统、Java开发包(JDK)以及Hadoop等组件的安装与配置。在开始搭建Spark环境之前,首先需要检查系统的兼容性,安装适合操作系统的JDK版本,并且配置好相关的环境变量。Hadoop作为大数据处理的底层框架,其YARN组件更是Spark运行的基础,因此搭建Spark环境时,Hadoop的安装与配置也不可或缺。在搭建Spark环境时,首先需要下载Spark的组件。可以通过网络云盘提供的链接下载到所需的文件。下载完成后,解压文件并根据解压后的目录结构进行配置。在配
2025-06-07 21:14:00
587
1
原创 TopN问题
在处理大数据集时,TopN问题是一个常见的任务,它通常要求快速识别出数据中数值最大的前N个元素。在PySpark的环境中,我们可以利用RDD(弹性分布式数据集)来实现这种类型的数据分析。RDD是Spark中用于处理大数据的基石,它提供了容错的、并行操作的数据集合。本文将分析在PySpark中处理TopN问题的各种方法和实践。基本的TopN问题可以通过直接使用RDD的top()方法来解决。top()方法可以对RDD中的元素按照给定的排序函数进行排序,并返回排在前面的N个元素。例如,给定一组学生信息和他们的
2025-06-07 21:09:26
534
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅