- 博客(51)
- 收藏
- 关注
原创 spark应用部署模型实例
1、Local模式spark@ubuntu:/usr/local/spark/examples/src/main/python$ cd ..spark@ubuntu:/usr/local/spark/examples/src/main$ pyspark --master local2、Spark Standalone模式3、spark on yarn模式(1)停止Standalone服务,启动yarn服务:(2)将spark安装目录中的jars依赖库文件放到hdfs上(4)以YARN集群模式启动PySpa
2025-05-06 14:08:16
202
原创 PySpark编程环境
与PvSparkShell、Python、JupyterNotebook等交互式编程环境不同的是,PyCharm在运行代码时不能直接通过变量名将它们的内容打印显示,必须使用print(函数)代码准备完毕,现在可以在PyCharm的源代码编辑器任意空白位置单击鼠标右键,在弹出的快捷菜单中选择Run'x××'命令(x×x代表要运行的文件名),就会启动main.pv程序的执行。(1)我的文件源在(~/Downloads)3、安装pycharm。
2025-05-06 09:51:27
378
原创 读取Kafka数据流
Kafka是一个分布式的消息“发布-订阅”系统,也被称为消息中间件,它通过一个强大的消息队列处理大量的数据,并能够将消息从一个端点可靠地传递到另一个端点。Kafka非常适合离线和实时的数据消费,支持将消息内容保存在磁盘以防止数据丢失,能方便地与Spark集成,用于实时的流数据计算。Kafka实例(broker): Kafka集群中有多个节点,每个节点都可以存储消息,每个节点就是一个Kafka实例,也被称为 broker,其字面含义是“经纪人”。 主题
2025-05-06 09:49:27
1240
原创 Dstream词频统计(Dstream无状态转换和DStream状态更新转换)
1、Netcat网络工具测试(服务端与客户端可以会话进行信息交换)配置如下(注意格式,可以借用ai工具进行格式清洗)(1)Dstream无状态转换(套接字流)(2)DStream状态更新转换。窗口(以下界面为成功)
2025-04-22 11:21:35
196
原创 Kafka安装与测试流程总结
二、消费消息(在另一个终端(终端B)启动消费者)(3)启动生产者(终端A,Linux终端窗体)(1)创建名为mytopic的主题。2、启动ZooKeeper服务。一、创建Topic并生产消息。(Downloads里面)按ctrl+c终止进程。
2025-04-21 23:45:07
722
原创 Linux上安装MySQL
由于spark sql连接mysql在底层仍是通过Java实现的,因此还需要=将连接JDBC的JAR包文件复制到spark安装目录的jars文件夹中。当在Spark的安装目录新增了一个连接MySQL的JDBC驱动文件,为了使其生效,还应将当前正在运行的PySparkShell交互式编程环境退出。在Ubuntu环境下安装MySQL,可以通过软件源仓库在线安装,也可以自行下载合适的离线版本安装。更新安装源 ,安装MySQL ,查看MySQL的运行状态(运行中)解压缩 JDBC 的 jar 包文件。
2025-04-01 09:38:14
429
原创 词频统计(Word count)
1)数据源: /usr/local/spark/licenses/LICENSE-py4j.txt :2)请在PySpark编程环境中输入下面的代码:
2025-03-17 14:47:02
327
原创 max/min/sum/mean操作(max/min/sum/mean operations)
2)这几个方法的调用分别是rdd数据集的最大、最小、和、平均值,它们都是数值类型。
2025-03-17 14:05:55
293
原创 foreach操作(foreach operation)
2)Spark将集合数据分配到了多个CPU核上去并行执行,无法保证输出按原有的数字位置顺序。
2025-03-17 14:01:37
136
原创 mapValues和flatMapValues操作(mapValues and flatMapValues operations)
1)下面通过一个使用了mapValues()和flatMapValues()的示例代码进行说明:
2025-03-17 13:44:10
169
原创 sortByKey排序数据(Sort data by sortByKey)
1)下面以具体的例子代码分别给出sortByKey()方法的几种使用途径:
2025-03-17 13:20:40
114
原创 sortBy排序数据(Sort data with sortBy)
1)下面是一个简单的sortBy()的例子:2)定义一个更为通用的sortBy()例子代码:
2025-03-11 23:45:00
162
原创 flatMap转换数据(Transform data with flatMap)
1)在PySpark编程环境中输入以下的代码:2)再接着输入下面的代码执行,分析一下出现的结果:
2025-03-11 10:17:07
179
原创 从文本文件创建 RDD
1)先准备两个文本文件,分别存放在本地磁盘目录和 HDFS 中:2)根据实际情况启动 HDFS 服务:3)将数据文件上传至 HDFS 中:4)从数据文件创建对应的RDD数据集:5)查看一下所创建的RDD数据集的具体内容:
2025-03-11 09:23:42
92
原创 从集合元素创建 RDD(Create RDD from collections)
1)使用 parallelize()方法从普通集合元素创建 RDD。
2025-03-06 00:09:01
123
原创 Spark RDD 常用操作(Common operations in Spark RDD)
2)在其中输入下面的代码,可以查看 RDD 类包含的功能方法(在 Spark 中有一个专门的术语,称为 “算子”):(输完rdd1.之后连续敲两次键盘上的tab键)
2025-03-04 23:54:06
176
原创 Spark单机运行环境搭建(6.Spark框架目录结构)
的系统目录中包含有一系列的文件和子目录内容,每。个目录都有其特定的目的和用途。安装目录的内容结构如图所示。
2025-03-04 17:19:31
227
原创 Spark单机运行环境搭建(5.Pip的安装配置)
包管理工具安装配置好之后,考虑到实际使用时需要访问网络下载软件,下。源改成国内镜像(如阿里云、清华镜像站点等),以加快下载速度。的设置是否达到了预期目标。终端执行下面的命令安装。
2025-03-04 17:02:32
147
原创 Spark单机运行环境搭建(4.PySparkShell 交互编程环境)
1)当 Python3.6 运行环境准备就绪,现在就可以启动 PySparkShell 交互编程环境了。服务是否正常运行,具体步骤参考前述内容即可,这里假定HDFS。如果不出意外的话,应该会打印输出从文件中读取到的数据。读取文件数据的做法,在这里同样测试一下。也再次证明之前的配置是正确的。启动输出的提示信息可以看出,中访问本地和HDFS。)测试完毕,直接按下。交互编程环境的界面。
2025-03-04 13:39:48
163
原创 Spark 单机运行环境搭建(3.Python3.6 的安装)
python3.6 和 python3.6m,其中后者在内存分配方式上做了优化,实际使用时任选其一即可。这里准备采取第二种做法,即保留预装的 Python3.8,另外安装一个 Python3.6 运。2)现在面临两个选择,一是将系统默认安装的 Python3.8 卸载替换成 Python3.6,这。3)现在可以开始安装 Python 3.6,安装完毕查看一下 Python3.6 的启动程序。注意到,当 Python3.6 成功安装后,在/usr/bin 目录中会多出两个执行程序,即。
2025-03-04 12:56:07
261
原创 Spark 单机运行环境搭建(2.SparkShell 交互编程环境)
2)Spark 是用 Scala 语言开发的,当 SparkShell 启动后就支持运行 Scala 代码。个文件,路径为:/mydata/hello.txt,下面准备测试在 SparkShell 中读取这个文件。前面测试 HDFS 时已经上传过一。5)通过上述的测试,说明 Spark 的安装配置是正确的。正常的话,运行完毕就会打印输出 hello.txt 文件中的内容,说明 Spark 可以正常读取。境,可以按下键盘上的 Ctrl+D 快捷键,或输入“:quit”并回车(冒号输入也包含在内)。
2025-03-04 10:22:57
311
原创 Spark 单机运行环境搭建(1.Spark 的安装配置)
(PS:我自己的软件包在/home/spark,我们可以查找一下,更加确定。1)打开一个 Linux 终端,在其中执行以下命令将 Spark 软件包解压到/usr/local 目录。2)使用 vi 编辑器修改/etc/profile 文件,在其中添加有关 Spark 的环境变量设置。2)接下来开始配置 Spark 运行环境,相比而言 Spark 的配置更简单,所有配置文件均。如果一切正常的话,终端上会输出计算得到的 pi 近似值,这个值不固定,所以每次运。行输出的 pi 值是会变化的。
2025-03-04 10:01:20
183
原创 Hadoop 伪分布集群环境搭建(6.HDFS 和 YARN 的测试)
的WebUI管理页面,如图所示。如果是在Windows的浏览器访问,则需要将网址中的localhost改成Ubuntu20.04虚拟机的ip地址(通过Linux终端命令ip addr可以找到)。如果是在Windows的浏览器访问,则需要将网址中的localhost改成Ubuntu20.04虚拟机的IP地址才行。考虑到后续还会经常执行一些 Hadoop 的相关命令,为方便起见这里先把 Hadoop 的 bin。命令,除非重启动虚拟机才会全局有效。,比如创建目录,上传文件等。里面启动浏览器,访问。
2025-03-04 09:08:25
184
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人