小猫摸鱼摸到老板头上-CSDN博客

原创 spark应用部署模型实例

1、Local模式spark@ubuntu:/usr/local/spark/examples/src/main/python$ cd ..spark@ubuntu:/usr/local/spark/examples/src/main$ pyspark --master local2、Spark Standalone模式3、spark on yarn模式（1）停止Standalone服务，启动yarn服务：（2）将spark安装目录中的jars依赖库文件放到hdfs上（4）以YARN集群模式启动PySpa

2025-05-06 14:08:16 202

原创搭建spark伪分布集群

etc/hosts添加以下内容/查看5、配置 Spark 历史服务器创造新文件夹。

2025-05-06 13:24:35 229

原创 PySpark编程环境

与PvSparkShell、Python、JupyterNotebook等交互式编程环境不同的是，PyCharm在运行代码时不能直接通过变量名将它们的内容打印显示，必须使用print(函数）代码准备完毕，现在可以在PyCharm的源代码编辑器任意空白位置单击鼠标右键，在弹出的快捷菜单中选择Run'x××'命令（x×x代表要运行的文件名），就会启动main.pv程序的执行。（1）我的文件源在（~/Downloads）3、安装pycharm。

2025-05-06 09:51:27 378

原创读取Kafka数据流

Kafka是一个分布式的消息“发布-订阅”系统，也被称为消息中间件，它通过一个强大的消息队列处理大量的数据，并能够将消息从一个端点可靠地传递到另一个端点。Kafka非常适合离线和实时的数据消费，支持将消息内容保存在磁盘以防止数据丢失，能方便地与Spark集成，用于实时的流数据计算。Kafka实例（broker）： Kafka集群中有多个节点，每个节点都可以存储消息，每个节点就是一个Kafka实例，也被称为 broker，其字面含义是“经纪人”。主题

2025-05-06 09:49:27 1240

原创 Dstream词频统计（Dstream无状态转换和DStream状态更新转换）

1、Netcat网络工具测试（服务端与客户端可以会话进行信息交换）配置如下（注意格式，可以借用ai工具进行格式清洗）（1）Dstream无状态转换（套接字流）（2）DStream状态更新转换。窗口（以下界面为成功）

2025-04-22 11:21:35 196

原创 Kafka安装与测试流程总结

二、消费消息（在另一个终端(终端B)启动消费者）（3）启动生产者(终端A，Linux终端窗体)（1）创建名为mytopic的主题。2、启动ZooKeeper服务。一、创建Topic并生产消息。（Downloads里面）按ctrl＋c终止进程。

2025-04-21 23:45:07 722

原创 Linux上安装MySQL

由于spark sql连接mysql在底层仍是通过Java实现的，因此还需要=将连接JDBC的JAR包文件复制到spark安装目录的jars文件夹中。当在Spark的安装目录新增了一个连接MySQL的JDBC驱动文件，为了使其生效，还应将当前正在运行的PySparkShell交互式编程环境退出。在Ubuntu环境下安装MySQL，可以通过软件源仓库在线安装，也可以自行下载合适的离线版本安装。更新安装源，安装MySQL ，查看MySQL的运行状态（运行中）解压缩 JDBC 的 jar 包文件。

2025-04-01 09:38:14 429

原创 spark中添加中文输入法

记住一定要有网络

2025-03-30 14:11:03 394

原创基本TopN问题

1）请在Pyspark编程环境中输入以下代码：

2025-03-18 09:37:46 117

原创词频统计(Word count)

1）数据源： /usr/local/spark/licenses/LICENSE-py4j.txt ：2）请在PySpark编程环境中输入下面的代码：

2025-03-17 14:47:02 327

原创 max/min/sum/mean操作(max/min/sum/mean operations)

2）这几个方法的调用分别是rdd数据集的最大、最小、和、平均值，它们都是数值类型。

2025-03-17 14:05:55 293

原创 count操作(count operation)

2）count()返回的是RDD数据集的元素个数。

2025-03-17 14:03:25 221

原创 foreach操作(foreach operation)

2）Spark将集合数据分配到了多个CPU核上去并行执行，无法保证输出按原有的数字位置顺序。

2025-03-17 14:01:37 136

原创 first操作(first operation)

2）如果是对一个空的RDD执行first()方法的话，因为不存在任何元素，此时会提示错误信息。

2025-03-17 13:57:59 121

原创 take操作(take operation)

2）take()相比collect()就是可以指定返回的元素个数。

2025-03-17 13:55:13 189

原创 collect操作(collect operation)

2）collect()返回的是一个List类型的数组。

2025-03-17 13:52:12 173

原创 mapValues和flatMapValues操作(mapValues and flatMapValues operations)

1）下面通过一个使用了mapValues()和flatMapValues()的示例代码进行说明：

2025-03-17 13:44:10 169

原创 keys和values操作(keys and values operations)

1）下面给出一个例子代码：

2025-03-17 13:26:22 193

原创 sortByKey排序数据(Sort data by sortByKey)

1）下面以具体的例子代码分别给出sortByKey()方法的几种使用途径：

2025-03-17 13:20:40 114

原创 reduceByKey 合并数据(Merge data by reduceByKey)

1）下面以代码例子来说明：

2025-03-17 13:07:40 176

原创 groupByKey 分组数据(Grouping data with groupByKey)

1）这里以一个简单的例子予以说明：

2025-03-17 12:40:41 175

原创 groupBy分组数据

1）下面是一个简单的例子：

2025-03-12 15:30:00 208

原创 subtract数据减集(Data subtraction with subtract)

1）下面是一个简单的例子：

2025-03-12 12:00:00 223

原创 intersection数据交集(Intersect data with intersection)

1）下面是一个简单的例子：

2025-03-12 09:00:00 275

原创 union合并数据(Merge data with union)

1）下面给出一个简单的应用例子：

2025-03-12 04:00:00 203

原创 distinct去重数据

1）下面给出一个简单的应用例子：

2025-03-12 01:00:00 100

原创 sortBy排序数据(Sort data with sortBy)

1）下面是一个简单的sortBy()的例子：2）定义一个更为通用的sortBy()例子代码：

2025-03-11 23:45:00 162

原创 .filter筛选数据(Filter data with filter)

1）在PySpark编程环境中输入以下的代码：

2025-03-11 10:21:22 359

原创 flatMap转换数据(Transform data with flatMap)

1）在PySpark编程环境中输入以下的代码：2）再接着输入下面的代码执行，分析一下出现的结果：

2025-03-11 10:17:07 179

原创 map转换数据(Transform data with map)

必须有一个空行，代表定义结束。

2025-03-11 09:46:50 177

原创从文本文件创建 RDD

1）先准备两个文本文件，分别存放在本地磁盘目录和 HDFS 中：2）根据实际情况启动 HDFS 服务：3）将数据文件上传至 HDFS 中：4）从数据文件创建对应的RDD数据集：5）查看一下所创建的RDD数据集的具体内容：

2025-03-11 09:23:42 92

原创从集合元素创建 RDD(Create RDD from collections)

1）使用 parallelize()方法从普通集合元素创建 RDD。

2025-03-06 00:09:01 123

原创 Spark RDD 常用操作(Common operations in Spark RDD)

2）在其中输入下面的代码，可以查看 RDD 类包含的功能方法（在 Spark 中有一个专门的术语，称为 “算子”）：（输完rdd1.之后连续敲两次键盘上的tab键）

2025-03-04 23:54:06 176

原创 Spark单机运行环境搭建（6.Spark框架目录结构）

的系统目录中包含有一系列的文件和子目录内容，每。个目录都有其特定的目的和用途。安装目录的内容结构如图所示。

2025-03-04 17:19:31 227

原创 Spark单机运行环境搭建（5.Pip的安装配置）

包管理工具安装配置好之后，考虑到实际使用时需要访问网络下载软件，下。源改成国内镜像（如阿里云、清华镜像站点等），以加快下载速度。的设置是否达到了预期目标。终端执行下面的命令安装。

2025-03-04 17:02:32 147

原创 Spark单机运行环境搭建（4.PySparkShell 交互编程环境）

1）当 Python3.6 运行环境准备就绪，现在就可以启动 PySparkShell 交互编程环境了。服务是否正常运行，具体步骤参考前述内容即可，这里假定HDFS。如果不出意外的话，应该会打印输出从文件中读取到的数据。读取文件数据的做法，在这里同样测试一下。也再次证明之前的配置是正确的。启动输出的提示信息可以看出，中访问本地和HDFS。）测试完毕，直接按下。交互编程环境的界面。

2025-03-04 13:39:48 163

原创 Spark 单机运行环境搭建（3.Python3.6 的安装）

python3.6 和 python3.6m，其中后者在内存分配方式上做了优化，实际使用时任选其一即可。这里准备采取第二种做法，即保留预装的 Python3.8，另外安装一个 Python3.6 运。2）现在面临两个选择，一是将系统默认安装的 Python3.8 卸载替换成 Python3.6，这。3）现在可以开始安装 Python 3.6，安装完毕查看一下 Python3.6 的启动程序。注意到，当 Python3.6 成功安装后，在/usr/bin 目录中会多出两个执行程序，即。

2025-03-04 12:56:07 261

原创 Spark 单机运行环境搭建（2.SparkShell 交互编程环境）

2）Spark 是用 Scala 语言开发的，当 SparkShell 启动后就支持运行 Scala 代码。个文件，路径为：/mydata/hello.txt，下面准备测试在 SparkShell 中读取这个文件。前面测试 HDFS 时已经上传过一。5）通过上述的测试，说明 Spark 的安装配置是正确的。正常的话，运行完毕就会打印输出 hello.txt 文件中的内容，说明 Spark 可以正常读取。境，可以按下键盘上的 Ctrl+D 快捷键，或输入“:quit”并回车（冒号输入也包含在内）。

2025-03-04 10:22:57 311

原创 Spark 单机运行环境搭建（1.Spark 的安装配置）

（PS：我自己的软件包在/home/spark，我们可以查找一下，更加确定。1）打开一个 Linux 终端，在其中执行以下命令将 Spark 软件包解压到/usr/local 目录。2）使用 vi 编辑器修改/etc/profile 文件，在其中添加有关 Spark 的环境变量设置。2）接下来开始配置 Spark 运行环境，相比而言 Spark 的配置更简单，所有配置文件均。如果一切正常的话，终端上会输出计算得到的 pi 近似值，这个值不固定，所以每次运。行输出的 pi 值是会变化的。

2025-03-04 10:01:20 183

原创 Hadoop 伪分布集群环境搭建（6.HDFS 和 YARN 的测试）

的WebUI管理页面，如图所示。如果是在Windows的浏览器访问，则需要将网址中的localhost改成Ubuntu20.04虚拟机的ip地址（通过Linux终端命令ip addr可以找到）。如果是在Windows的浏览器访问，则需要将网址中的localhost改成Ubuntu20.04虚拟机的IP地址才行。考虑到后续还会经常执行一些 Hadoop 的相关命令，为方便起见这里先把 Hadoop 的 bin。命令，除非重启动虚拟机才会全局有效。，比如创建目录，上传文件等。里面启动浏览器，访问。

2025-03-04 09:08:25 184

空空如也

Ubuntu 虚拟机的安装(Installation of Ubuntu virtual machine)