自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(51)
  • 收藏
  • 关注

原创 spark应用部署模型实例

1、Local模式spark@ubuntu:/usr/local/spark/examples/src/main/python$ cd ..spark@ubuntu:/usr/local/spark/examples/src/main$ pyspark --master local2、Spark Standalone模式3、spark on yarn模式(1)停止Standalone服务,启动yarn服务:(2)将spark安装目录中的jars依赖库文件放到hdfs上(4)以YARN集群模式启动PySpa

2025-05-06 14:08:16 202

原创 搭建spark伪分布集群

etc/hosts添加以下内容/查看5、配置 Spark 历史服务器创造新文件夹。

2025-05-06 13:24:35 229

原创 PySpark编程环境

与PvSparkShell、Python、JupyterNotebook等交互式编程环境不同的是,PyCharm在运行代码时不能直接通过变量名将它们的内容打印显示,必须使用print(函数)代码准备完毕,现在可以在PyCharm的源代码编辑器任意空白位置单击鼠标右键,在弹出的快捷菜单中选择Run'x××'命令(x×x代表要运行的文件名),就会启动main.pv程序的执行。(1)我的文件源在(~/Downloads)3、安装pycharm。

2025-05-06 09:51:27 378

原创 读取Kafka数据流

Kafka是一个分布式的消息“发布-订阅”系统,也被称为消息中间件,它通过一个强大的消息队列处理大量的数据,并能够将消息从一个端点可靠地传递到另一个端点。Kafka非常适合离线和实时的数据消费,支持将消息内容保存在磁盘以防止数据丢失,能方便地与Spark集成,用于实时的流数据计算。Kafka实例(broker): Kafka集群中有多个节点,每个节点都可以存储消息,每个节点就是一个Kafka实例,也被称为 broker,其字面含义是“经纪人”。 主题

2025-05-06 09:49:27 1240

原创 Dstream词频统计(Dstream无状态转换和DStream状态更新转换)

1、Netcat网络工具测试(服务端与客户端可以会话进行信息交换)配置如下(注意格式,可以借用ai工具进行格式清洗)(1)Dstream无状态转换(套接字流)(2)DStream状态更新转换。窗口(以下界面为成功)

2025-04-22 11:21:35 196

原创 Kafka安装与测试流程总结

二、消费消息(在另一个终端(终端B)启动消费者)(3)启动生产者(终端A,Linux终端窗体)(1)创建名为mytopic的主题。2、启动ZooKeeper服务。一、创建Topic并生产消息。(Downloads里面)按ctrl+c终止进程。

2025-04-21 23:45:07 722

原创 Linux上安装MySQL

由于spark sql连接mysql在底层仍是通过Java实现的,因此还需要=将连接JDBC的JAR包文件复制到spark安装目录的jars文件夹中。当在Spark的安装目录新增了一个连接MySQL的JDBC驱动文件,为了使其生效,还应将当前正在运行的PySparkShell交互式编程环境退出。在Ubuntu环境下安装MySQL,可以通过软件源仓库在线安装,也可以自行下载合适的离线版本安装。更新安装源 ,安装MySQL ,查看MySQL的运行状态(运行中)解压缩 JDBC 的 jar 包文件。

2025-04-01 09:38:14 429

原创 spark中添加中文输入法

记住一定要有网络

2025-03-30 14:11:03 394

原创 基本TopN问题

1)请在Pyspark编程环境中输入以下代码:

2025-03-18 09:37:46 117

原创 词频统计(Word count)

1)数据源: /usr/local/spark/licenses/LICENSE-py4j.txt :2)请在PySpark编程环境中输入下面的代码:

2025-03-17 14:47:02 327

原创 max/min/sum/mean操作(max/min/sum/mean operations)

2)这几个方法的调用分别是rdd数据集的最大、最小、和、平均值,它们都是数值类型。

2025-03-17 14:05:55 293

原创 count操作(count operation)

2)count()返回的是RDD数据集的元素个数。

2025-03-17 14:03:25 221

原创 foreach操作(foreach operation)

2)Spark将集合数据分配到了多个CPU核上去并行执行,无法保证输出按原有的数字位置顺序。

2025-03-17 14:01:37 136

原创 first操作(first operation)

2)如果是对一个空的RDD执行first()方法的话,因为不存在任何元素,此时会提示错误信息。

2025-03-17 13:57:59 121

原创 take操作(take operation)

2)take()相比collect()就是可以指定返回的元素个数。

2025-03-17 13:55:13 189

原创 collect操作(collect operation)

2)collect()返回的是一个List类型的数组。

2025-03-17 13:52:12 173

原创 mapValues和flatMapValues操作(mapValues and flatMapValues operations)

1)下面通过一个使用了mapValues()和flatMapValues()的示例代码进行说明:

2025-03-17 13:44:10 169

原创 keys和values操作(keys and values operations)

1)下面给出一个例子代码:

2025-03-17 13:26:22 193

原创 sortByKey排序数据(Sort data by sortByKey)

1)下面以具体的例子代码分别给出sortByKey()方法的几种使用途径:

2025-03-17 13:20:40 114

原创 reduceByKey 合并数据(Merge data by reduceByKey)

1)下面以代码例子来说明:

2025-03-17 13:07:40 176

原创 groupByKey 分组数据(Grouping data with groupByKey)

1)这里以一个简单的例子予以说明:

2025-03-17 12:40:41 175

原创 groupBy分组数据

1)下面是一个简单的例子:

2025-03-12 15:30:00 208

原创 subtract数据减集(Data subtraction with subtract)

1)下面是一个简单的例子:

2025-03-12 12:00:00 223

原创 intersection数据交集(Intersect data with intersection)

1)下面是一个简单的例子:

2025-03-12 09:00:00 275

原创 union合并数据(Merge data with union)

1)下面给出一个简单的应用例子:

2025-03-12 04:00:00 203

原创 distinct去重数据

1)下面给出一个简单的应用例子:

2025-03-12 01:00:00 100

原创 sortBy排序数据(Sort data with sortBy)

1)下面是一个简单的sortBy()的例子:2)定义一个更为通用的sortBy()例子代码:

2025-03-11 23:45:00 162

原创 .filter筛选数据(Filter data with filter)

1)在PySpark编程环境中输入以下的代码:

2025-03-11 10:21:22 359

原创 flatMap转换数据(Transform data with flatMap)

1)在PySpark编程环境中输入以下的代码:2)再接着输入下面的代码执行,分析一下出现的结果:

2025-03-11 10:17:07 179

原创 map转换数据(Transform data with map)

必须有一个空行,代表定义结束。

2025-03-11 09:46:50 177

原创 从文本文件创建 RDD

1)先准备两个文本文件,分别存放在本地磁盘目录和 HDFS 中:2)根据实际情况启动 HDFS 服务:3)将数据文件上传至 HDFS 中:4)从数据文件创建对应的RDD数据集:5)查看一下所创建的RDD数据集的具体内容:

2025-03-11 09:23:42 92

原创 从集合元素创建 RDD(Create RDD from collections)

1)使用 parallelize()方法从普通集合元素创建 RDD。

2025-03-06 00:09:01 123

原创 Spark RDD 常用操作(Common operations in Spark RDD)

2)在其中输入下面的代码,可以查看 RDD 类包含的功能方法(在 Spark 中有一个专门的术语,称为 “算子”):(输完rdd1.之后连续敲两次键盘上的tab键)

2025-03-04 23:54:06 176

原创 Spark单机运行环境搭建(6.Spark框架目录结构)

的系统目录中包含有一系列的文件和子目录内容,每。个目录都有其特定的目的和用途。安装目录的内容结构如图所示。

2025-03-04 17:19:31 227

原创 Spark单机运行环境搭建(5.Pip的安装配置)

包管理工具安装配置好之后,考虑到实际使用时需要访问网络下载软件,下。源改成国内镜像(如阿里云、清华镜像站点等),以加快下载速度。的设置是否达到了预期目标。终端执行下面的命令安装。

2025-03-04 17:02:32 147

原创 Spark单机运行环境搭建(4.PySparkShell 交互编程环境)

1)当 Python3.6 运行环境准备就绪,现在就可以启动 PySparkShell 交互编程环境了。服务是否正常运行,具体步骤参考前述内容即可,这里假定HDFS。如果不出意外的话,应该会打印输出从文件中读取到的数据。读取文件数据的做法,在这里同样测试一下。也再次证明之前的配置是正确的。启动输出的提示信息可以看出,中访问本地和HDFS。)测试完毕,直接按下。交互编程环境的界面。

2025-03-04 13:39:48 163

原创 Spark 单机运行环境搭建(3.Python3.6 的安装)

python3.6 和 python3.6m,其中后者在内存分配方式上做了优化,实际使用时任选其一即可。这里准备采取第二种做法,即保留预装的 Python3.8,另外安装一个 Python3.6 运。2)现在面临两个选择,一是将系统默认安装的 Python3.8 卸载替换成 Python3.6,这。3)现在可以开始安装 Python 3.6,安装完毕查看一下 Python3.6 的启动程序。注意到,当 Python3.6 成功安装后,在/usr/bin 目录中会多出两个执行程序,即。

2025-03-04 12:56:07 261

原创 Spark 单机运行环境搭建(2.SparkShell 交互编程环境)

2)Spark 是用 Scala 语言开发的,当 SparkShell 启动后就支持运行 Scala 代码。个文件,路径为:/mydata/hello.txt,下面准备测试在 SparkShell 中读取这个文件。前面测试 HDFS 时已经上传过一。5)通过上述的测试,说明 Spark 的安装配置是正确的。正常的话,运行完毕就会打印输出 hello.txt 文件中的内容,说明 Spark 可以正常读取。境,可以按下键盘上的 Ctrl+D 快捷键,或输入“:quit”并回车(冒号输入也包含在内)。

2025-03-04 10:22:57 311

原创 Spark 单机运行环境搭建(1.Spark 的安装配置)

(PS:我自己的软件包在/home/spark,我们可以查找一下,更加确定。1)打开一个 Linux 终端,在其中执行以下命令将 Spark 软件包解压到/usr/local 目录。2)使用 vi 编辑器修改/etc/profile 文件,在其中添加有关 Spark 的环境变量设置。2)接下来开始配置 Spark 运行环境,相比而言 Spark 的配置更简单,所有配置文件均。如果一切正常的话,终端上会输出计算得到的 pi 近似值,这个值不固定,所以每次运。行输出的 pi 值是会变化的。

2025-03-04 10:01:20 183

原创 Hadoop 伪分布集群环境搭建(6.HDFS 和 YARN 的测试)

的WebUI管理页面,如图所示。如果是在Windows的浏览器访问,则需要将网址中的localhost改成Ubuntu20.04虚拟机的ip地址(通过Linux终端命令ip addr可以找到)。如果是在Windows的浏览器访问,则需要将网址中的localhost改成Ubuntu20.04虚拟机的IP地址才行。考虑到后续还会经常执行一些 Hadoop 的相关命令,为方便起见这里先把 Hadoop 的 bin。命令,除非重启动虚拟机才会全局有效。,比如创建目录,上传文件等。里面启动浏览器,访问。

2025-03-04 09:08:25 184

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除