Spark运行WordCount例子

最新推荐文章于 2024-07-19 16:04:56 发布

深夜的猫213

最新推荐文章于 2024-07-19 16:04:56 发布

阅读量3.6k

点赞数

分类专栏： Spark 文章标签： spark hdfs big data

本文链接：https://blog.csdn.net/m0_46917254/article/details/123461604

版权

Spark 专栏收录该内容

5 篇文章 2 订阅

订阅专栏

Spark运行WordCount例子（python）

一：前提

因为我们是在yarn上运行Spark，所以要有这个环境。文件是从hdfs上读取的，所以hadoop集群要搭建好（单机即可，不需要全分布式）。

下面演示是我在一台机器（master）上运行的。

另外代码用的是Python语言，在jupyter notebook上运行。

二：上传文件

1.查看本地文件：
在这里插入图片描述

2.把本地文件hello.txt上传到hdfs上。

命令：hadoop fs -put hello.txt /class_data

3.在yarn上运行Spark

命令：pyspark --master yarn

4.生成RDD文件

from pyspark import SparkConf,SparkContext
conf = SparkConf().setMaster("local").setAppName("My App")
sc = SparkContext(conf=conf)          #生成SparkContext对象
rdd2 = sc.textFile("hdfs://master:9000/class_data/hello.txt")  #从HDFS里加载RDD
rdd2

结果：

在这里插入图片描述

5.分割字符

rdd4 = rdd2.map(lambda x:x.split(" "))     #用split()函数分割字符
rdd4.collect()                              #map(func)函数作用：将每个元素传递到函数func中，并将结果返回为一个新的数据集

结果：

在这里插入图片描述

6.为每个字符标记

rdd6 = rdd2.flatMap(lambda x:x.split(" "))     #flatMap与map相似，但每个输入函数都可以映射到0或多个输出结果。  
rdd7 = rdd6.map(lambda x:(x,1))
rdd7.collect()

结果：

在这里插入图片描述

7.统计记数

words = rdd7.reduceByKey(lambda a,b:a+b)
words.collect()

结果：

在这里插入图片描述

三、map和flatMap函数的区别

例：

rdd4 = rdd2.map(lambda x:x.split(" "))     
rdd4.collect()

结果
在这里插入图片描述

rdd6 = rdd2.flatMap(lambda x:x.split(" "))    
rdd6.collect()

结果
在这里插入图片描述

上面例子我们可以直观的看出来两者的区别。

深夜的猫213

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
Spark运行WordCount例子

Spark运行WordCount例子（python）一：前提因为我们是在yarn上运行Spark，所以要有这个环境。文件是从hdfs上读取的，所以hadoop集群要搭建好（单机即可，不需要全分布式）。下面演示是我在一台机器（master）上运行的。另外代码用的是Python语言，在jupyter notebook上运行。二：上传文件1.查看本地文件：2.把本地文件hello.txt上传到hdfs上。命令：hadoop fs -put hello.txt /class_data3.在yar
复制链接

扫一扫