Spark在从HDFS上读取文件运行，然后将运行后文件保存到hdfs上流程

最新推荐文章于 2023-07-03 21:45:58 发布

蒲公英smile

最新推荐文章于 2023-07-03 21:45:58 发布

阅读量1.1k

点赞数

分类专栏： Hadoop/Spark

本文链接：https://blog.csdn.net/qq_44881930/article/details/119323349

版权

Hadoop/Spark 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

1、提交代码

首先将Python代码上传到对应目录，然后用 spark-submit 命令提交代码。

./bin/spark-submit ./pythonProgram/spark_hello.py hdfs://hadoop102:8020/b.txt  hdfs://hadoop102:8020/output

hdfs://hadoop102:8020/b.txt 为需要分析的文件，hdfs://hadoop102:8020/output为输出文件存放路径

python代码如下：

from pyspark import SparkContext, SparkConf
import sys

__author__ = "yasaka"

conf = SparkConf().setAppName("yasaka").setMaster("local[*]")

sc = SparkContext(conf = conf)

print(sys.argv[1])
# rdd = sc.textFile("../data/b.txt")

# sys.argv[2] 表示传入的参数，由shell命令传入，一般为 hdfs url
rdd = sc.textFile(sys.argv[1])
result = rdd.flatMap(lambda line:line.split()).map(lambda word:(word,1)).reduceByKey(lambda a,b:a+b)

sorted_result = result.map(lambda pairs:(pairs[1], pairs[0])).sortByKey(ascending=False).\
    map(lambda pairs:(pairs[1], pairs[0]))
# print(sorted_result)

# sys.argv[2] 表示传入的参数，由shell命令传入
sorted_result.saveAsTextFile(sys.argv[2])

注意：

在这里插入图片描述
传入的参数为hdfs存放文件的url，其端口号8082为如下图片所示。

蒲公英smile

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
Spark在从HDFS上读取文件运行，然后将运行后文件保存到hdfs上流程

1、提交代码首先将Python代码上传到对应目录，然后用 spark-submit 命令提交代码。./bin/spark-submit ./pythonProgram/spark_hello.py hdfs://hadoop102:8020/b.txt./bin/spark-submit ./pythonProgram/spark_hello.py hdfs://hadoop102:8020/b.txtpython代码如下：from pyspark import SparkContext, Sp
复制链接

扫一扫