Spark读取文件系统的数据

最新推荐文章于 2024-04-29 11:12:25 发布

小关不摆烂

最新推荐文章于 2024-04-29 11:12:25 发布

阅读量2.5k

点赞数 1

文章标签： spark hadoop hdfs

本文链接：https://blog.csdn.net/m0_60946919/article/details/130916911

版权

文章详细描述了如何在pyspark环境中以及独立Python应用程序中使用pyspark读取Linux本地和HDFS上的文件，进行行数统计。同时提到了在遇到文件不存在的情况时如何创建文件，并探讨了通过spark-submit提交程序时的日志控制和Python环境配置问题。

摘要由CSDN通过智能技术生成

（1）在pyspark中读取Linux系统本地文件“/home/hadoop/test.txt”（如果该文件不存在，请创建并自由添加内容），然后统计出文件的行数；

cat /home/hadoop/test.txt
pyspark
lines = sc.textFile("file:///home/hadoop/test.txt")
line_count = lines.count()
print("Line count:", line_count)

（2）在pyspark中读取HDFS系统文件“/user/hadoop/test.txt”（如果该文件不存在，请创建并自由添加内容），然后统计出文件的行数；

hadoop fs -cat /user/hadoop/test.txt
pyspark
lines = sc.textFile("hdfs:///user/hadoop/test.txt")
line_count = lines.count()
print("Line count:", line_count)

（3）编写独立应用程序，读取HDFS系统文件“/user/hadoop/test.txt”（如果该文件不存在，请创建并自由添加内容），然后统计出文件的行数；通过 spark-submit 提交到 Spark 中运行程序。

cd /opt/module/spark-3.0.3-bin-without-hadoop/mycode/
touch File_Count.py
vim File_Count.py
from pyspark import SparkConf,SparkContext
conf = SparkConf().setMaster("local").setAppName("File Count")
sc = SparkContext(conf = conf)
lines = sc.textFile("hdfs:///user/hadoop/test.txt")
line_count = lines.count()
print("Line count:", line_count)
sc.stop()
spark-submit File_Count.py

总结

通过比较在pyspark中读取文件的代码和编写独立应用程序读取文件的代码，了解了在启动pyspark的时候，会自动创建一个SparkContext对象，不需要再创建，而在编写独立应用程序读取文件时需要先导入相关模块再创建SparkContext对象。
编程中也遇到很多问题，如:通过spark-sumbit运行程序时，会产生很多其他信息，执行结果会与其他信息混合在一起显示。可以通过修改log4j的日志显示级别，设置不显示INFO级别的信息，只输出自己的控制台输出的信息。在尝试使用python运行程序时，显示no moudle named pyspark，这时需要vim ~/.bashrc配置环境变量，配置PYTHONPATH环境变量用来在python中引入pyspark库，PYSPARK_PYTHON变量用来设置pyspark运行的python版本，要特别注意/opt/module/spark-3.0.3-bin-without-hadoop/python/lib目录下的py4j-0.10.9-src.zip文件名，在PYTHONPATH的设置中需要使用。

小关不摆烂

关注

1
点赞
踩
15

收藏

觉得还不错? 一键收藏
打赏
0
评论
Spark读取文件系统的数据

通过比较在pyspark中读取文件的代码和编写独立应用程序读取文件的代码，了解了在启动pyspark的时候，会自动创建一个SparkContext对象，不需要再创建，而在编写独立应用程序读取文件时需要先导入相关模块再创建SparkContext对象。编程中也遇到很多问题，如:通过spark-sumbit运行程序时，会产生很多其他信息，执行结果会与其他信息混合在一起显示。可以通过修改log4j的日志显示级别，设置不显示INFO级别的信息，只输出自己的控制台输出的信息。
复制链接

扫一扫