第1关:第一题
任务描述
本关任务:根据编程要求,完成任务。
编程要求
打开右侧代码文件窗口,在 Begin 至 End 区域补充代码,完成任务。
在 pyspark
中读取 Linux 系统本地文件 /data/bigfiles/test.txt
,然后统计出文件的行数,直接打印输出统计的结果。
import findspark
findspark.init()
from pyspark import SparkContext
################ Begin ################
# 创建SparkContext对象
sc = SparkContext("local", "Line Count")
# 读取文本文件
text_file = sc.textFile("file:///data/bigfiles/test.txt")
# 计算行数
line_count = text_file.count()
# 打印行数
print("\n该文件的总行数为:%d"%line_count)
# 关闭SparkContext对象
sc.stop()
################ End ################
第2关:第二题
任务描述
本关任务:根据编程要求,完成任务。
编程要求
打开右侧代码文件窗口,在 Begin 至 End 区域补充代码,完成任务。
启动 Hadoop 服务,然后将 Linux 系统本地文件 /data/bigfiles/test.txt
上传到 HDFS 中的根目录 /
下。
使用 pyspark
读取 HDFS 系统上的文件 /test.txt
,然后统计出该文件的行数,直接打印输出统计的结果。
import findspark
findspark.init()
from pyspark import SparkContext
################ Begin ################
# 创建SparkContext对象
sc = SparkContext("local", "Line Count2")
# 读取文本文件
text_file = sc.textFile("hdfs://localhost:9000/test.txt")
# 计算行数
line_count = text_file.count()
# 打印行数
print("\n该文件的总行数为:%d"%line_count)
# 关闭SparkContext对象
sc.stop()
################ End ################