题外话:这是一个“连载”,主要用于记录并监督我每周的Spark学习进程
一、编写第一个pyspark程序
1.进入spark文件夹,该文件夹下有一个README.md文件,统计该文件的行数,以及输出第一行
2.运行spark
shell命令:
./bin/pyspark #运行spark
运行截图:
3.运行python语句
shell命令:
>>>lines=sc.textFile("README.md")
>>>lines.count()
>>>lines.first()
运行截图: