大数据分析（三）——安装和启动Spark

朦朦墨色染

已于 2022-11-06 16:19:10 修改

阅读量616

点赞数

分类专栏：大数据分析文章标签： spark 大数据分布式

于 2022-11-06 16:18:10 首次发布

本文链接：https://blog.csdn.net/qq_44789021/article/details/127717099

版权

大数据分析专栏收录该内容

4 篇文章 0 订阅

订阅专栏

Spark2.1.0+入门：Spark的安装和使用(Python版)_厦大数据库实验室博客

基本步骤参考上方博文

安装成功之后，使用pyspark完成python编程的方式是

cd ~ #切换目录

vim your_python_file_name.py #打开py文件，写程序

from pyspark import SparkContext
sc = SparkContext( 'local', 'test')
logFile = "file:///usr/local/spark/README.md"
logData = sc.textFile(logFile, 2).cache()
numAs = logData.filter(lambda line: 'a' in line).count()
numBs = logData.filter(lambda line: 'b' in line).count()
print('Lines with a: %s, Lines with b: %s' % (numAs, numBs))

python3 ~/homework6.py #运行py文件

运行结果如下图：