仅以使用为主,不讲求理解原理
参考:http://www.csdn.net/article/2015-04-24/2824552
1. 运行方式
1)spark主目录下bin/spark-submit test.py
2)bin/pyspark打开Python交互命令行
2. 初始化
conf=SparkConf().setAppName(appName).setMaster(master)
sc=SparkContext(conf=conf)
指定master并行数量,但是sc已经建立,这样直接运行会报错:(
通过--master可设置参数
./bin/pyspark --master local[4] 启动4线程
具体可参考pyspark -help看其他命令
3.RDD操作
1)集合并行化
data = [1,2,3,4]
distdata = sc.parallelize(data)
2) 外部数据集
确保启动dfs,上传文件至hdfs
在hadoop目录下运行
hadoop fs -mkdir /usr/hadoop/input
hadoop fs -copyFromLocal /usr/local/test.txt /usr/hadoop/input
hadoop fs -ls /usr/hadoop/input
在pyspark中执行
file = "/usr/hadoop/input/test.txt"
distfile = sc.textFile(file)
3) 转化操作,根据惰性其并不立即执行,需要启动操作,例如:map
linelengths= distfile.map(lambda s:len(s))
4) 启动操作,立即执行,例如:reduce
linelengths.reduce(lambda a,b:a+b)
5)持久化RDD,便于重复使用结果
在reduce之前加入
linelengths.persist()
删除unpersist()
6) 广播变量,每台机器上保持一个只读变量缓存
broadcastVar= sc.broadcast([1,2,3,4])
broadcastVar.value