Jupyter中使用TAB键加速输入
Jupyter中编写程序时,有函数提示功能。在Jupyter中编写Spark程序对RDD进行操作时,在输入.
之后,可以按TAB键自动补全要输入的“转换”或“行动”。
例如:
输入 rdd = sc.pa
之后,再按TAB键就能自动补全rdd= sc.parallelize
。在eclipse环境中编写spark程序时,提示功能更好用。
将程序输出按指定的格式存储
Spark程序输出时一般是以(K,V)对的形式输出,有时候需要以特定形式(如:数据各列以空格分割)保存文件,那么就要对Spark输出格式做更改。
……
counts = lines.flatMap(lambda x: x.split(' ')) \
.map(lambda x: (x, 1)) \
.reduceByKey(add)
.map(lambda x:x[0]+' '+str(x[1])).saveAsTextFile("result.txt")#将文件各字段以空格隔开
Python中RDD编程实例
Student文件:
yang 85 90 30
wang 20 60 50
zhang 90 90 100
zhang 90 90 100
li 100 54 0
li 100 54 0
yanf 0 0 0
def map_func(x):
s = x.split()
return (s[0],[int(s[1]),int(s[2]),int(s[3])])
def has100(x):</