Python+Jupyter+Spark编程经验总结

本文总结了在Jupyter环境中使用Python与Spark编程的经验,包括利用Jupyter的TAB键自动补全功能加速输入,如何将Spark程序的输出按指定格式存储,以及给出了Python中处理RDD的实例。
摘要由CSDN通过智能技术生成

Jupyter中使用TAB键加速输入

Jupyter中编写程序时,有函数提示功能。在Jupyter中编写Spark程序对RDD进行操作时,在输入.之后,可以按TAB键自动补全要输入的“转换”或“行动”。

例如:
输入 rdd = sc.pa之后,再按TAB键就能自动补全rdd= sc.parallelize。在eclipse环境中编写spark程序时,提示功能更好用。

将程序输出按指定的格式存储

Spark程序输出时一般是以(K,V)对的形式输出,有时候需要以特定形式(如:数据各列以空格分割)保存文件,那么就要对Spark输出格式做更改。

 …… 
    counts = lines.flatMap(lambda x: x.split(' ')) \
                  .map(lambda x: (x, 1)) \
                  .reduceByKey(add)
                  .map(lambda x:x[0]+' '+str(x[1])).saveAsTextFile("result.txt")#将文件各字段以空格隔开

Python中RDD编程实例

Student文件:

yang 85 90 30
wang 20 60 50
zhang 90 90 100
zhang 90 90 100
li 100 54 0
li 100 54 0
yanf 0 0 0
def map_func(x):
    s = x.split()
    return (s[0],[int(s[1]),int(s[2]),int(s[3])])

def has100(x):</
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值