[Spark base]-01

首先学习基本的linux指令是必须的

下面给出ubuntu环境下搭载Spark网址:

http://blog.csdn.net/u010171031/article/details/51849562

其中特别是要找到spark-1.6.1-bin-hadoop2.6/usr 的绝对位置,,加上source /etc/profile,然后可以执行任何的python_shell(scala),pyspark(python),sparkR(R)

Spark首要概念是RDD(分布式数据集,可创造,可转换,不可迭代):

1)RDD

Actions:返回一个值

transformations:返回一个指向新RDDs的指针

#create RDD
textFile=sc.textFile("README.md")
#simple operations
#actions
textFile.count()
textFile.first()#transformationlinesWithSpark=textFile.filter(lambda line: "Spark" in line)


linesWithSpark.count()
#使用数据流模式(mapreduce)
wordcounts=textFile.flatMap(lambda line:line.split()).map(lambda word :(word,1)).reduceByKey(lambda a,b :a+b)
wordcounts.collect()  #收集每个字的统计次数

    
    




评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值