[Spark base]-01

最新推荐文章于 2024-05-13 02:23:45 发布

cauchemare_li

最新推荐文章于 2024-05-13 02:23:45 发布

阅读量181

点赞数

分类专栏： Spark 文章标签： Spark_base

本文链接：https://blog.csdn.net/cauchemare_li/article/details/71403675

版权

Spark 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

首先学习基本的linux指令是必须的

下面给出ubuntu环境下搭载Spark网址：

http://blog.csdn.net/u010171031/article/details/51849562

其中特别是要找到spark-1.6.1-bin-hadoop2.6/usr 的绝对位置,，加上source /etc/profile,然后可以执行任何的python_shell(scala),pyspark(python),sparkR(R)

Spark首要概念是RDD（分布式数据集，可创造，可转换,不可迭代）:

1)RDD

Actions：返回一个值

transformations:返回一个指向新RDDs的指针

#create RDD
textFile=sc.textFile("README.md")
#simple operations
#actions
textFile.count()textFile.first()#transformationlinesWithSpark=textFile.filter(lambda line: "Spark" in line)



linesWithSpark.count()
#使用数据流模式（mapreduce）
wordcounts=textFile.flatMap(lambda line:line.split()).map(lambda word :(word,1)).reduceByKey(lambda a,b :a+b)
wordcounts.collect()  #收集每个字的统计次数