Spark的一个主要特点就是可以在内存中使用,因此他的计算速度比较快。
在初学之前按照http://spark.apache.org/docs/latest/ quick-start.html)中的示例来做一遍。先来初步理解一下操作流程。
1.首先是搭建Spark,网上有很多教程,cmd中最后运行pyspark
我们首先来分析Spark文件夹中的“README.md”文件
lines = sc.textFile("README.md") # 创建一个名为lines的RDD
>>> lines.count() # 统计RDD中的元素个数 127
>>> lines.first() # 这个RDD中的第一个元素,也就是README.md的第一行
这里的语法似与python,spark的驱动器程序就是spark shell程序,驱动器程序通过sparkcontext来访问spark, 上文的sc是spark启动时自动创建的一个sc变量,
我们可以看下其类型,建立一个筛选实例
在python中有lambda 函数,当然C中也有,它代表的是匿名函数
相当于
def haspython(line):
return “Python" in line