1.启动spark中python版本的shell,进入到spark的bin目录下——./pyspark
2.设置spark的日志输出等级,进入spark目录下的conf文件夹,在log4j.properties文件中设置log4j.rootCategory=INFO,console,其中console代表控制台输出。
3.关闭spark程序可以用sparkContext.stop()或者直接退出程序。
4.将外部文件导入为rdd。javaRDD rdd=sc.textFile("文件地址")4.2在驱动器程序中将列表、数组作为rdd的数据。javaRDD rdd=sc.parallelize(Array.asList("1","2"))
5.filter转化操作,输入一个值,经过boolean类型的表达式判断,如果判断符合,将根据表达式返回结果。
6.union转化操作是将两个rdd连接在一起,重新组成一个rdd。
7.spark有一个谱系图记录着每个rdd之间的依赖关系,可以用这个谱系图来执行rdd的数据的恢复,也可以按需计算需要的rdd,因为rdd是惰性计算。到行动操作的时候才会进行正真的计算操作。
8.标准java函数接口:Function<T,R>输入一个值,返回一个值(多用于filter和map等方法)
Function2<T,T,R>输入两个值,返回一个值
flatMapFunction<T,R>一个输入值,多个返回值。
9.map()和filter()转化操作后接受一个函数,map将作用于每一个元素,并返回每一个元素,filter将每个元素用于boolean表达式,符合表达式的元素则返回,反之。
10.faltMap()用于每个元素上,一个输入值,返回多个输出值的迭代器,输出rdd中的元素不是由迭代器组成的,而是由迭代器中的元素组成的,这是由于此方法执行了扁平化处理。
11.rdd的distinct()方法用于将一个rdd中的重复元素去除,只保留一份元素,因为此操作会通过网络将数据进行混洗,因此消耗巨大。
12