spark学习总结第一天

1.启动spark中python版本的shell,进入到spark的bin目录下——./pyspark

2.设置spark的日志输出等级,进入spark目录下的conf文件夹,在log4j.properties文件中设置log4j.rootCategory=INFO,console,其中console代表控制台输出。

3.关闭spark程序可以用sparkContext.stop()或者直接退出程序。

4.将外部文件导入为rdd。javaRDD rdd=sc.textFile("文件地址")4.2在驱动器程序中将列表、数组作为rdd的数据。javaRDD rdd=sc.parallelize(Array.asList("1","2"))

5.filter转化操作,输入一个值,经过boolean类型的表达式判断,如果判断符合,将根据表达式返回结果。

6.union转化操作是将两个rdd连接在一起,重新组成一个rdd。

7.spark有一个谱系图记录着每个rdd之间的依赖关系,可以用这个谱系图来执行rdd的数据的恢复,也可以按需计算需要的rdd,因为rdd是惰性计算。到行动操作的时候才会进行正真的计算操作。

8.标准java函数接口:Function<T,R>输入一个值,返回一个值(多用于filter和map等方法)

                                 Function2<T,T,R>输入两个值,返回一个值

                                 flatMapFunction<T,R>一个输入值,多个返回值。

9.map()和filter()转化操作后接受一个函数,map将作用于每一个元素,并返回每一个元素,filter将每个元素用于boolean表达式,符合表达式的元素则返回,反之。

10.faltMap()用于每个元素上,一个输入值,返回多个输出值的迭代器,输出rdd中的元素不是由迭代器组成的,而是由迭代器中的元素组成的,这是由于此方法执行了扁平化处理。

11.rdd的distinct()方法用于将一个rdd中的重复元素去除,只保留一份元素,因为此操作会通过网络将数据进行混洗,因此消耗巨大。

12

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值