spark基础

取值操作(RDD):

take(n):返回n个元素

top(n):返回最大的n个元素

first():返回第一个元素

collect():返回所有元素


元素变换(RDD):

1、map()

map()函数需要一个参数,参数是一个函数,通过这个函数变换之后,返回一个新的RDD,函数一般用lambda

2、flatMap()

对RDD每一个元素执行函数变换,返回一个迭代器,最后展平结果

3、filter()

通过函数对元素进行过滤,只有结果为Ture才返回

4、uunion(): 联合  (两个rdd并集) 

     intersection(): 交集

     subtract(): 差集

     cartesian(): 笛卡尔


元素操作(RDD):

1、count(): 返回rdd元素个数

2、reduce():  并行汇总所有rdd元素

3、aggregate():  


键值变换(RDD):

1、reduceByKey():在每一个键组内进行汇总变换

2、groupByKey():将值放到相同键内,类似于reduceByKey的汇总,值是一个迭代器

3、sortByKey():得到以键排序的RDD      当条件为Ture或False为正序或倒序

4、mapValues():可以理解为是将键值RDD中的值作为参数传递的map函数

5、combineByKey():


键、值 操作(RDD):

1、countByKey():返回每一键组内的记录数,是一个字典

2、lookup():返回某键下的所有值

3、collectAsMap():返回以map形式的串行结果






  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
对于学习Spark基础知识,我建议按照以下思路进行: 1. 理解分布式计算概念:Spark是一个分布式计算框架,因此了解分布式计算的基本概念是很重要的。你可以学习分布式计算的原理、架构和常用的算法。 2. 学习Spark的核心概念:掌握Spark的核心概念是学习Spark的首要任务。这包括理解RDD(弹性分布式数据集)、DataFrame和DataSet等数据抽象概念,以及Spark的运行架构和作业调度模型等。 3. 学习Spark编程模型:掌握Spark编程模型是使用Spark进行开发的基础。你可以学习Spark提供的编程接口,如Scala、Java和Python,以及使用这些接口来编写Spark应用程序。 4. 实践使用Spark:通过实际的项目或练习来巩固所学知识。可以选择一些小规模的数据集进行处理和分析,尝试使用Spark的各种功能和API来解决实际问题。 5. 深入学习Spark生态系统:除了核心的Spark框架外,还有很多与之配套的工具和库,如Spark SQL、Spark Streaming、MLlib和GraphX等。学习这些工具和库可以进一步扩展你的Spark技能。 6. 参考文档和学习资源:Spark官方文档是学习的重要参考资源,可以深入了解每个模块的详细信息。此外,还可以参考Spark的书籍、教程和在线课程等学习资源。 通过以上步骤,你应该能够建立起对Spark基础知识和编程能力。记得不断实践和探索,提升自己在Spark领域的技能。祝你学习顺利!

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值