Spark一些常用的数据处理方法-1.RDD计算

本文介绍了Spark中的一些常用数据处理方法,包括如何读取文件至RDD,利用缓存优化性能,执行基础转换和键值转换操作,以及如何执行行动操作和存储数据。对于Spark初学者来说,这是一个很好的参考指南。
摘要由CSDN通过智能技术生成

在Spark实际应用中,会用到很多数值处理方法,我将一些比较常用的方法写在这里,供新手向的学习参考一下。

1.1 读取文件至RDD


var rdd = sc.textFile("文件路径")
var rddfromhdfs = sc.textFile("hdfs://hadoop-master-001:9000/hdfs文件路径")


这个当中有很多方法,比较常用的是

//返回一个K,V形式的RDD
sequenceFile[K,V] ()

1.2 缓存到内存

缓存是可以随时用的,但是过多的缓存非常消耗内存资源,所以用的时候需要合理设计

//常用的,持久化
cache()
//不常用的,返回一个List,太占资源,拿来学习用还可以
collect()
//切断“血统”,避免过度占用资源
checkpoint()

1.3 基础转换

没有什么是用基础转换做不了的,如果有那就多用几次。

//把RDD中的元素从一种类型或状态变成另一种,元素个数保持不变
map[U] (f:(T)=>U):RDD[U]

//去重,返回一个没有重复元素的RDD
distinct():RDD[T]

//合并成一个系列的元素,常用于多个Array或者Seq合并成一个Array或者Se

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值