Spark一些常用的数据处理方法-1.RDD计算

最新推荐文章于 2020-12-21 13:00:45 发布

不羁之心

最新推荐文章于 2020-12-21 13:00:45 发布

阅读量1.6k

点赞数

分类专栏： Scala Spark 文章标签： spark 数据 RDD scala

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/dlke03/article/details/78862291

版权

本文介绍了Spark中的一些常用数据处理方法，包括如何读取文件至RDD，利用缓存优化性能，执行基础转换和键值转换操作，以及如何执行行动操作和存储数据。对于Spark初学者来说，这是一个很好的参考指南。

摘要由CSDN通过智能技术生成

在Spark实际应用中，会用到很多数值处理方法，我将一些比较常用的方法写在这里，供新手向的学习参考一下。

1.1 读取文件至RDD

var rdd = sc.textFile("文件路径") var rddfromhdfs = sc.textFile("hdfs://hadoop-master-001:9000/hdfs文件路径")

这个当中有很多方法，比较常用的是

//返回一个K,V形式的RDD sequenceFile[K,V] ()

1.2 缓存到内存

缓存是可以随时用的，但是过多的缓存非常消耗内存资源，所以用的时候需要合理设计

//常用的，持久化 cache() //不常用的，返回一个List，太占资源，拿来学习用还可以 collect() //切断“血统”，避免过度占用资源 checkpoint()

1.3 基础转换

没有什么是用基础转换做不了的，如果有那就多用几次。

//把RDD中的元素从一种类型或状态变成另一种，元素个数保持不变 map[U] (f:(T)=>U):RDD[U]

//去重，返回一个没有重复元素的RDD distinct():RDD[T]

//合并成一个系列的元素，常用于多个Array或者Seq合并成一个Array或者Se

最低0.47元/天解锁文章

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
Spark一些常用的数据处理方法-1.RDD计算

在Spark实际应用中，会用到很多数值处理方法，我将一些比较常用的方法写在这里，供新手向的学习参考一下。RDD的计算1.1 读取文件至RDD var rdd = sc.textFile("文件路径") var rddfromhdfs = sc.textFile("hdfs://hadoop-master-001:9000/hdfs文件路径") 这个当中有很多方法，比较常用的是 //返
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。