第一个RDD，几个数据探查命令

最新推荐文章于 2022-06-23 18:03:46 发布

月笼纱lhz

最新推荐文章于 2022-06-23 18:03:46 发布

阅读量402

点赞数

分类专栏： spark大数据分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39732131/article/details/117510243

版权

spark大数据分析专栏收录该内容

46 篇文章 2 订阅

订阅专栏

1、RDD是个什么东西？

现在也不能非常好的解释，但是这又是一个必须用到的基础概念，所以自己做一个浅显粗陋的理解。就当其是一个数据存储类型，就跟Python里有dataframe一样，不过它所存储的数据会在集群里多台机器上存储，而不是像之前的Python里的dataframe一样是存储在一台机器上。

2、REPL

粗浅理解，就是交互式编程，跟Python的jupyter notebook一样，写一段代码，回车可以有结果展现，很适合前期数据简单查看。

3、做一个RDD过程实例（也有别的方式，有些过程自己搞的复杂，为了熟悉一些命令的用法）

3.1数据准备

（1）进入到准备放置文件的文件夹，利用如下命令新建一个文件及加入一行数据

echo a,b,c,d > aa.csv

（2）还可以继续追加

echo 1,2,3,4>>aa.csv

（3）也可以直接进入文件编辑

vim aa.csv

（4）最终我在里面加入了3行数据

a,b,c,d

1,2,3,4

4,5,6,7

（5）把文件上传到hdfs上

hadoop fs -put /ETL/linkage/aa.csv /input/aa.csv

3.2创建RDD

val aa=sc.textFile(“/input/aa.csv)

a,b,c,d

1,2,3,4

4,5,6,7

3.3RDD数据探查

（1）查看一行数据

aa.first

结果：a,b,c,d

（2）查看多行数据

aa.take(2)

结果：a,b,c,d

1,2,3,4

（3）查看所有数据

val aal=aa.collect()

结果：a,b,c,d

1,2,3,4

4,5,6,7

（4）按行打印

aal.foreach(println)

结果：a,b,c,d

1,2,3,4

4,5,6,7

（5）初步定义个函数

def isHeader(line:String)=line.contains(“a”)

（6）函数调用

aal.filter(isHeader).foreach(println)

结果：a,b,c,d

以上这步操作实现了过滤csv文件的标题，如果取反想得到csv文件的数据，则可以有下方三种表达方式：

aal.filter(x => !isHeader(x)).length

或者：

aal.filter(!isHeader(_)).length

或者：

aal.filterNot(isHeader).length

结果：

2

我考虑下次文章记录还是加一点图片吧，这样更好阅读一些。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。