向HDFS提交数据并读取测试WordCount案例

要使用hdfs需要切换到Hadoop安装目录下,然后使用命令

bin/hdfs dfs -ls / 

可以查看对应节点hdfs文件系统下的目录结构
接着将测试数据放到hdfs上,这里是将数据放到/testdata目录下

bin/hdfs dfs -put /word.txt /testdata

注意这里的word.txt是自己在namenode根目录创建的文件,内容如下:
这里写图片描述
查看是否上传:

bin/hdfs dfs -ls /testdata

这里写图片描述

可以看到对应的文件已经上传到hdfs文件系统中
接着测试在spark-shell中直接编写wordcount程序,并从hdfs读取数据,最后返回结果
进入spark安装目录,并启动spark-shell
首先指定要读取的文件路径:
这里需要写hdfs的路径:

val file = sc.textFile("hdfs://your.master.ip:9000/testdata/word.txt")

接着进行计算:

 val rdd = file.flatMap(line => line.split(" ")).map(word => (word,1)).reduceByKey(_+_)

使用collect将计算的数据存储,并返回:

rdd.collect()

最后打印显示count的结果:

rdd.foreach(println)

这里写图片描述

OK,到此简单的测试了如何将本地数据上传到hdfs文件系统,并使用spark-shell实现WordCount案例,并将计算后的数据打印输出。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值