【Spark】Spark实现WordCount功能讲解

最新推荐文章于 2024-05-06 08:39:42 发布

晚风中的自由

最新推荐文章于 2024-05-06 08:39:42 发布

阅读量324

点赞数

分类专栏： Spark 大数据文章标签： Spark

本文链接：https://blog.csdn.net/u014028317/article/details/102765165

版权

一、读取hdfs上的文件作为rdd

hdfs的文件 /user/root/mapreduce/wordcount/input/wc.input 有以下内容

hadoop hive
hive hadoop
hbase sqoop
hbase sqoop
hadoop hive

启动spark-shell

bin/spark-shell

读取hdfs的文件 /user/root/mapreduce/wordcount/input/wc.input；得到的rdd是string类型，每一行都是string字符串；

scala> val linesRdd = sc.textFile("hdfs://hadoop-senior.ibeifeng.com:8020/user/root/mapreduce/wordcount/input/wc.input")
linesRdd: org.apache.spark.rdd.RDD[String] = hdfs://hadoop-senior.ibeifeng.com:8020/user/root/mapreduce/wordcount/input/wc.input MapPartitionsRDD[1] at textFile at <console>:21

二、对RDD[String]进行分割处理和统计

rdd里面都是高阶函数（方法可以接受函数）；

要得到单个的单词字符串，rdd 类型要是 rdd[String]；

1、用map方法对linesRdd进行分割成单词，分割符为空格；得

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

晚风中的自由

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
【Spark】Spark实现WordCount功能讲解

一、读取hdfs上的文件作为rddhdfs的文件/user/root/mapreduce/wordcount/input/wc.input 有以下内容hadoop hivehive hadoophbase sqoophbase sqoophadoop hive启动spark-shellbin/spark-shell读取hdfs的文件/user/root/mapr...
复制链接

扫一扫