spark-shell初体验

最新推荐文章于 2025-05-17 21:23:34 发布

yijichangkong

最新推荐文章于 2025-05-17 21:23:34 发布

阅读量2.1k

点赞数

CC 4.0 BY-SA版权

分类专栏： hadoop Spark 文章标签： hadoop spark terminal ubuntu

本文链接：https://blog.csdn.net/yijichangkong/article/details/45439405

Spark 同时被 2 个专栏收录

9 篇文章

订阅专栏

hadoop

4 篇文章

订阅专栏

本文演示了如何使用Spark处理HDFS文件，包括复制文件至HDFS、运行Spark-shell、读取文件统计关键词出现次数，并展示了通过缓存RDD提升效率的方法。通过实例分析，了解Spark与HDFS的集成应用及性能优化策略。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1、复制文件至HDFS：

hadoop@Mhadoop:/usr/local/hadoop$ bin/hdfs dfs -mkdir /user
hadoop@Mhadoop:/usr/local/hadoop$ bin/hdfs dfs -mkdir /user/hadoop
hadoop@Mhadoop:/usr/local/hadoop$ bin/hdfs dfs -copyFromLocal /usr/local/spark/spark-1.3.1-bin-hadoop2.4/README.md /user/hadoop/

2、运行spark-shell

3、读取文件统计spark这个词出现次数

scala> sc
res0: org.apache.spark.SparkContext = org.apache.spark.SparkContext@472ac3d3

scala> val file = sc.textFile("hdfs://Mhadoop:9000/user/hadoop/README.md")

file: org.apache.spark.rdd.RDD[String] = hdfs://Mhadoop:9000/user/hadoop/README.md MapPartitionsRDD[1] at textFile at <console>:21

file变量是一个MapPartitionsRDD；接着过滤spark这个词

scala> val sparks = file.filter(line => line.contains("spark"))
sparks: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[2] at filter at <console>:23

统计spark出现次数，结果为11：

scala> sparks.count