Spark的指令

最新推荐文章于 2023-01-30 18:44:25 发布

小飞猪小肥猪

最新推荐文章于 2023-01-30 18:44:25 发布

阅读量426

点赞数

分类专栏：大数据 Spark

本文链接：https://blog.csdn.net/abcdefghwelcome/article/details/86176669

版权

大数据同时被 2 个专栏收录

51 篇文章 0 订阅

订阅专栏

Spark

6 篇文章 0 订阅

订阅专栏

Master节点存在单点故障，要解决此问题，就要借助zookeeper,，并且启动至少两个Master节点来实现高可靠，配置方式比较简单 :

1.安装配置zk集群，并启动zk集群 zkServer.sh start

2.在root1上执行sbin/start-all.sh脚本，然后在min2上执行sbin/start-master.sh启动第二个Master

3. 进入spark/bin /spark-shell 进入scala模式

4. sc

scala> sc
res8: org.apache.spark.SparkContext = org.apache.spark.SparkContext@638a2788

5. 创建文件 vi words.txt ,统计文件单词个数

sc.textFile("/root/words.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).sortBy(_._2,false).collect

6. 将spark与hadoop结合使用统计文件单词个数

scala> sc.textFile("hdfs://root1:9000/words.txt").
flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).
sortBy(_._2,false).saveAsTextFile("hdfs://root1:9000/wordcount/out1")

WordCount中的RDD

小飞猪小肥猪

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Spark的指令

Master节点存在单点故障，要解决此问题，就要借助zookeeper,，并且启动至少两个Master节点来实现高可靠，配置方式比较简单 :1.安装配置zk集群，并启动zk集群 zkServer.sh start2.在root1上执行sbin/start-all.sh脚本，然后在min2上执行sbin/start-master.sh启动第二个Master3. 进入spark/bin...
复制链接

扫一扫