![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
健康平安的活着
再给我一次重生的机会,我将加倍珍惜,将java事业进行到底。
展开
-
spark实现word count程序
5.1 使用scala 实现wordcount程序object WordCount { def main(args:Array[String]): Unit ={ //1.创建sparkConf对象,设置appName和master地址,local[2]表示本地采用2个线程去执行 val sparkConf:SparkConf=new SparkConf().setAppName("wordCount").setMaster("local[2]") //2..原创 2020-05-30 19:03:33 · 463 阅读 · 0 评论 -
spark shell 执行命令
4.2.1通过spark-shell --master local[N] 读取本地数据文件实现单词统计--master local[N]Local表示本地运行,跟集群没有任何关系,方便做一些测试和学习。N表示一个正整数Local[N]表示本地采用N个线程去运行任务Spark-shell --master local[2] 它会产生一个spark submit 进程Spark-shell --master local[2] Sc.textFile(“file:///root/wo.原创 2020-05-30 15:00:22 · 827 阅读 · 0 评论 -
spark的组件组成部分介绍
1.Driver它会运行客户端写好的main方法,并且它会创建sparkcontext对象,该对象是所有spark程序的执行入口。2.Application它就是一个应用程序,它包括了Driver端的代码逻辑和任务在执行的时候需要的资源信息。3.clusterManager :它既是给当前任务提供计算资源的外部服务 standAlone 它是spark自带的集群模式,整个任务的资源分配由master负责 Yarn Sp...原创 2020-05-30 14:58:07 · 5244 阅读 · 0 评论 -
spark高可用集群的搭建
1 两种解决方案1基于文件系统的单点恢复,主要用于开发或者测试环境,spark提供目录保存spark application和worker的注册信息,并将它们的恢复状态写入该目录中。一旦master发生故障,就可以通过重新启动master进程(sbin/start-master.sh),恢复已运行的spark application和worker的注册信息。2基于zookeeper的standby masters:通过zk来选举一个master,其他master处于standby状态。整个选举恢复需原创 2020-05-30 12:01:52 · 389 阅读 · 0 评论 -
spark 介绍以及集群搭建
1.1spark的介绍Spark是一种快速、通用、可扩展的大数据分析引擎,是基于内存计算的大数据并行计算框架,spark基于内存计算,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性,允许用户将spark部署在大量廉价的硬件之上,形成spark集群。Spark是基于内存计算的框架,计算速度非常快,但是需要注意到是,spark仅仅只涉及数据的计算,并没有涉及数据存储。(...原创 2020-05-07 14:34:36 · 398 阅读 · 0 评论