spark
是个小布丁
擅长大数据又不会做饭的女厨师!
展开
-
Yarn模式(重点)-运行流程2 yarn-cluster工作流程
yarn-cluster工作流程原创 2021-05-08 22:44:57 · 251 阅读 · 1 评论 -
Yarn模式(重点)-运行流程2 yarn-client工作流程
yarn-client工作流程原创 2021-05-08 22:43:43 · 265 阅读 · 1 评论 -
Yarn模式(重点)-运行流程1
Yarn模式(重点)-运行流程1spark客户端直接连接yarn,不需要额外使用spark集群spark中有yarn-client模式和yarn-cluster模式2.1 两种模式的区别:Driver程序运行的节点不同2.2 yarn-client模式:Driver运行在客户端上,此模式适用于调试,并且可以直接查看结果2.3 yarn-cluster模式:Driver运行在NodeManager的ApplicationMaster上,此模式适用于生产环境...原创 2021-05-07 22:46:24 · 234 阅读 · 2 评论 -
Spark中WordCount案例实操(linux上直接运行)下篇
6.打包jar包6.1 点击Maven --> package 生成jar包6.2 选择不带有依赖的jar包,因为linux系统中有相关环境,如果没有,则选择带有依赖的jar包6.3 将jar包上传到linux系统上(我上传到了/opt/module/spark-yarn/WordCount.jar)7. 编译spark代码进行运行7.1模板bin/spark-submit –calss idea中的含有main方法的完整名字 –master 选择运行模式 –deploy-mode原创 2021-05-07 22:43:47 · 316 阅读 · 0 评论 -
Spark中WordCount案例实操(linux上直接运行)上篇
编写程序(linux上运行)1.新建一个maven工程1.1 建好后,在项目上右击 --> Add Framework Support --> 勾选scala1.2 在src/main下新建一个directory (scala)–> 点击scala,右键 --> Mark Directory AS --> Sources Root2.日志文件配置(设置只打印Error级别的日志)2.1 在src/main/resources下新建 --> File(名为log4原创 2021-04-23 22:30:44 · 302 阅读 · 0 评论 -
Spark中WordCount案例实操(windows上直接运行)
编写程序(windows上直接运行)1.新建一个maven工程1.1 建好后,在项目上右击 --> Add Framework Support --> 勾选scala1.2 在src/main下新建一个directory (scala)–> 点击scala,右键 --> Mark Directory AS --> Sources Root2.日志文件配置(设置只打印Error级别的日志)2.1 在src/main/resources下新建 --> File(名为原创 2021-04-23 22:20:33 · 207 阅读 · 0 评论 -
Spark中的 官方求PI案例
官方求PI案例1.进入/opt/module/spark-standalone2.开启spark集群,sbin/start-all.sh3.写案例bin/spark-submit \--class org.apache.spark.examples.SparkPi \ 【spark程序中要执行程序的主类】--master spark://hadoop102:7077 \ 【spark运行模式:1.Local模式(local[*]),2.Standalone模式:master所在节点及端口号(s原创 2021-04-22 21:17:15 · 1435 阅读 · 0 评论 -
Spark中的Driver和Executor
Driver和Executor任务的管理者1.Driver(线程)和Executor(计算对象)是spark中的临时程序,只有执行程序时,才会启动,程序执行完,即死亡2.Driver2.1 Spark shell 预加载的一个叫做sc的Spark Context对象2.2 将用户程序转换成作业(Job)2.3负责跟踪Executor的运行状况2.4 UI展示应用运行状况2.5 为执行器节点调度任务3.Executor3.1 负责执行spark的具体任务...原创 2021-04-22 21:14:15 · 1060 阅读 · 0 评论 -
Spark中的Master和Worker
Master和Worker集群资源管理1.Master是spark中资源调度系统的Leader,管理整个集群的资源信息,类似于yarn中的ResourceManager2.Worker是spark中资源调度系统的slave,管理所在结点的资源信息,类似于yarn中的NodeManager3.在standalone模式下,Master和Worker是必须启动的...原创 2021-04-21 22:27:20 · 2258 阅读 · 0 评论 -
Spark中Yarn模式(重点)--运行流程
Spark中Yarn模式(重点)–运行流程1.spark客户端直接连接yarn,不需要额外使用spark集群spark中有yarn-client模式和yarn-cluster模式2.1 两种模式的区别:Driver程序运行的节点不同2.2 yarn-client模式:Driver运行在客户端上,此模式适用于调试,并且可以直接查看结果2.3 yarn-cluster模式:Driver运行在NodeManager的ApplicationMaster上,此模式适用于生产环境3.yarn-clien原创 2021-04-21 22:24:00 · 362 阅读 · 0 评论