spark启动的worker节点是localhost_Spark大数据在线培训：Spark运行原理解析

最新推荐文章于 2024-01-05 08:49:45 发布

weixin_39916355

最新推荐文章于 2024-01-05 08:49:45 发布

阅读量310

点赞数

文章标签： spark启动的worker节点是localhost

在大数据技术框架当中，Spark是继Hadoop之后的又一代表性框架，也是学习大数据当中必学的重点技术框架。在这些年的发展当中，Spark所占据的市场地位，也在不断拓展。今天的Spark大数据在线培训分享，我们来对Spark运行原理做一个讲解。
从发展现状来看，Spark已经成为广告、报表以及推荐系统等大数据计算场景中首选系统，因为效率高，易用性强，对于企业而言是一种低成本高回报的选择。

Spark运行原理
Spark架构采用了分布式计算中的Master-Slave模型。Master是对应集群中的含有Master进程的节点，Slave是集群中含有Worker进程的节点。
Master作为整个集群的控制器，负责整个集群的正常运行；Worker相当于计算节点，接收主节点命令与进行状态汇报；Executor负责任务的执行；Client作为用户的客户端负责提交应用，Driver负责控制一个应用的执行。
Spark集群部署后，需要在主节点和从节点分别启动Master进程和Worker进程，对整个集群进行控制。在一个Spark应用的执行过程中，Driver和Worker是两个重要角色。
Driver程序是应用逻辑执行的起点，负责作业的调度，即Task任务的分发，而多个Worker用来管理计算节点和创建Executor并行处理任务。在执行阶段，Driver会将Task和Task所依赖的file和jar序列化后传递给对应的Worker机器，同时Executor对相应数据分区的任务进行处理。
Excecutor/Task每个程序自有，不同程序互相隔离，task多线程并行，集群对Spark透明，Spark只要能获取相关节点和进程，Driver与Executor保持通信，协作处理。
另外，Spark原则上可支持三种集群模式运行：Standalone独立集群、Apache Mesos、Hadoop Yarn等。Spark的适用场景
复杂的批量处理(Batch Data Processing)，偏重点在于处理海量数据的能力，至于处理速度可忍受，通常的时间可能是在数十分钟到数小时；
基于历史数据的交互式查询(Interactive Query)，通常的时间在数十秒到数十分钟之间；
基于实时数据流的数据处理(Streaming Data Processing)，通常在数百毫秒到数秒之间。
关于Spark大数据在线培训，Spark运行原理解析，以上就为大家做了一个简单的介绍了。Spark在大数据培训学习当中，是非常重点的一部分，所以学习当中一定要重视起来。

weixin_39916355

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
spark启动的worker节点是localhost_Spark大数据在线培训：Spark运行原理解析

在大数据技术框架当中，Spark是继Hadoop之后的又一代表性框架，也是学习大数据当中必学的重点技术框架。在这些年的发展当中，Spark所占据的市场地位，也在不断拓展。今天的Spark大数据在线培训分享，我们来对Spark运行原理做一个讲解。从发展现状来看，Spark已经成为广告、报表以及推荐系统等大数据计算场景中首选系统，因为效率高，易用性强，对于企业而言是一种低成本高回报的选择。Spark运...
复制链接

扫一扫