Spark重要概念

最新推荐文章于 2023-03-10 11:03:20 发布

汪本成

最新推荐文章于 2023-03-10 11:03:20 发布

阅读量645

点赞数

分类专栏：大数据-SparkRDD

本文链接：https://blog.csdn.net/sinat_31726559/article/details/51623378

版权

大数据-SparkRDD 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

（1）Spark运行模式

目前最为常用的Spark运行模式有：
- local：本地线程方式运行，主要用于开发调试Spark应用程序
- Standalone：利用Spark自带的资源管理与调度器运行Spark集群，采用Master/Slave结构，为解决单点故障，可以采用ZooKeeper实现高可靠（High Availability，HA)
- Apache Mesos ：运行在著名的Mesos资源管理框架基础之上，该集群运行模式将资源管理交给Mesos，Spark只负责进行任务调度和计算
- Hadoop YARN : 集群运行在Yarn资源管理器上，资源管理交给Yarn，Spark只负责进行任务调度和计算
Spark运行模式中Hadoop YARN的集群运行方式最为常用，本课程中的第一节便是采用Hadoop YARN的方式进行Spark集群搭建。如此Spark便与Hadoop生态圈完美搭配，组成强大的集群，可谓无所不能。

（2）Spark数据分区

1、Spark的特性是对数据集在节点间的分区进行控制。在分布式系统中，通讯的代价是巨大的，控制数据分布以获得最少的网络传输可以极大地提升整体性能。Spark程序可以通过控制RDD分区方式来减少通讯的开销。

2、Spark中所有的键值对RDD都可以进行分区。确保同一组的键出现在同一个节点上。比如，使用哈希分区将一个RDD分成了100个分区，此时键的哈希值对100取模的结果相同的记录会被放在一个节点上。

（可使用partitionBy(newHashPartitioner(100)).persist来构造100个分区)

3、Spark中的许多操作都引入了将数据根据键跨界点进行混洗的过程。(比如：join,leftOuterJoin,groupByKey,reducebyKey等)对于像reduceByKey这样只作用于单个RDD的操作，运行在未分区的RDD上的时候会导致每个键的所有对应值都在每台机器上进行本地计算。

Spark SQL的核心是把已有的RDD，带上Schema信息，然后注册成类似sql里的”Table”，对其进行sql查询。这里面主要分两部分，一是生成SchemaRD，二是执行查询。

如果是spark-hive项目，那么读取metadata信息作为Schema、读取hdfs上数据的过程交给Hive完成，然后根据这俩部分生成SchemaRDD，在HiveContext下进行hql查询。

汪本成

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark重要概念

（1）Spark运行模式目前最为常用的Spark运行模式有：- local：本地线程方式运行，主要用于开发调试Spark应用程序 - Standalone：利用Spark自带的资源管理与调度器运行Spark集群，采用Master/Slave结构，为解决单点故障，可以采用ZooKeeper实现高可靠（High Availability，HA)- Apache Mesos ：运
复制链接

扫一扫

专栏目录