Spark
文章平均质量分 82
dhylanyu1
这个作者很懒,什么都没留下…
展开
-
Spark核心-集群及优化
Spark核心-集群及优化集群管理器选择合适的集群管理器网页用户界面关键性能指标并行度调优并行度:集群管理器Spark应用通过集群管理器Cluster Manager的外部服务在集群中机器上启动,Spark自带的集群管理器称为独立集群管理器,也能运行在Hadoop Yarn和Apache Mesos两个开源集群管理器上。Spark依赖于集群管理器来启动执行器节点,集群管理器在Spark中是可插拔式的如:Hadoop YARN 会启动一个叫作资源管理器(Resource Manager)的主节点守护进原创 2021-07-21 15:58:31 · 252 阅读 · 0 评论 -
Spark核心-键值对RDD
Spark核心-键值对RDD概述Pair RDD并行化调优从分区中获益影响分区的操作概述键值对RDD一般通过初始化操作将数据转换成K-V形式,使用可控的分区方式把常被一起访问的数据放在同一个节点上,可以大大减少应用的通信开销。Pair RDD当从内存数据集创建pairRDD时,需要调用sparkContext.parallelizePairs如{(1,2), (3,4), (3,6)}函数描述注意示例reduceByKey合并具有相同key的值{(1,2), (3,原创 2021-07-21 15:37:31 · 168 阅读 · 0 评论 -
Spark核心-RDD
Spark核心-RDD概述RDD操作转化操作行动操作常见的转化操作常见的行动操作持久化概述RDD-弹性分布式数据集,Resilient Distributed Dataset。分布式数据的集合,对数据的所有操作不外乎就是创建RDD、转化RDD、调用RDD操作,Spark会自动将RDD中的数据分发到集群中,并将操作并行化执行。RDD是一个不可变的分布式对象集合,每个RDD都会被分为多个分区,这些分区运行在集群上的不同节点。有两种方式创建RDD:读取外部数据集从其他RDD转化而来转化操作和行动原创 2021-07-21 14:47:44 · 137 阅读 · 0 评论 -
Spark流程梳理
Spark流程梳理一级目录一级目录原创 2021-07-20 14:09:40 · 178 阅读 · 0 评论