spark
独照松月冷别赋
未来的你一定会感谢现在拼命的自己.....
展开
-
RDD基本特性
RDD基本特性1、什么叫RDD?2、RDD有怎么样的特性?1、RDD是Spark提供的核心抽象,全称为Resillient Distributed Dataset,即弹性分布式数据集。2、RDD在抽象上来说是一种元素集合,包含了数据。它是被分区的,分为多个分区,每个分区分布在集群中的不同节点上,从而让RDD中的数据可以被并行操作。(分布式数据集)3、RDD通常通过Hadoop上原创 2017-09-22 15:54:11 · 700 阅读 · 0 评论 -
spark性能调优之数据本地化
spark性能调优之调节数据本地化等待时长数据本地化级别1.PROCESS_LOCAL:进程本地化,代码和数据在同一个进程中,也就是在同一个executor中;计算数据的task由executor执行,数据在executor的BlockManager中;性能最好2.NODE_LOCAL:节点本地化,代码和数据在同一个节点中;比如说,数据作为一个HDFS bloc原创 2017-09-22 16:36:47 · 344 阅读 · 0 评论