spark
PursuitK
做最好的自己
展开
-
compare排序原理
Compare样例代码:class SortDemo extends Ordering[((Any, String), Int)]{ override def compare(x: ((Any, String), Int), y: ((Any, String), Int)): Int = { y._2 - x._2 }}原理:compare返回值是Int类型,三种情况正数、0、负数。compare如果比较的是Int、Float、Double类型的话,直接以值进行比较。com原创 2021-03-01 15:42:19 · 2057 阅读 · 0 评论 -
RDD的简介
RDDRDD的概念RDD(resilient distributed dataset)是什么?RDD是弹性分布式数据集是spark对数据的抽象spark的本质就是对RDD的创建、转化、处理RDD的属性 一组分片(Partition),即数据集的基本组成单位,对于RDD来说,每个分片都会被一个计算任务处理,用户可以在创建RDD时指定RDD的分片个数,如果没有指定,那么就会采用默认值,默认值一般就是程序所分配到的CPU Core的数目。 一个计算每个分区的函数,Spark中RDD的计算是原创 2021-02-28 16:47:54 · 418 阅读 · 0 评论 -
spark-shell运行参数--master
spark-shellspark-shell 如果直接使用spark-shell命令直接运行,那么它的一切参数都使用的是默认配置,例如:#资源存储的位置,默认为本地,以及使用什么调度框架 ,默认使用的是spark内置的资源管理和调度框架Standalone --master 默认为 local[*] #默认使用集群最大的内存大小--executor-memorty#默认使用最大核数--total-executor-cores spark-shell [options]spark-sh原创 2021-02-27 17:38:53 · 2641 阅读 · 0 评论