SparkCore
文章平均质量分 65
Jerry林
这个作者很懒,什么都没留下…
展开
-
Spark RDD 初始分区数
local:一个线程 -------- sc.defaultParallelism值为 1local[*]:服务器core数量 ----- sc.defaultParallelism的值为 8local[4]:4个线程 ----- sc.defaultParallelism的值为 4 spark.default.parallelism参数值的说明:如果spark-default.co...原创 2018-11-13 15:31:30 · 615 阅读 · 0 评论 -
SparkCore / SparkSQL中窗口函数RANK, DENSE_RANK, ROW_NUMBER的区别
RANK, DENSE_RANK, ROW_NUMBER都是把表中的行按分区内的排序标上序号,但有一点差别:RANK:可以生成不连续的序号,比如按分数排序,第一第二都是100分,第三名98分,那第一第二就会显示序号1,第三名显示序号3。DENSE_RANK: 生成连续的序号,在上一例子中,第一第二并列显示序号1,第三名会显示序号2。ROW_NUMBER: 顾名思义就是行的数值,在上一例...原创 2019-01-28 12:26:47 · 3800 阅读 · 1 评论