Spark小笔记-切片逻辑

1、内存数据的切片逻辑

val conf = new SparkConf().setMaster("local[*]").setAppName("RDD")
conf.set("spark.default.parallelism", "4")
val sc = new SparkContext(conf)
val rdd1 : RDD[Int] = sc.makeRDD(Seq(1,2,3,4,5), 3)
rdd1.saveAsTextFile("output")
sc.stop()

源码跟进

 

defaultParallelism逻辑

defaultParallelism分析过程

 

 

 

 

defaultParallelism小总结

1、由 setMaster 决定  local  默认 1   local[*] 默认线程数

2、由参数 spark.default.parallelism 决定

3、直接在函数中传入 

权重 依次 3 > 2 > 1

切片逻辑 

 

 

 切片逻辑小总结

核心方法是 positions

根据序列的大小,以及分区数,计算出每个切片的首位索引

然后算出每个切片的数据

 2、文件数据的切片逻辑

val conf = new SparkConf().setMaster("local[*]").setAppName("RDD")
val sc = new SparkContext(conf)
val rdd = sc.textFile("data/word.txt", 3)
rdd.saveAsTextFile("output")
sc.stop()

 

 

 

 

 

其他

 切片流程小分析

1、计算 goalSize    long goalSize = totalSize / (numSplits == 0 ? 1 : numSplits);

      由文件大小 /  切片数   比如  10G 文件 / 2个 切片     goalSize  = 5G

2、计算 minSize  Math.max(job.getLong(org.apache.hadoop.mapreduce.lib.input. FileInputFormat.SPLIT_MINSIZE, 1), minSplitSize); 

mapreduce.input.fileinputformat.split.minsize  

minSize 得到 值 1

3、计算 blockSize = file.getBlockSize();   本地 32M,hadoop 集群默认 128M

4、splitSize = Math.max(minSize (1), Math.min(goalSize(5G), blockSize (128M));

   最终 切片大小为 128M 

5、SPLIT_SLOP = 1.1 如果最后1个切片的大小小于切片的 10 % ,将会合并到前1个切片中,形成最终切片

案例分析

123
456
789

 

 

 

 注意光标的位置

因为存在换行符 所以 11 = 9 + 2 (2个换行符)

hadoop 是按行读取文件,不是字符

11 /  3  = 3.6666666....  > 3.1  ===>  4 个分区文件

splitSize = 3

123#         0123

456#        4567

789          8910

[0, 3] => [123]
[3, 6] => [456]
[6, 9] => [789]
[9, 10] => []

文件切片小总结

分区数据的处理也是由Hadoop决定的。

hadoop在计算分区时会处理数据时的逻辑不一样。
核心公式:  long goalSize = totalSize / (numSplits == 0 ? 1 : numSplits);
splitSize = Math.max(minSize , Math.min(goalSize, blockSize);

Spark读取文件数据底层使用的就是hadoop读取的,所以读取规则用的是hadoop
        hadoop读取数据是按行读取的,不是按字节读取
        hadoop读取数据是偏移量读取的
        hadoop读取数据时,不会重复读取相同的偏移量

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
### 回答1: Spark SQL是Spark中用于处理结构化据的模块。它提供了一种基于DataFrame和SQL的编程接口,可以方便地进行据分析和处理。Spark SQL支持多种据源,包括Hive、JSON、Parquet等,可以通过SQL语句或DataFrame API进行据查询和操作。Spark SQL还支持用户自定义函(UDF)和聚合函(UDAF),可以满足更复杂的据处理需求。Spark SQL的优势在于它可以与Spark的其他模块无缝集成,如Spark Streaming、MLlib等,可以构建完整的据处理和分析流程。 ### 回答2: 本篇笔记主要是介绍Spark SQL的基本概念和编程模型。 Spark SQL是面向Spark计算引擎的一种高性能的分布式据处理技术,它提供一种基本的高度抽象的编程模型,使得开发大规模的据仓库和据分析应用变得容易和高效。 Spark SQL最核心的概念就是DataFrames,DataFrame是RDD的超集,提供了更高层次的抽象和对据的结构化的处理能力,在据处理的过程中常常会用到一些基本的操作:过滤、选择、聚合、排序等等,而这些操作都可以一步一步地以DataFrame为基础完成。 在使用Spark SQL的过程中,可以通过DataFrame API和Spark SQL语言两种方式进行编程。DataFrame API是Spark SQL提供的一种编程API,它提供了常见的操作,如选择、过滤和聚合等。而Spark SQL语言则是一种基于SQL的编程语言,和传统的SQL查询语言类似,可以通过SQL查询语句来对据进行查询和操作。Spark SQL可以支持多种据源,包括JSON、Parquet、ORC、Hive、JDBC等等,因此可以轻松地读取和处理不同类型的据源。 Spark SQL还提供了高级的功能,如User-Defined Functions(UDFs)、Window Functions和Structured Streaming等等。UDFs允许开发者自定义函并在Spark SQL中使用,将SQL和代码结合起来,提高了处理据的灵活性和可扩展性;Window Functions则是一种用来进行滑动窗口操作的函,常常用于计算据的局部或全局统计量;Structured Streaming提供了据流处理的能力,并且实现了端到端的Exactly-Once语义。 总之,Spark SQL提供了很多的功能和便利,特别是在大据处理和分析领域,它的优势尤为突出。结合Spark的强大计算能力和Spark SQL的抽象编程模型,在大规模的据分析和仓库方面都具有非常高的可扩展性和灵活性。 ### 回答3: Spark SQL是Spark生态系统中的一个组件,它负责处理结构化据。它提供了SQL查询和DataFrame API,可以从不同的据源中读取和处理据。Spark SQL能够理解SQL语言,这使得开发人员可以使用传统的SQL查询方式来处理据,同时还可以利用Spark的优势,例如分布式计算和内存缓存。 Spark SQL支持许多不同类型的据源,包括Hive表、传统的RDD、Parquet文件、JSON文件、CSV文件和JDBC据源等。Spark SQL可以通过使用据源API将这些据源加载到Spark中,然后可以在Spark中处理和查询这些据。 Spark SQL还支持特定于据源的优化器和执行引擎,这允许Spark SQL针对不同的据源执行优化操作。例如,使用Hive据源时,Spark SQL会使用Hive的元据来优化查询计划。当使用Parquet文件格式时,Spark SQL会使用Parquet文件中的元据来优化查询计划。 在Spark SQL中,DataFrame是一种非常重要的概念。它是一种强类型的分布式据集,可以使用DataFrame API进行操作。DataFrame API是一种更面向据的API,例如过滤据、聚合据等。Spark SQL中的DataFrame可以看作是类似于表的对象,它可以和Spark SQL中的SQL查询混合使用。 除了DataFrame API和SQL查询,Spark SQL还支持UDF(用户自定义函)。UDF允许用户在SQL查询或DataFrame API中定义自己的函,以实现更复杂的据操作。使用UDF时,用户可以使用累加器和广播变量等Spark的分布式计算功能,使得UDF具备高性能和可伸缩性。 总之,Spark SQL是大据处理领域中一种非常方便和强大的处理结构化据的工具。它可以方便地与其他Spark组件结合使用,例如Spark Streaming、Spark MLlib等。使用Spark SQL,开发人员可以在不同的据源之间轻松地查询和转换据,并利用Spark分布式计算的优势,实现高性能和可伸缩性的据处理。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值