spark03-读取文件数据分区数量个数原理

最新推荐文章于 2024-11-14 13:27:23 发布

小朋友,你是否有很多问号?

最新推荐文章于 2024-11-14 13:27:23 发布

阅读量1k

点赞数

分类专栏： spark 文章标签： spark

本文链接：https://blog.csdn.net/oracle8090/article/details/129013345

版权

spark 专栏收录该内容

12 篇文章

订阅专栏

代码

    val conf: SparkConf = new SparkConf().setMaster("local").setAppName("wordcount")
    val sc: SparkContext = new SparkContext(conf)
    val rdd: RDD[String] = sc.textFile("datas/1.txt",2)
    rdd.saveAsTextFile("output")

数据格式：

当texfFile可以将文件作为数据处理的数据源，默认也有设定分区

minPartitions:最小分区数量

默认的最小分区数为2，但是实际的分区数可能比2要大

比如运行脚本后最后得到的分区文件为3个文件，并不是2个文件，原因是

分区数量的计算方式，spark读取文件底层使用的是hadoop读取文件方式getSplits方法

通过源码查看使用到了totalSize，这个指的是文件的字节数

通过文件打开可以看到在1 和2 的后面有特殊字符，表示回车因此该文档并不是3个字节而是7个字节

因此 totalSize=7

long goalSize = 7 / (long)(2 == 0 ? 1 : 2)=7/2=3 表示每个分区的字节数

totalSize/goalSize=7/3=2 个分区余 1个字节，1个字节占3个字节的30%

在hadoop的切分原理（1.1）时如果剩余的数据量大于10%产生新的分区

因此最后产出的是3个分区文件

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

小朋友,你是否有很多问号?

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

【spark2】【源码学习】【分区数】spark读取本地/可分割/单个的文件时是如何划分分区

梦，不可及，所以可期待...

10-06

2053

大数据计算中很关键的一个概念就是分布式并行计算，意思就是讲一份原始数据切分成若干份，然后分发到多个机器或者单个机器多个虚拟出来的内存容器中同时执行相同的逻辑，先分发(map)，然后聚合(reduce)的一个过程。那么问题是原始文件是怎么切分的呢，在spark读取不同的数据源，切分的逻辑也是不同的。首先spark是有改变分区的函数的，分别是Coalesce()方法和rePartition()方法，但是这两个方法只对shuffle过程生效，包括参数spark.default.parallelism也只是对.

如何解决Spark-sql读取hive分区表执行效率低问题

zjjcchina的博客

08-09

1292

在开发过程中使用spark去读取hive分区表的过程中（或者使用hive on spark、nodepad开发工具），部分开发人员未注意添加分区属性过滤导致在执行过程中加载了全量数据，引起任务执行效率低、磁盘IO大量损耗等问题。2、自定义规则CheckPartitionTable类，实现Rule，将规则类追加至Optimizer.batches: Seq[Batch]中。1、自定义规则CheckPartitionTable类，实现Rule，通过以下方式创建SparkSession。...

参与评论您还未登录，请先登录后发表或查看评论

Spark查看每个分区的数据

ks_1998的博客

03-30

3211

Spark查看每个分区的数据

scala spark dataframe和rdd 获取分区个数及每个分区的内容

helloxiaozhe的博客

12-27

5434

1 dataframe获取分区个数 scala> // 构造测试数据源 scala> val df = spark.sparkContext.makeRDD(1.to(100), 4).toDF("id") df: org.apache.spark.sql.DataFrame = [id: int] scala> // 获取分区个数 scala> val partition_num=df.rdd.partitions.length partition_num: Int =

spark读取hdfs文件的分区数

lijianqingfeng的专栏

12-21

2097

一直以来都没搞懂spark读hdfs文件到底是怎么确定分区数的，分区数如果超过了spark的并行度怎么办。最近又在写spark任务，顺便看一下这个逻辑。（1）spark读hdfs文件的分区数由hdfs文件占用的文件块数决定。我们知道，hdfs文件存储的时候是分文件块的，就想操作系统存储文件一样。操作系统的一块一般是1024kB，hdfs文件一般存储大文件，一块一般设置为128MB。例如：如果读取的一个hdfs文件大小为1280MB，可能是存储为10块，那么spark读取这个文件的分区数就是.

如何统计当前Spark程序有多少分区？

SunnyRivers

05-09

1383

前言旁边小伙问：我现在本地有个529.24MB的文件，那么这个默认的有多少个分区数？我：…那个…如果数据来源于HDFS，那么block数量默认对应split数据同时对应partitons的数量，而block块的大小默认为128MB，所以529.24/128（4.13）也就是有5个分区小伙：这个我知道，现在数据在本地不是HDFS 我：…这个得测试一下如何获取分区数（1）获取默认分区数 sp...

六十三、Spark-读取数据并写入数据库

2401_85111528的博客

05-28

437

注：pom依赖在业务实施中是极其重要的一环，相当于配置文件，例如可能需要的 jar 包，可能需要的 Scala 语言版本都在此处进行配置等等。

Spark 读取 HDFS 文件时 RDD 分区数的确定原理与源码分析

最新发布

z1941563559的博客

11-14

893

Spark 通过goalSize和blockSize来平衡分区数量与块大小。分区数会随着文件大小、块大小、期望分区数等参数变化。分区数设定不合理会影响性能，例如分区数过多会导致任务调度开销增加，分区数过少则可能导致计算资源未充分利用。

spark 读取ftp_Spark开发-SparkSQL读写数据

weixin_32321921的博客

02-22

928

SparkSQL数据读写DataFrameReaderDataFrameWriterDataFrameReader 对应的组件 SCHEMA OPTION FORMATDataFrameReader 有两种访问方式,一种是使用 load 方法加载, 使用 format 指定加载格式,还有一种是使用封装方法, 类似 csv, json, jdbc 等//.第一种形式 READ + FORMAT...

【SPARK】浅谈Spark数据读取并行度获取及数据分区存储

SmallScorpion

02-15

1717

浅谈Spark数据读取并行度获取及数据分区存储

Spark创建RDD、DataFrame各种情况的默认分区数

02-25

本文来自dongkelun，讲各种情况下的sc.defaultParallelism，defaultMinPartitions，各种情况下创建以及转化。熟悉Spark的分区对于Spark性能调优很重要，本文总结Spark通过各种函数创建RDD、DataFrame时默认的分区数，其中主要和sc.defaultParallelism、sc.defaultMinPartitions以及HDFS文件的Block数量有关，还有很坑的某些情况的默认分区数为1。如果分区数少，那么并行执行的task就少，特别情况下，分区数为1，即使你分配的Executor很多，而实际执行的Executor只有1个，如果数据很

spark04-文件读取分区数据分配原理

oracle8090的博客

02-13

748

文件分区数据分配

Spark-sql Adaptive Execution动态调整分区数量，调整输出文件数

程老师的博客

10-29

2519

背景：在数仓任务中，经常要解决小文件的问题。有时间为了解决小文件问题，我们把spark.sql.shuffle.partitions这个参数调整的很小，但是随着时间的推移，数据量越来越大，当初设置的参数就不合适了，那有没有一个可以自我伸缩的参数呢？

Spark Core快速入门系列(9) | Spark读取文件的切片规则

Knight

08-21

752

目录读取文件的切片规则如果找不到源码-分享步骤读取文件的切片规则截取了源码重要的部分 //所有的文件 FileStatus[] files = listStatus(job); //记录所有文件的总大小 //numSlits是minPartitions=2 long totalSize = 0; long goalSize = totalSize / (numSplits == 0 ? 1 : numSplits); //前部分没有配置，那么就是1 minSplitSize看源码也是1 long m

Spark RDD分区数和分区器

weixin_37901366的博客

05-11

860

① Ctrl + B 进入textFiletextFile底层其实就是通过去读文件② Ctrl + B 进入hadoopFile>>可以发现里面New了一个HadoopRDD实例③Ctrl + B 进入HadoopRDD类重点关注里面的方法>> 拆解分析1：最终返回的是一个partition数组>> 拆解分析2：inputSplits是通过getInputFormat(jobConf).getSplits(jobConf, minPartitions)获取，所以需要进入方法。

Spark 文件切片与数据读取解析

popping_w的博客

11-15

1033

Spark 文件切片与数据读取解析 1.Spark读取文件采用的是Hadoop的读取规则文件切片规则：以字节方式来切片数据读取规则：以行为单位来读取注意：文件中回车换行也占2个字节 2.问题：文件到底切成几片（分区的数量）？文件字节数（10），预计切片数量（2） 10/2=》5byte 源码： totalSize = 10 goalSize = totalSize / numSplits = 10 / 2 = 5 …1 => 3 //所谓的最小分区数，取决于总的字节数是否能整除分区

【Spark练习】RDD分区操作

weixin_40433003的博客

04-28

588

spark 分区操作练习

spark封神之路(13)-RDD分区详解

HANG.NIAN

06-23

1760

1 简介简介理解RDD是spark中封装的用来处理数据的一种抽象概念,其主要包含处理逻辑和要处理的数据! 无论是不读取文件获取的RDD还是从集合转换而来的RDD最终的目的都是为了处理对应的数据 ,数据量海量的话 , 我们应该很容易的想到让数据并行化分布式运算!牵扯到分布式那必然存在数据任务划分的问题!那么RDD在创建的时候就对数据进行了有效的分区!当然我们也可以合理的改变RDD的分区来提高运算效率! 一个partitioner，即RDD的分片函数。当前Spark中实现了两种类型的分片函数.

spark（二）创建RDD时默认分区数

heroking

04-04

2813

一、概述 Spark的分区数对于Spark性能调优很重要，如果分区数少，那么并行执行的task就少，比如分区数为1，即使你分配的Executor很多，而实际执行的Executor只有1个，如果数据量很大的话，那么任务执行的就很慢，因此熟悉各种情况下默认的分区数对于Spark调优就很有必要了，特别是执行完算子返回的结果分区数为1的情况，更需要特别注意。二、默认最小分区数：defaultMinPar...