如何应对SparkSQL DataFrame保存到hdfs时出现的过多小文件问题

最新推荐文章于 2024-07-23 11:02:21 发布

jsky_studio

最新推荐文章于 2024-07-23 11:02:21 发布

阅读量8.8k

点赞数

分类专栏： Spark

本文链接：https://blog.csdn.net/jsky_studio/article/details/46810003

版权

Spark 专栏收录该内容

11 篇文章 0 订阅

订阅专栏

原因就不解释了，总之是因为多线程并行往hdfs写造成的（因为每个DataFrame/RDD分成若干个Partition，这些partition可以被并行处理）。

其结果就是一个存下来的文件，其实是hdfs中一个目录，在这个目录下才是众多partition对应的文件，最坏的情况是出现好多size为0的文件。

如果确实想避免小文件，可以在save之前把DaraFrame的partition设为0： (当然，这必然影响程序效率)

1. 如果是Spark 1.3.x, 可以调用函数如下：

【DataFrame2】=【DataFrame1】.repartition(1)；

【DataFrame2】.save(path);

2. 如果是Spark 1.4.0, 可以调用如下函数：

【DataFrame2】=【DataFrame1】.coalecse(1, false)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

jsky_studio

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

【硬刚大数据之面试篇】2021年从零到大数据专家面试篇之SparkSQL篇

微信搜：import_bigdata，大数据领域硬核原创作者

07-28

1537

????欢迎关注博客主页：https://blog.csdn.net/u013411339 ????欢迎点赞 ???? 收藏 ⭐留言 ???? ，欢迎留言交流！ ????本文由【王知无】原创，首发于 CSDN博客！ ????本文首发CSDN论坛，未经过官方和本人允许，严禁转载！本文是对《【硬刚大数据之学习路线篇】2021年从零到大数据专家的学习指南(全面升级版)》的面试部分补充。硬刚大数据系列文章链接： 2021年从零到大数据专家的学习指南(全面升级版) 2021年从零到大数据专家面试篇之H

[Spark进阶]-- spark-1.6.x-小结

欢迎来到我的博客，一起探索代码里的世界！

08-07

1923

官方定义：spark是一个基于内存的分布式计算框架它会使得计算速度以及开发速度快！特点：One stack rule them all ! 一站解决所有问题热查询(Hive) 批处理(MapReduce) 实时流计算(Storm) 回顾MapReduce 的 Shuffle过程见图 hadoop慢的原因：DISK IO 输入输出DISK IO，Shuffle阶段也是DI...

参与评论您还未登录，请先登录后发表或查看评论

spark sql合并小文件_Spark SQL 小文件问题产生原因分析以及处理方案

weixin_39985365的博客

12-17

726

在生产中，无论是通过SQL语句或者Scala/Java等代码的方式使用Spark SQL处理数据，在Spark SQL写数据时，往往会遇到生成的小文件过多的问题，而管理这些大量的小文件，是一件非常头疼的事情。大量的小文件会影响Hadoop集群管理或者Spark在处理数据时的稳定性：1.Spark SQL写Hive或者直接写入HDFS，过多的小文件会对NameNode内存管理等产生巨大的压力，会影响...

spark的DataFrame数据保存到hdfs产生过多小文件该怎么解决

love_zy0216的博客

04-24

4679

写入过程产生过多小文件是因为多线程并行向hdfs写入造成的，所以可以再save之前设置dataframe的partitions设置为0，但是这样设置一定会影响spark写入的性能 val result: DataFrame = WorkOperator ( dataFrame, sparkSession ).controller ( operator ) //df保存到hdfs ...

Spark 秘籍（二）

最新发布

龙哥盟

07-23

1068

Spark 可以处理来自各种数据源的数据，如 HDFS、Cassandra、HBase 和关系数据库，包括 HDFS。大数据框架（不像关系数据库系统）在写入时不强制执行模式。HDFS 是一个完美的例子，在写入阶段任何任意文件都是可以的。然而，读取数据是另一回事。即使是完全非结构化的数据，你也需要给它一些结构来理解。有了这些结构化数据，SQL 在分析时非常方便。Spark SQL 是 Spark 生态系统中相对较新的组件，首次在 Spark 1.0 中引入。

运行spark作业，hdfs文件越来越大问题解决

mn_kw的博客

08-24

2007

我们在运行spark作业的时候，发现hdfs中的数据越来越多，经查看是我们spark-history文件目录下的东西，这个时候就是我们在配置的时候，没有配置spark-history文件过段时间自动删除，我们应该在spark-default.conf中加入以下参数 spark.history.fs.cleaner.enabled 默认为false 这个参数指定history-s...

sparksql保存数据常见操作

weixin_43705952的博客

04-22

473

sparksql保存数据操作 import org.apache.spark.SparkConf import org.apache.spark.sql.{DataFrame, SparkSession} //todo:sparksql可以把结果数据保存到不同的外部存储介质中 object SaveResult { def main(args: Array[String]): Unit =...

Spark学习——DataFrame清洗HDFS日志并存入Hive中

雷神乐乐的博客

04-11

958

DataFrame清洗HDFS日志并存入Hive中

Hive表小文件合并方法总结

u010585659的博客

10-19

4299

Hive表小文件合并方法总结 Hive表小文件产生原因

Spark编程案例——DataFrame

weixin_44804248的博客

05-29

871

Spark SQL 1、相应于Hive: SQL —> MapReduce 2、底层依赖RDD： SQL —> RDD 一、Spark SQL基础 1、什么是Spark SQL？参考官网 2、核心概念：DataFrame（表）= Schema（表结构） + Data（表数据）（*）就是表，是Spark SQL对结构化数据的抽象 ...

[Spark版本更新]--Spark-2.4.0 发布说明

欢迎来到我的博客，一起探索代码里的世界！

11-09

6539

2018-11-02 Apache Spark 官方发布了 2.4.0版本，以下是 Release Notes，供参考： Sub-task [ SPARK-6236 ] - 支持大于2G的缓存块 [ SPARK-6237 ] - 支持上传块> 2GB作为流 [ SPARK-10884 ] - 支持针对回归和分类相关模型的单实例预测 [ SPARK-11239 ] - 用于ML线性...

spark新能优化之提高并行度

weixin_34292959的博客

07-13

414

实际上Spark集群的资源并不一定会被充分利用到，所以要尽量设置合理的并行度，来充分地利用集群的资源。才能充分提高Spark应用程序的性能。 Spark会自动设置以文件作为输入源的RDD的并行度，依据其大小，比如HDFS，就会给每一个block创建一个partition，也依据这个设置并行度。对于reduceByKey等会发生shuffle的操作，就使用并行度最大的父RDD的并行度即可。可以...

大数据面试题——Spark的Shuffle配置调优（八）

qq_41544550的博客

10-24

782

1、Shuffle优化配置 - spark.shuffle.file.buffer 默认值：32k 参数说明：该参数用于设置shuffle write task的BufferedOutputStream的buffer缓冲大小。将数据写到磁盘文件之前，会先写入buffer缓冲中，待缓冲写满之后，才会溢写到磁盘。调优建议：如果作业可用的内存资源较为充足的话，可以适当增加这个参数的大小（比如64k），从而减少shuffle write过程中溢写磁盘文件的次数，也就可以减少磁盘IO次数，进而提...

spark---dataFrame保存成表和csv文件

weixin_44280356的博客

12-29

1292

【代码】spark---dataFrame保存成表和csv文件。

SparkSql之数据的读取和保存

石榴姐yyds

08-19

5630

目录 0 引言 1 加载数据 2 保存数据 3 Parquet 4 JSON 4 CSV 5 MySQL 6 Hive 0 引言 SparkSQL提供了通用的保存数据和数据加载的方式。这里的通用指的是使用相同的API，根据不同的参数读取和保存不同格式的数据，SparkSQL默认读取和保存的文件格式为parquet。 1 加载数据 spark.read.load 是加载数据的通用方法 scala> spark.read. csv format jdbc json

sparksql读取hive中的数据保存到hdfs中

YouMe的博客

09-07

7004

package wondersgroup_0905_Test import org.apache.spark.sql.SparkSession object sparkHive { def main(args: Array[String]): Unit = { //数据库名称 val database ="hivetest" //表名称 val table...

平易近人、兼容并蓄——Spark SQL 1.3.0概览

Daemon的专栏

04-03

1155

摘要：DataFrame API的引入一改RDD API高冷的FP姿态，令Spark变得更加平易近人。外部数据源API体现出的则是兼容并蓄，Spark SQL多元一体的结构化数据处理能力正在逐渐释放。关于作者：连城，Databricks工程师，Spark committer，Spark SQL主要开发者之一。在4月18日召开的 2015 Spark技术峰会上，连城将做名为“四两拨千斤

sparksql dataframe处理

10-18

好的，关于 SparkSQL DataFrame 的处理，您有什么具体的问题需要我解答呢？一般来说，DataFrame 是 SparkSQL 中最常用的数据结构之一，它可以看作是一张表格，每一列都有一个名称和数据类型，而每一行则是由这些列...