Azure Databricks 集群合并小文件与删除过多的历史版本

最新推荐文章于 2025-05-05 18:35:41 发布

lbl251

最新推荐文章于 2025-05-05 18:35:41 发布

阅读量465

点赞数 8

分类专栏： python 文章标签： azure microsoft

本文链接：https://blog.csdn.net/lbl251/article/details/136644169

版权

python 专栏收录该内容

10 篇文章

订阅专栏

本文介绍了如何通过Python脚本在Databricks集群中定期执行表的合并操作以减少小文件问题导致的资源消耗，以及使用VACUUM命令保留168小时的历史版本。通过Workflows设置定时任务来自动化这些过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

原因是：databricks 集群的数据底层是HDFS虽然是spark做为引擎读写如果没有及时合并也一样会因为小文件问题造成大量的资源消耗，也就会越来越慢。目前采用的主要方式，定时合并，与版本删除
1、python 脚本如下有用到的同学可以参考下

# 合并
for database_name in database_list:
    sqlQueryShowTables = "SHOW TABLES FROM {0}".format(database_name)
    tablesDF = spark.sql(sqlQueryShowTables).collect()

    for table in tablesDF:
        sqlOptimizeTable = "OPTIMIZE {0}.{1}".format(database_name, table['tableName'])
        try:
            spark.sql(sqlOptimizeTable)
            print("INFO: Optimize table {0}.{1} completed.".format(database_name, table['tableName']))
        except Exception as e:
            print("ERROR: Optimize table {0}.{1} failed.".format(database_name, table['tableName']))

# 删除多的版本
for database_name in database_list:
    sqlQueryShowTables = "SHOW TABLES FROM {0}".format(database_name)
    tablesDF = spark.sql(sqlQueryShowTables).collect()

    for table in tablesDF:
        sqlVACUUMTable = "VACUUM {0}.{1} RETAIN 168 HOURS".format(database_name, table['tableName'])
        try:
            spark.sql(sqlVACUUMTable)
            print("INFO: VACUUM table {0}.{1} completed.".format(database_name, table['tableName']))
        except Exception as e:
            print("ERROR: VACUUM table {0}.{1} failed.".format(database_name, table['tableName']))

2、在workflows 设置好定时器就行了，