spark sql 查看全部数据库的表

最新推荐文章于 2023-05-04 21:19:04 发布

oifengo

最新推荐文章于 2023-05-04 21:19:04 发布

阅读量2.3k

点赞数 1

文章标签： spark 数据库 sql

本文链接：https://blog.csdn.net/weixin_39381833/article/details/128383776

版权

本文档介绍了在大数据环境下，如何利用Spark查询Hive元数据，包括所有数据库和表。提供了两种解决方案，一种是通过Python实现，遍历数据库并收集所有表信息；另一种是使用Scala，创建DataFrame并合并所有数据库的表信息。这两种方法解决了在大量数据库下查询表的痛点。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一需求背景

大数据环境下，metastore一般都交个hive处理，随着数据库表越来越多，进行源数据管理的就会成为痛点，如何能够查询出所有的数据库下的所有表

二官方文档

Spark 官方文档Tables

-- List all tables from default database matching the pattern `sam*|suj`
SHOW TABLES FROM default LIKE 'sam*|suj';
  +-----------+------------+--------------+--+
  | database  | tableName  | isTemporary  |
  +-----------+------------+--------------+--+
  | default   | sam        | false        |
  | default   | sam1       | false        |
  | default   | suj        | false        |
  +-----------+------------+--------------+--+

官方给的sample中，只能一个库一个库查询，如果有成百上千个库呢？

三解法1

3.1 DB合集

databases = [
    db.databaseName 
    for db in spark.sql('show databases').collect()
]

3.2 tables合集

tables = [
    for db_rows in [
        spark.sql(f'show tables in {db}').collect() for db in databases
    ] 
    for row in db_rows
]

3.3 result format

targetTables = [
    f"{row['database']}.{row['tableName']}" 
    for db_rows in [
        spark.sql(f'show tables in {db}').collect() for db in targetDBList
    ] 
    for row in db_rows
]

从 Python 3.6 开始，Python f 字符串可用。该字符串具有f前缀，并使用{}评估变量

python fyingyong

四解法2

%scala
import org.apache.spark.sql.types._
// Create schema for final result
val schema = List(
    StructField("database", StringType, true),
    StructField("tableName", StringType, true),
    StructField("isTemporary", BooleanType, true)
)
// Create an empty Dataframe in Scala using VAR so its mutable
var resultDF = spark.createDataFrame(spark.sparkContext.emptyRDD[Row], StructType(schema))
// Get list of all Databases and store it in a Data frame
val df = spark.sql("show databases")
// Loop through all the databases and get list of all tables using // show tables from database 
// using unionAll append the dataframe
df.collect.foreach {db =>
   val dbname = db.toString().replaceAll("[\\[\\]]","")
   val tbldf=spark.sql(s"show tables from ${dbname}")
   resultDF = resultDF.unionAll(tbldf)
}
// display is available in databricks. Traditional spark use show
display(resultDF)
// display.show()

解法2出处