spark sql 查看全部数据库的表

本文档介绍了在大数据环境下,如何利用Spark查询Hive元数据,包括所有数据库和表。提供了两种解决方案,一种是通过Python实现,遍历数据库并收集所有表信息;另一种是使用Scala,创建DataFrame并合并所有数据库的表信息。这两种方法解决了在大量数据库下查询表的痛点。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一 需求背景

大数据环境下,metastore一般都交个hive处理,随着数据库 表 越来越多,进行源数据管理的就会成为痛点,如何能够查询出所有的数据库下的所有表

二 官方文档

Spark 官方文档Tables

-- List all tables from default database matching the pattern `sam*|suj`
SHOW TABLES FROM default LIKE 'sam*|suj';
  +-----------+------------+--------------+--+
  | database  | tableName  | isTemporary  |
  +-----------+------------+--------------+--+
  | default   | sam        | false        |
  | default   | sam1       | false        |
  | default   | suj        | false        |
  +-----------+------------+--------------+--+

官方给的sample中,只能一个库一个库查询,如果有成百上千个库呢?

三 解法1

3.1 DB合集

databases = [
    db.databaseName 
    for db in spark.sql('show databases').collect()
]

3.2 tables合集

tables = [
    for db_rows in [
        spark.sql(f'show tables in {db}').collect() for db in databases
    ] 
    for row in db_rows
]

3.3 result format

targetTables = [
    f"{row['database']}.{row['tableName']}" 
    for db_rows in [
        spark.sql(f'show tables in {db}').collect() for db in targetDBList
    ] 
    for row in db_rows
]

从 Python 3.6 开始,Python f 字符串可用。 该字符串具有f前缀,并使用{}评估变量

python fyingyong

四 解法2

%scala
import org.apache.spark.sql.types._
// Create schema for final result
val schema = List(
    StructField("database", StringType, true),
    StructField("tableName", StringType, true),
    StructField("isTemporary", BooleanType, true)
)
// Create an empty Dataframe in Scala using VAR so its mutable
var resultDF = spark.createDataFrame(spark.sparkContext.emptyRDD[Row], StructType(schema))
// Get list of all Databases and store it in a Data frame
val df = spark.sql("show databases")
// Loop through all the databases and get list of all tables using // show tables from database 
// using unionAll append the dataframe
df.collect.foreach {db =>
   val dbname = db.toString().replaceAll("[\\[\\]]","")
   val tbldf=spark.sql(s"show tables from ${dbname}")
   resultDF = resultDF.unionAll(tbldf)
}
// display is available in databricks. Traditional spark use show
display(resultDF)
// display.show()

解法2出处

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

oifengo

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值