20240226-清洗数据,查看非空tables

文章展示了如何利用PySpark和HiveContext查询imh_pbg数据库中非空表的过程,涉及SparkSession初始化、SQL查询和数据验证。
from pyspark.sql import SparkSession
from pyspark.sql import HiveContext

# 初始化SparkSession
spark = SparkSession.builder.appName("ListNonEmptyHiveTables").enableHiveSupport().getOrCreate()

# 创建HiveContext
hive_context = HiveContext(spark)

# Hive数据库名称
database_name = "imh_pbg"

# 查询数据库中的所有表名
table_names = hive_context.sql(f"SHOW TABLES IN {database_name}")

# 创建一个空列表来存储非空表的名称
non_empty_tables = []

# 遍历所有表
for row in table_names.collect():
    table_name = row[0]  # 假设表名在第一列
    # 查询表中的非空行
    # 注意:这里我们使用一个简单的条件来检查表是否为空,这可能需要根据实际情况调整
    df = hive_context.sql(f"SELECT COUNT(*) FROM {database_name}.{table_name}")
    # 如果表中有数据,COUNT(*) 将返回大于0的值
    if df.collect()[0][0] > 0:
        non_empty_tables.append(table_name)

# 输出非空表的列表
for table in non_empty_tables:
    print(table)

# 关闭SparkSession
spark.stop()
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值