hive数据库中的数据保存为CSV文件
from pyspark.sql import HiveContext
from pyspark.sql import SparkSession
from pyspark.sql.types import *
def hive2csv():
spark = SparkSession.builder.appName("") .config("", "")
.config("", "") .enableHiveSupport() .getOrCreate()
hiveCtx = HiveContext(spark)
# sql语句,选择需要导出的表,写入到hsdf中
df = hiveCtx.sql("select * from xxx.xxx")
df.write.format("csv").option("header", "false").mode("overwrite").save("")
导出数据之后,使用下面的代码保存为CSV文件即可。
hadoop fs -getmerge /xxx/xxx/* XXXX.csv