spark 版本 2.1.0
1、读Hive表数据
pyspark提供了操作hive的接口,可以直接使用SQL语句从hive里面查询需要的数据,代码如下:
# -*- coding: utf-8 -*-
import sys
from pyspark.sql import SparkSession, HiveContext
reload(sys)
sys.setdefaultencoding("utf-8")
#_SPARK_HOST = "spark://spark-master:7077"
_APP_NAME = "test"
spark = SparkSession.builder.enableHiveSupport().appName(_APP_NAME).getOrCreate()
# 使用拼接sql语句的方式查询hive 表,返回dataFrame格式数据
hive_database = "test" # 要操作的数据库
hive_table = "table_01" # 要操作的数据表
hive_read_sql = "select * from {}.{}".format(hive_database, hive_table)
read_df = spark.sql(hive_read_sql)
# hive_context = HiveContext(spark)
# hive_context.setLogLevel("WARN") # 或者INFO等
# read_df = hive_context.sql(hive_read_sql)
print(read_df.show(10))
print('

本文介绍了在Spark 2.1.0版本下如何使用PySpark读取和写入Hive数据表。首先,展示了如何通过PySpark的SQL接口查询Hive表中的数据,包括读取HDFS上和本地的文件。接着,详细说明了两种向Hive表写入数据的方法:通过注册临时表和直接写入。最后,提到了包含这些操作的test.py脚本及其执行方式。
最低0.47元/天 解锁文章
3441

被折叠的 条评论
为什么被折叠?



