使用pyspark读写hive数据表

本文介绍了在Spark 2.1.0版本下如何使用PySpark读取和写入Hive数据表。首先,展示了如何通过PySpark的SQL接口查询Hive表中的数据,包括读取HDFS上和本地的文件。接着,详细说明了两种向Hive表写入数据的方法:通过注册临时表和直接写入。最后,提到了包含这些操作的test.py脚本及其执行方式。
摘要由CSDN通过智能技术生成

spark 版本 2.1.0

1、读Hive表数据

pyspark提供了操作hive的接口,可以直接使用SQL语句从hive里面查询需要的数据,代码如下:

# -*- coding: utf-8 -*-

import sys
from pyspark.sql import SparkSession, HiveContext

reload(sys)
sys.setdefaultencoding("utf-8")

#_SPARK_HOST = "spark://spark-master:7077"
_APP_NAME = "test"
spark = SparkSession.builder.enableHiveSupport().appName(_APP_NAME).getOrCreate()

# 使用拼接sql语句的方式查询hive 表,返回dataFrame格式数据
hive_database = "test"             #  要操作的数据库
hive_table = "table_01"            #  要操作的数据表
hive_read_sql = "select * from {}.{}".format(hive_database, hive_table)

read_df = spark.sql(hive_read_sql)
# hive_context = HiveContext(spark)
# hive_context.setLogLevel("WARN") # 或者INFO等
# read_df = hive_context.sql(hive_read_sql)
print(read_df.show(10))
print('
  • 2
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值