环境
CentOS 7
Hive 2.3.6
Spark 2.3.0
Jupyter hub 1.1.0(notebook,lab通用)
Python 3.7
准备
- Spark, Hive已安装完成
- Jupyter 通过Anaconda 安装完成
- 在spark/bin目录中,可通过spark-sql,pyspark连接hive
pyspark测试代码
from pyspark import SparkConf, SparkContext
from pyspark.sql import HiveContext
sqlContext = HiveContext(sc)
my_dataframe = sqlContext.sql(