之所以要使用pandas读取hive的数据,是在于pandas的数据处理能力很强,当然也可以使用sparksql处理,但如果要使用结果图表展示的话,建议还是使用pandas,当然如果上到集群的层面,sparksql是比较好的选择
废话少说,上代码
1. 安装依赖`
pip install pyhive
pip install thrift
pip install sasl
pip install thrift_sasl
如果你是就会发现sasl安装失败,如果你在windows平台上的话,这时候你需要到一个网站去下载专用于window的whl
https://www.lfd.uci.edu/~gohlke/pythonlibs/#sasl
然后切换到下载的目录下下进行安装
2.配置hive
做到这一步的朋友,算是已经事情成功了一半,但只是一半,pyhive连接hive是需要使用hiveserver2服务的。
"""Wraps a Thrift session"""
def __init__(
self,
host=None,
port=None,
scheme=None,
username=None,
database='default',
auth=None,
configuration=None