背景:工作需要,使用 python 操作 hive sql 查询数据使用。
目标:使用pyhive连接上hive,并正常读取数据。
一、准备工作
首先安装几个简单的包
pip install thrift
pip install thrift-sasl
pip install PyHive
接下来安装sasl,直接运行
pip install sasl
但是我们在安装sasl的时候可能会报错,导致安装不上,这个时候就得去sasl下载地址下载我们所需要的sasl。
需要下载对应的版本,例如python3.7 对应 sasl-0.2.1-cp37-cp37m-win_amd64.whl
否则会报错 :
whl is not a supported wheel on this platform
下载完成后,执行命名 pip install sasl-0.2.1-cp37-cp37m-win_amd64.whl
如果连接404可以由此下载
二、运行中的坑
安装完成后,直接输入命令 from pyhive import hive 时候可能会报错
cannot import name 'constants' from 'TCLIService' (unknown location)
这个时候需要进一步安装
pip install --upgrade pyzmq
安装完成后,测试运行无误
三、连接Hive
开始尝试连接hive
from pyhive impo