pandas读取hive配置教程

最新推荐文章于 2024-08-19 10:18:43 发布

Drgom

最新推荐文章于 2024-08-19 10:18:43 发布

阅读量1.9k

点赞数 3

分类专栏： python Hive

本文链接：https://blog.csdn.net/qq_43662627/article/details/119336349

版权

本文介绍如何通过pandas读取Hive数据，利用其强大的数据处理能力。教程涵盖安装依赖、配置Hive、重启服务及连接Hive的步骤。在Windows平台需特别注意sasl库的安装，而在Hive3版本中，连接Hiveserver2需确保启动tez引擎。此外，非root用户还需调整Hadoop配置。

摘要由CSDN通过智能技术生成

之所以要使用pandas读取hive的数据，是在于pandas的数据处理能力很强，当然也可以使用sparksql处理，但如果要使用结果图表展示的话，建议还是使用pandas，当然如果上到集群的层面，sparksql是比较好的选择
废话少说，上代码

1. 安装依赖`

pip install pyhive
pip install thrift
pip install sasl
pip install thrift_sasl

如果你是就会发现sasl安装失败，如果你在windows平台上的话，这时候你需要到一个网站去下载专用于window的whl
https://www.lfd.uci.edu/~gohlke/pythonlibs/#sasl
在这里插入图片描述
然后切换到下载的目录下下进行安装

2.配置hive

做到这一步的朋友，算是已经事情成功了一半，但只是一半，pyhive连接hive是需要使用hiveserver2服务的。

    """Wraps a Thrift session"""

    def __init__(
        self,
        host=None,
        port=None,
        scheme=None,
        username=None,
        database='default',
        auth=None,
        configuration=None

最低0.47元/天解锁文章

Drgom

关注

3
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录