pandas读取hive配置教程

本文介绍如何通过pandas读取Hive数据,利用其强大的数据处理能力。教程涵盖安装依赖、配置Hive、重启服务及连接Hive的步骤。在Windows平台需特别注意sasl库的安装,而在Hive3版本中,连接Hiveserver2需确保启动tez引擎。此外,非root用户还需调整Hadoop配置。
摘要由CSDN通过智能技术生成

之所以要使用pandas读取hive的数据,是在于pandas的数据处理能力很强,当然也可以使用sparksql处理,但如果要使用结果图表展示的话,建议还是使用pandas,当然如果上到集群的层面,sparksql是比较好的选择
废话少说,上代码

1. 安装依赖`

pip install pyhive
pip install thrift
pip install sasl
pip install thrift_sasl

如果你是就会发现sasl安装失败,如果你在windows平台上的话,这时候你需要到一个网站去下载专用于window的whl
https://www.lfd.uci.edu/~gohlke/pythonlibs/#sasl
在这里插入图片描述
然后切换到下载的目录下下进行安装
在这里插入图片描述

2.配置hive

做到这一步的朋友,算是已经事情成功了一半,但只是一半,pyhive连接hive是需要使用hiveserver2服务的。

    """Wraps a Thrift session"""

    def __init__(
        self,
        host=None,
        port=None,
        scheme=None,
        username=None,
        database='default',
        auth=None,
        configuration=None
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值