python连接hive总结

本文总结了使用Python连接Hive的经验,包括关键的类库版本匹配、安装顺序和环境要求。介绍了通过pyhive和impyla两种方式连接Hive,并详细列举了在连接过程中可能遇到的错误及解决方案,如类库冲突、参数设置错误等。文章最后强调,虽然Python连接Hive方便,但在大数据量下性能较慢。
摘要由CSDN通过智能技术生成
开篇
```
工作中需要,在本地使用python通过远程连接hive,去读取hive的一些表中大量的数据。
进行一些数据预处理,然后测试模型的精准度。
```
```
python连接hive,在刚刚接触的时候,没有经验,盲目的去翻看各种的文档去参考,一个一个的试验,一直不行。感觉很麻烦,很艰难,在初期去安装一些相关类库的时候,就会出现大量的问题。
所幸,后期在安装成功之后,有了一番总结,明白了安装的流程。
```
```
我在工作中,需要频繁的去读取hive中的数据,按月去读取。
基本上,需要每个月读取完毕之后关闭连接,从新连接,然后读取hive。
小道消息,据说使用R语言去连接hive,速度会非常的快速,具体以事实为主,没有试过。
```
python连接hive之后的经验总结
  • 相关类库的版本很重要,版本之间必须要能够做到相互匹配,兼容。
  • 类库的安装顺序也很重要
  • 相同作用的类库,只能保留一个,这个类库也要和其他的类库兼容,匹配
  • 电脑环境,需要有Microsoft Visual C++ Build Tools,这个,个人感觉,貌似很多库的安装都是必要的,如果没有,自己百度下载一下就可以。
python连接hive的几种方式
评论 10
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值