开篇
```
工作中需要,在本地使用python通过远程连接hive,去读取hive的一些表中大量的数据。
进行一些数据预处理,然后测试模型的精准度。
```
```
python连接hive,在刚刚接触的时候,没有经验,盲目的去翻看各种的文档去参考,一个一个的试验,一直不行。感觉很麻烦,很艰难,在初期去安装一些相关类库的时候,就会出现大量的问题。
所幸,后期在安装成功之后,有了一番总结,明白了安装的流程。
```
```
我在工作中,需要频繁的去读取hive中的数据,按月去读取。
基本上,需要每个月读取完毕之后关闭连接,从新连接,然后读取hive。
小道消息,据说使用R语言去连接hive,速度会非常的快速,具体以事实为主,没有试过。
```
python连接hive之后的经验总结
- 相关类库的版本很重要,版本之间必须要能够做到相互匹配,兼容。
- 类库的安装顺序也很重要
- 相同作用的类库,只能保留一个,这个类库也要和其他的类库兼容,匹配
- 电脑环境,需要有Microsoft Visual C++ Build Tools,这个,个人感觉,貌似很多库的安装都是必要的,如果没有,自己百度下载一下就可以。
python连接hive的几种方式