最近要使用spark操作HBase, scala还是不熟悉,想了下还是学习下用python怎么操作HBase。
网上资料蛮多的,现在实现了python访问hbase,下一步要把它应用到spark上。
1. 下载thrift包
thrift 我的理解是它提供一个服务,通过它其他的编程语言也能够访问到hbase数据库。
我的虚拟机无法上网,安装还是挺头疼的事。先是在mac 下先brew install thrift, 安装成功后测试:thrift -version
2. 生成对应的python文件。
使用的是hbase 1.0.0, 去官网下载了hbase 1.0.0的源代码。找到hbase-1.0.0/hbase-thrift/src/main/resources/org/apache/hadoop/hbase/thrift 下的文件 Hbase.thrift
用它来生成对应的python文件。其中有两个文件夹一个thrift, 一个 thrift2。 2 是之前的版本的优化,这个以后再研究。
使用命令
thrift --gen py HBase.thrift 会在当前目录下生成文件: