Thrift介绍与应用(三)—hbase的thrift接口

原创 2013年09月29日 14:43:51

一、概述

Hbase是目前比较火的列存储数据库,由于Hbase是用Java写的,因此它原生地提供了Java接口,对非Java程序人员,怎么办呢?幸好它提供了thrift接口服务器,因此也可以采用其他语言来编写Hbase的客户端,本文即是Hbase C++接口的介绍。
目前的Hbase(0.94.11,本文即基于此版本)有两套thrift接口(可以叫thrift1和thrift2),它们并不兼容(随意性太强,这可能是所有开源软件都具有的问题)。根据官方文档,thrift1很可能被抛弃,但网上的文章基本是介绍thrift1的,本文则主要介绍thrift2。
要使用Hbase的thrift接口,必须将它的服务启动,命令行为:
hbase-deamon.sh start thrift2
thrift默认的监听端口是9090,可以用netstat -nl | grep 9090看看该端口是否有服务。

二、thrift1与thrift2的简单比较

两个版本的thrift文件位于如下位置,
src/main/resources/org/apache/hadoop/hbase/thrift/Hbase.thrift
src/main/resources/org/apache/hadoop/hbase/thrift2/hbase.thrift

thrift1的文件有24K左右,而thrift2只有12K左右,看来新版做了大量的简化。
命名空间上,新版都将thrift改为thrift2,以示区别。下表是thrift和thrift2的区别,可以看出,二者真的差别挺大,特别是服务中的方法,thrift2做了简化与合成,并把DDL有关的内容去掉了,关于这些结构、服务的具体意义,请参阅thrift文件中的注释,下文将详细列出。

 

Thrift

Thrift2

结构

struct TCell

struct ColumnDescriptor

struct TRegionInfo

struct Mutation

struct BatchMutation

struct TIncrement

struct TColumn

struct TRowResult

struct TScan

struct TTimeRange

struct TColumn

struct TColumnValue

struct TColumnIncrement

struct TResult

struct TGet

struct TPut

struct TDelete

struct TIncrement

struct TScan

struct TRowMutations

异常

exception IOError

exception IllegalArgument

exception AlreadyExists

exception TIOError

exception TIllegalArgument

其他

 

union TMutation

enum TDeleteType

enum TDurability

服务

名称为:Hbase

void enableTable()

void disableTable()

bool isTableEnabled()

void compact()

void majorCompact()

list<Text> getTableNames()

map<Text,ColumnDescriptor> getColumnDescriptors()

list<TRegionInfo> getTableRegions()

void createTable()

void deleteTable()

list<TCell> get()

list<TCell> getVer()

list<TCell> getVerTs()

list<TRowResult> getRow()

list<TRowResult> getRowWithColumns()

list<TRowResult> getRowTs()

list<TRowResult> getRowWithColumnsTs()

list<TRowResult> getRows()

list<TRowResult> getRowsWithColumns()

list<TRowResult> getRowsTs()

list<TRowResult> getRowsWithColumnsTs()

void mutateRow()

void mutateRowTs()

void mutateRows()

void mutateRowsTs()

i64 atomicIncrement()

void deleteAll()

void deleteAllTs()

void deleteAllRow()

void increment()

void incrementRows()

void deleteAllRowTs()

ScannerID scannerOpenWithScan()

ScannerID scannerOpen()

ScannerID scannerOpenWithStop()

ScannerID scannerOpenWithPrefix()

ScannerID scannerOpenTs()

ScannerID scannerOpenWithStopTs()

list<TRowResult> scannerGet()

list<TRowResult> scannerGetList()

void scannerClose()

list<TCell> getRowOrBefore()

TRegionInfo getRegionInfo()

名称为:THBaseService

bool exists(...)

TResult get(...)

list<TResult> getMultiple(...)

void put(...)

bool checkAndPut(...)

void putMultiple(...)

void deleteSingle(...)

list<TDelete> deleteMultiple(...)

bool checkAndDelete(...)

TResult increment(...)

i32 openScanner(...)

list<TResult> getScannerRows(...)

void closeScanner(...)

void mutateRow(...)

list<TResult> getScannerResults(...)


三、thrift2接口客户端生成文件

包含6个文件hbase_constants.cpp/.h、 hbase_types.cpp/.h、THBaseService.cpp/.h,结构的定义都在hbase_types中,服务方法的实现在THBaseService中(关于这几个文件的详细说明,见作者其他博文)。由于我们通常关心数据的查、增、删(对Hbase来说,改是增加一个新“版本”),因此下面的讨论只围绕这些操作展开。

四、thrift2接口主要结构


以下是主要涉及的结构及其意义。

  • TColumn 对列的封装
  • TColumnValue  对列及其值的封装
  • TResult  对单行(Row)及其查询结果(若干colunmvalue)的封装
  • TGet  对查询一行(row)的封装,可以设置行内的查询条件
  • TPut  与TGet一样,只是它是写入若干“列”
  • TDelete  与TGet一样,只是它是删除若干“列”
  • TScan 对查询多行和多列的封装,有点类似于“cursor”
  • TRowMutations 实际上是若干个TDelete和TPut的集合,完成对一行内数据的“原子”操作

五、thrift2接口service函数

1.    查数据

Service中有关查数据的函数如下:

  • get:对某一行内的查询,输入是表名、TGet结构,输出是TResult
  • getMultiple:实际上是对get的扩展,输入是表名、TGet数组,输出是TResult数组
  • openScanner、getScannerRows、closeScanner:这三个连在一起使用,类似于”cursor”,由openScanner打开一个scanner,getScannerRows从这个打开的scanner顺序得到若干行(也就是一个TResult数组,行数可指定),得不到数据行后可认为已读完,最后用closeScanner关闭这个scanner。查询的条件由TScan封装,在打开时传入。需要注意的是每次取数据的行数要合适,否则有效率问题。

2.    增数据

Service中有关添加数据的函数如下:

  • put:对某一行内增加若干列,输入是表名,TPut结构
  • putMultiple:对put的扩展,一次增加若干行内的若个列,输入是表名、TPut数组
  • checkAndPut:这个函数比较有意思,它提供了一种“原子”操作的概念,当传入的(表名+列族名+列名+数据)都存在于数据库时,才做操作,返回true,否则不做任何操作而返回false。可以看出,Hbase内部实现这个操作时肯定是加锁的。它使用的场合如下:某时刻一个用户取得了某个值,以后只有在确保没有其他人操作该值的情况下才能进行更新。

3.    删数据

Service中有关删除数据的函数如下:deleteSingle,deleteMultiple,checkAndDelete,这三个与上面的put函数类似,不再论述。

4.    其他

Service中其他的函数如下:

  • exists:检查表内是否存在某行或某行内某些列,输入是表名、TGet,输出是bool
  • mutateRow:将某行内若干put和delete操作集合起来,形成一个“原子”操作。输入是表名、TRowMutations结构。
  • increment:增加一行内某些列的值,这个操作比较特别,是专门用于计数的,也保证了“原子”操作特性。


需要注意的是,以上大部分函数都是void,如果操作发生错误,thrift的做法是抛出异常,因此进行操作时应有异常捕获处理。


thrift2接口比较简单明了,当然,实际使用时,会进行或多或少的再次封装,以适应自己的应用需要,对该接口的再次封装,这里不在讨论。



HBase thrift/thrift2 使用指南

HBase thrift/thrift2 使用指南 摘要: Thrift server简介 Thrift server是HBase中的一种服务,主要用于对多语言API的支持。基于Apache T...
  • javastart
  • javastart
  • 2017年05月24日 19:31
  • 3261

thrift2访问hbase

使用thrift2访问hbase需求与环境项目中需要使用c++访问hbase批量导入数据,所以这两天配置了一个hadoop集群,安装了hadoop,zookeeper,hbase。 使用三台虚拟机,...
  • zhenyangzhijia
  • zhenyangzhijia
  • 2015年06月02日 20:34
  • 4590

python3 使用 thrift 操作hbase 安装hbase-thirft后有一个Hbase报错

  • 2017年11月16日 15:00
  • 235KB
  • 下载

HBase thrift2 TIOError

如果HBase thrift2报:“TIOError exception: Default TException”, 这个可能是因为操作的表不存在,不一定是网络或磁盘操作异常。 HBase...
  • Aquester
  • Aquester
  • 2017年05月27日 17:37
  • 615

golang使用thrift2协议connect hbase

最新的hbase稳定版环境下,golang通过thrift2协议连接hbase并做相应操作的事例代码和相关的环境搭建步骤!...
  • lesorb
  • lesorb
  • 2017年03月21日 16:43
  • 1509

【hbase】thrift2 集群 && 指定端口

说明: 1. 通过--config可以指定多个集群(copy 不同集群的配置文件至该服务器不同目录) 2. 通过-p可以指定不同的端口(不适用该参数,端口默认为9095) 3. 和thrift端口相关...
  • kelonsen
  • kelonsen
  • 2017年11月08日 12:04
  • 255

python连接HBase

环境 hadoop 2.7.0 hbase 1.2.1 Thrift 0.9.0 启动hbase的Thrift RPC 生成python的Thrift模块 c...
  • u010066807
  • u010066807
  • 2016年05月18日 00:30
  • 5841

python通过thrift操作hbase

mac 版 首先 brew install thrift 然后安装python的thrift库 pip install thrift 再次进入 hbase安装目录 cd /usr/loca...
  • xiaocong1990
  • xiaocong1990
  • 2016年12月21日 16:56
  • 294

Thrift安装配置及使用python通过thrift连接HBase测试

准备工作及测试环境:1)Hadoop集群【已完成】 版本:hadoop-0.20.2 安装路径:/usr/local/hadoop-0.20.2 NameNode:192.168.85.128 ...
  • perfectmanman
  • perfectmanman
  • 2015年11月19日 17:48
  • 1909

pyspark Python 连接 HBase thrift

0.引言HBase-thrift项目是对HBase Thrift接口的封装,屏蔽底层的细节,使用户可以方便地通过HBase Thrift接口访问HBase集群,python通过thrift访问HBas...
  • power0405hf
  • power0405hf
  • 2015年11月16日 14:40
  • 2188
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:Thrift介绍与应用(三)—hbase的thrift接口
举报原因:
原因补充:

(最多只允许输入30个字)