最近一些工作的总结（关于HBase Coprocessor，多版本多条件检索多Rowkey检索）

最新推荐文章于 2022-10-31 10:02:35 发布

xcc_233

最新推荐文章于 2022-10-31 10:02:35 发布

阅读量316

点赞数 1

分类专栏： java hbase 文章标签： HBase Coprocessor

本文链接：https://blog.csdn.net/touziss/article/details/106028992

版权

java 同时被 2 个专栏收录

19 篇文章 0 订阅

订阅专栏

hbase

4 篇文章 0 订阅

订阅专栏

首先是HBase协处理器的一些理解上的问题。
之前写的博文HBase Coprocessor是按照别人的代码做的一个测试小实验，虽然成功了，但是没有完全理解，所以当自己真的要用协处理器的时候重新理解了一下。
其实，协处理器实现二级索引的本质是自动维护两张表格。比如我需要的主表如下
HBase主表
需要对列族 Coid的 LatLonCode变量做一个二级索引，其实就是维护另一张表，我把它称为协处理表，这个表的Rowkey就是这个LatLonCode的值，而表中列族就是主表的Rowkey。所以设计协处理表如下

所以检索的时候，如果要通过LatLonCode的值得到对应的属性数据，先检索协处理表，得到这个值对应的主表Rowkey值，也就是ID，再根据这个Rowkey到主表中去检索对应的数据。
所以，上述过程的协处理器JAVA代码应该是这样的。

public class IDCoprocessor extends BaseRegionObserver {
	//Coprocessor table name
	private static final byte[] TABLE_NAME=Bytes.toBytesBinary("DataCoid");
	
	// Main table family
	private static final byte[] COLUMN_FAMILY1=Bytes.toBytes("Coid");
	
	// Main table column that is to be coprocessed
	private static final byte[] COLUMN1=Bytes.toBytes("LatLonCode");
	
	// Coprocessor table family and column
	// value of LatLineCode is equal to Rowkey in the main table
	private static final byte[] COLUMN_FAMILY2=Bytes.toBytes("ID");
	private static final byte[] COLUMN2=Bytes.toBytes("LatLineCode");
	
	private Configuration configuration=HBaseConfiguration.create();
	
	public void prePut(ObserverContext<RegionCoprocessorEnvironment>e, Put put, WALEdit edit,Durability durability) {
		
		// get the values from the main table
		List<Cell> kv=put.get(COLUMN_FAMILY1, COLUMN1);
		Iterator<Cell> kvIterator=kv.iterator();
		try {
			HTable Coid=new HTable(configuration,TABLE_NAME);
			while(kvIterator.hasNext()) {
				Cell tmp=kvIterator.next();
				final byte[] value=CellUtil.cloneValue(tmp);
				
				// value as the rowkey to put to the coprocessor table
				Put indexPut=new Put(value);
				indexPut.addColumn(COLUMN_FAMILY2, COLUMN2, CellUtil.cloneRow(tmp));
				Coid.put(indexPut);
			}
			Coid.close();
		} catch (IOException e1) {
			// TODO Auto-generated catch block
			e1.printStackTrace();
		}
		
	}

}

接下来是多版本检索的问题。
HBase的Rowkey是唯一的，不然在put的时候，不同版本的数据其实是会覆盖的。但是把LatLonCode这个Column的值作为协处理表的Rowkey，这个值极有可能不是唯一的。也就是说在主表中，不同Rowkey下对应的LatLonCode值相同。这个时候，在协处理表中就要处理多版本数据的存储和检索问题。
一开始以为只需要在检索的时候加上setMaxVersion()就可以了，其实在HBase创建表的时候就需要设置表格存储多版本数据。
在HBase shell里设置协处理表的属性

hbase > alter 'Datacoid',{NAME=>'ID',VERSIONS=>100}

把协处理表Datacoid的ID列族修改为可以存储100个版本的数据。然后在检索的时候直接setMaxVersion()了

关于多条件的检索。
JAVA操作HBaseIO时获取数据有两种方式，get是根据rowkey获得某一行的数据，而scan可以设置查询条件，从而获得符合条件的所有数据，比如rowkey大于某个值小于某个值，或者针对rowkey的正则表达式检索等。
用scan进行查询通过设置过滤器filter来设置查询条件，如果有多个查询条件，通过FilterList实现。
具体参考FilterList

另外，get是一次get一条数据，如果rowkey有很多，比如我需要get 20多万条数据，这个时候一条创建一个get是非常耗时的，可以用 List<Get>方法，对每一个Rowkey创建一个Get，然后把Get放到一个List里，直接获取。

public void Run(float latstart,float latend,float lonstart,float lonend) {
		EncodeNOIGRF Eno=new EncodeNOIGRF(latstart,latend,lonstart,lonend);
		Object[] codes=Eno.getCodes();
		ArrayList<String> codes2check=(ArrayList<String>) codes[1];
		Iterator<String> iterator=codes2check.iterator();
		List<Get> get2check=new ArrayList<Get>();
		while(iterator.hasNext()) {
			// every rowkey a new Get, and add it to List<Get> get2check
			Get get=new Get(Bytes.toBytes(iterator.next()));
			get2check.add(get);
		}
		Result[] results2check;
		try {
			results2check = this.table.get(get2check);
		} catch (IOException e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		}
	}

xcc_233

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
最近一些工作的总结（关于HBase Coprocessor，多版本多条件检索多Rowkey检索）

首先是HBase协处理器的一些理解上的问题。之前写的博文HBase Coprocessor是按照别人的代码做的一个测试小实验，虽然成功了，但是没有完全理解，所以当自己真的要用协处理器的时候重新理解了一下。其实，协处理器实现二级索引的本质是自动维护两张表格。比如我需要的主表如下需要对列族 Coid的 LatLonCode变量做一个二级索引，其实就是维护另一张表，我把它称为协处理表，这个表的Rowkey就是这个LatLonCode的值，而表中列族就是主表的Rowkey。所以设计协处理表如下所以检索的
复制链接

扫一扫

专栏目录