HBase: Coprocessor Endpoint ：startkey和endkey的真正作用

最新推荐文章于 2021-09-23 15:59:00 发布

lw305080

最新推荐文章于 2021-09-23 15:59:00 发布

阅读量2.2k

点赞数 1

分类专栏： hbase 文章标签： HBase Coprocessor Endpoint startkey和endkey的真正作用

hbase 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

转载地址：http://blog.csdn.net/tntzbzc/article/details/8915101

官方把Coprocessor的Endpoint比喻成关系型数据库的StoreProcedure(存储过程)，这个比喻很恰当。但我个人觉得Endpoint有时更像是一个只有单个Reduce的MapReduce，Reduce是Client，Maps就是Regions上的Endpoints。

接触过Coprocessor方法的童鞋都应该知道Endpoint的Client调用方法有两个，如下：

[java]view plain copy 
   
 org.apache.hadoop.hbase.client.HTable.coprocessorProxy(  
     Class<? extends Map<byte[], String>> protocol,  
     byte[] row  
 )  
   
 org.apache.hadoop.hbase.client.HTable.coprocessorExec(  
     Class<ScanCoprocessorProtocol> protocol,  
     byte[] startKey,  
     byte[] endKey,  
     Call<ScanCoprocessorProtocol,  
     String> callable  
 ) throws IOException, Throwable  

coprocessorProxy是串行调用方法，coprocessorExec是并行调用方法。
如果需要跨多个Region调用，coprocessorExec性能要高于coprocessorProxy。
那么如何才能让Client锁定Region呢？
coprocessorProxy由参数row控制，coprocessorExec由startkey和endkey控制。这里要强调一下，很多新手都会搞错一个概念，他们会认为startkey和endkey是就是Scan方法中的startRow和stopRow~~~，其实不然

[java]view plain copy 
   
 org.apache.hadoop.hbase.client.Scan.Scan(byte[]startRow, byte[]stopRow)  

Scan中的startRow和stopRow是控制Row上下标，也就是说Scan操作的对象是数据。而coprocessorExec的startkey和endkey的操作对象是Region，这个概念千万不能搞错~~
举个例子有一张表TB: startRow=1000000,endRow=2000000，一共100W条数据。现在把这100W数据平均分到10个Region上
Region1： 1000000--1100000
Region2： 1100001--1200000
Region3： 1200001--1300000
..............
Region10：1900001--2000000
现在我们根据Row的范围做一次Count统计

如果调用Scan做一次Client统计

[java]view plain copy 
   
 String RowKey = "1050001";  
 String EndKey = "1100000";  
 HTable myTB = new HTable(conf, "TB");  
 Scan myScan = new Scan(RowKey.getBytes(),EndKey.getBytes());  
 ResultScanner rs = myTB.getScanner(myScan);  
 int Count = 0;  
 while(rs.hasnext())  
     Count++;  

最后的结果Count = 5W。

但是如果把coprocessorExec的startkey和endkey当成Scan中的startRow和stopRow来调用Endpoint，悲剧发生了~~

[java]view plain copy 
   
 String RowKey = "1050001";  
 String EndKey  = "1100000";  
 //伪代码，真正的调用方式不是这样的  
 int Count = coprocessorExec(  
     Myprotocol.class,  
     RowKey.getBytes()，  
     EndKey.getBytes(),  
     new Batch.Call<Myprotocol, int>() {  
 public String call(Myprotocol counter)  
     throws IOException {  
         return MyScan();  
     }  
 });  
   
   
 //Endpoint方法  
 int MyScan(){  
     Scan myScan = new Scan();  
     RegionCoprocessorEnvironment environment = (RegionCoprocessorEnvironment) getEnvironment();  
     InternalScanner scanner = environment.getRegion().getScanner(myScan);  
     int Count = 0;  
     while(scanner.hasnext())  
         Count ++;  
     return Count;  
 }  

最后结果：Count =10W，尽然扫描了整个Region1

~~~这是因为coprocessorExec的startkey和endkey定位对象是Region，只要startkey和endkey的区间内的任何一个ROW覆盖到了某个Region，那么该Region的所有数据都会被扫描一次，最后只会得到一个错误的结果。

官方的例子中，scan实例是在Endpoint函数中定义的，这很可能会误导很多新手。为了避免这种情况发生，我们只要在MyScan方法中加入一个Scan参数，Client定义好Scan的startRow和stopRow，并向MyScan传入该参数。

[java]view plain copy 
   
 String RowKey = "1050001";  
 String EndKey  = "1100000";  
 Scan myScan = new Scan(RowKey.getBytes(),EndKey.getBytes());  
 //伪代码，真正的调用方式不是这样的  
 int Count = coprocessorExec(  
         Myprotocol.class,  
         RowKey.getBytes()，  
         EndKey.getBytes(),  
         new Batch.Call<Myprotocol, int>() {  
             public String call(Myprotocol counter)  
                 throws IOException {  
                 return MyScan(myScan);  
             }  
 });  
   
   
 //Endpoint方法  
 int MyScan(myScan){  
     RegionCoprocessorEnvironment environment = (RegionCoprocessorEnvironment) getEnvironment();  
     InternalScanner scanner = environment.getRegion().getScanner(myScan);  
     int Count = 0;  
         while(scanner.hasnext())  
         Count ++;  
     return Count;  
 }  

这样就可以得到正确的统计值。
当然除了Scan，其他例如Get、Put、HTable甚至自定义类型都是可以作为参数传入的，这由业务决定。
我个人认为Endpoint作用不光是用来统计数据，还可以代替Scan方法用来查询明细数据，只不过开发人员需要自己去封装 List<Result>，有时我们甚至可以用Endpoint，去建立异步的二级索引和整理后台数据等工作。
今后会提供一些Coprocessor的实例源码，下期放上一个复杂的Endpoint实例讲解。
注：以上代码都是Java伪代码，不能直接Copy使用。
本文是CSDN-撸大湿原创，如要转载请注明出处，谢谢。