大数据从入门到实战 - HBase开发:表的扫描与扫描的缓存和批量处理
叮嘟!这里是小啊呜的学习课程资料整理。好记性不如烂笔头,今天也是努力进步的一天。一起加油进阶吧!
一、关于此次实践
1、实战简介
当我们不知道一张HBase表中有多少个数据,但是想获取这张表中所有的数据的时候就可以使用表的扫描工具来完成了;
不过在扫描表的过程中,由于会发送RPC请求,所以其中又会涉及到性能问题,如果我们采用低效的方式,势必会造成很大的资源浪费;
本次实训我们来学习如何进行表的扫描和扫描的缓存和批量处理。
实验环境:
JDK8.0
Hadoop2.7
HBase2.1.1
2、全部任务
二、实践详解
1、第1关:批量处理
package step1;
import java.util.ArrayList;
import java.util.List;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.hbase.Cell;
import org.apache.hadoop.hbase.CellUtil;
import org.apache.hadoop.hbase.HBaseConfiguration;
import org.apache.hadoop.hbase.TableName;
import org.apache.hadoop.hbase.client.*;
import org.apache.hadoop.hbase.client.coprocessor.Batch;
import org.apache.hadoop.hbase.util.Bytes;
public class Task {
public Object[] batchOp(String tablename) throws Exception {
/********* Begin *********/
Configuration conf = HBaseConfiguration.create();
Connection conn = ConnectionFactory.createConnection(conf);
Table table = conn.getTable(TableName.valueOf(tablename));
List<Row> rows = new ArrayList<>();
//删除操作
Delete delete = new Delete(Bytes.toBytes("row1"));
Delete delete2 = new Delete(Bytes.toBytes("row2"));
rows.add(delete);
rows.add(delete2);
//获取操作
Get get = new Get(Bytes.toBytes("row3"));
Get get2 = new Get(Bytes.toBytes("row10"));
rows.add(get);
rows.add(get2);
//定义结果数组长度
Object[] results = new Object[rows.size()];
table.batch(rows, results);//这是一个同步的操作,批量操作的结果将会在操作之后放在results中
//delete和put操作的结果为NONE 即没有结果
return results;
/********* End *********/
}
}
测评
2、第2关:扫描表中所有的数据
package step2;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.hbase.Cell;
import org.apache.hadoop.hbase.CellUtil;
import org.apache.hadoop.hbase.HBaseConfiguration;
import org.apache.hadoop.hbase.TableName;
import org.apache.hadoop.hbase.client.*;
public class Task {
public void scanTable(String tablename) throws Exception {
/********* Begin *********/
Configuration conf = HBaseConfiguration.create();
Connection conn = ConnectionFactory.createConnection(conf);
Table table = conn.getTable(TableName.valueOf(tablename));
Scan scan = new Scan();
ResultScanner scanner = table.getScanner(scan);
for(Result result : scanner){
for (Cell cell : result.listCells()) {
System.out.println(new String(CellUtil.cloneValue(cell),"utf-8"));
}
}
/********* End *********/
}
}
评测
3、第3关:在扫描中使用缓存和批量参数
package step3;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.hbase.Cell;
import org.apache.hadoop.hbase.CellUtil;
import org.apache.hadoop.hbase.HBaseConfiguration;
import org.apache.hadoop.hbase.TableName;
import org.apache.hadoop.hbase.client.*;
import org.apache.hadoop.hbase.util.Bytes;
public class Task {
public void scanTable(String tablename) throws Exception {
/********* Begin *********/
Configuration conf = HBaseConfiguration.create();
Connection conn = ConnectionFactory.createConnection(conf);
Table table = conn.getTable(TableName.valueOf(tablename));
Scan scan = new Scan();
scan.setCaching(200);
scan.setStartRow(Bytes.toBytes("1"));//设置从row3开始扫描
scan.setStopRow(Bytes.toBytes("row199"));
ResultScanner scanner = table.getScanner(scan);
for (Result result : scanner) {
for(Cell cell :result.listCells()) {
System.out.println(new String(CellUtil.cloneValue(cell),"utf-8"));
}
}
/********* End *********/
}
}
评测
Ending!
更多课程知识学习记录随后再来吧!
就酱,嘎啦!
注:
人生在勤,不索何获。