分布式数据库的常见数据分片方式
Hash分片,Range分片:Hash分片尽可能保证各个分片均匀分到各个桶中,顺序读取性能较低。Range分片每一个Region负责管辖一个Key值范围,按照顺序读取方式的性能很高。
一、预分区
1 原因:
热点问题:数据持续读写一个region(或节点)上。
region自动分区会造成频繁IO。
自动分区时,rowkey按时间序排列,region-split后,数据总会写入一个region,导致其过大继续分裂,而另一个则是未写满的region。
分区后优点:写入/读取速度变快,不会频繁region-split导致频繁IO。
2 设置分区
splitkeys:
10|,10|,20|,30|,40|,50|,60|,70|,80|,90|
生成分区前缀:
private byte[][] getSplitKeys() {
String[] keys = new String[] { "00|", "10|", "20|", "30|", "40|", "50|", "60|", "70|", "80|", "90|" };
byte[][] splitKeys = new byte[keys.length][];
TreeSet<byte[]> rows = new TreeSet<byte[]>(Bytes.BYTES_COMPARATOR);// 升序排序
for (int i = 0; i < keys.length; i++) {
rows.add(Bytes.toBytes(keys[i]));
}
Iterator<byte[]> rowKeyIter = rows.iterator();
int i = 0;
while (rowKeyIter.hasNext()) {
byte[] tempRow = rowKeyIter.next();
rowKeyIter.remove();
splitKeys[i] = tempRow;
i++;
}
return splitKeys;
}
建表:
public boolean createTableBySplitKeys(String tableName, List<String> columnFamily) {
try {
if (StringUtils.isBlank(tableName) || columnFamily == null || columnFamily.size() < 0) {
log.error("tableName|columnFamily不为null");
}
Admin admin = connection.getAdmin();
TableName tableName1 = TableName.valueOf(tableName);
if (admin.tableExists(tableName1)) {
return true;
} else {
TableDescriptorBuilder builder = TableDescriptorBuilder.newBuilder(tableName1);
for (String cf : columnFamily) {
builder.setColumnFamily(ColumnFamilyDescriptorBuilder.newBuilder(Bytes.toBytes(cf)).build());
}
byte[][] splitKeys = getSplitKeys();
admin.createTable(builder.build(), splitKeys);// 指定splitkeys
log.info("表" + tableName + "创建成功,列族:" + columnFamily.toString());
}
} catch (Exception e) {
e.printStackTrace();
return false;
}
return true;
}
造数据:
private String getRandomNumber() {
String ranStr = Math.random() + "";
int pointIndex = ranStr.indexOf(".");
return ranStr.substring(pointIndex + 1, pointIndex + 3);
}
private List<Put> batchPut() {
List<Put> list = new ArrayList<Put>();
for (int i = 1; i <= 10000; i++) {
byte[] rowkey = Bytes.toBytes(getRandomNumber() + "-" + System.currentTimeMillis() + "-" + i);
Put put = new Put(rowkey);
put.addColumn(Bytes.toBytes("info"), Bytes.toBytes("name"), Bytes.toBytes("zs" + i));
list.add(put);
}
return list;
}
查看web ui以验证:http://localhost:16010/table.jsp?name=test
代码地址:https://github.com/xing54321/hbase_demo
二、注意点
1 如何加盐:取rowkey前面几位作为分区编码。可通过hash(SHA或者MD5进行hash,结果在start-end key之间随即散列即可)或partition(id对分区数取余)取得。
2 每个RegionServer上分区多少合适:每个RegionServer在20~200,每个region不超过10G。
3 rowkey加了散列前缀后,rowkey无法再参与条件查询,除非作为分区编码的前缀(散列前缀)也是一项查询条件。如:hadoop权威指南中的例子:全球气象站采集的每时刻的温度信息,rowkey组成为:气象站ID+(Long.MaxValue-毫秒级时间戳)。采用固定的散列前缀时(分区内一致),可采用多次查询,每次查询一个分区内数据的形式,最终将数据union得到所有。可以采用ES作为二级索引,复杂条件查询走ES获取rowkey,再去hbase查询,应注意ES每次1w条数限制,适时使用滚动查询。
4 逆序(反转):时间戳放入rowkey一般采用Long.MaxValue-毫秒级时间戳的方式。因为rowkey存储中采用字典序由小到大排列,这样放置越近的记录越在顶端,查询时多数场景下会查询最近的记录,速度快。
5 64位操作系统8字节对齐。设计时,rowkey就尽量短,column family和qualifer尽量短,rowkey长度为8字节的倍数。
6 散列前缀和后面的分隔符一般用“|”或“~”,因为再ASIIC码中大于所有数字和字母。
7 rowkey是整数时,采用二进制表示,而不是数字的字符串版本形式存储,前者更省空间。
三、自动拆分策略
1 IncreasingToUpperBoundRegionSplitPolicy:0.94.0默认region split策略。根据公式min(r^2*flushSize,maxFileSize)确定split的maxFileSize,其中r为在线region个数,maxFileSize由hbase.hregion.max.filesize指定。
2 ConstantSizeRegionSplitPolicy:当region大小超过常量值(hbase.hregion.max.filesize)时,才进行拆分。
3 DelimitedKeyPrefixRegionSplitPolicy:保证以分隔符前面的前缀为splitPoint,保证相同RowKey前缀的数据在一个Region中。
4 KeyPrefixRegionSplitPolicy:保证具有相同前缀的row在一个region中(要求设计中前缀具有同样长度)。指定rowkey前缀位数划分region,通过读取table的prefix_split_key_policy.prefix_length属性,该属性为数字类型,表示前缀长度,在进行split时,按此长度对splitPoint进行截取。此种策略比较适合固定前缀的rowkey。当table中没有设置该属性,或其属性不为Integer类型时,指定此策略效果等同与使用IncreasingToUpperBoundRegionSplitPolicy。
参考:
https://blog.csdn.net/u013870094/article/details/79440312.
https://www.cnblogs.com/duanxz/p/3154487.html
https://blog.csdn.net/rlnLo2pNEfx9c/article/details/84207500