hbase预分区和注意点

最新推荐文章于 2024-07-23 11:24:37 发布

沐泽__

最新推荐文章于 2024-07-23 11:24:37 发布

阅读量2k

点赞数 1

分类专栏： hbase 文章标签： hbase 分布式数据库

本文链接：https://blog.csdn.net/baidu_38225647/article/details/118713063

版权

hbase 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

分布式数据库的常见数据分片方式
Hash分片，Range分片：Hash分片尽可能保证各个分片均匀分到各个桶中，顺序读取性能较低。Range分片每一个Region负责管辖一个Key值范围，按照顺序读取方式的性能很高。

一、预分区

1 原因：
热点问题：数据持续读写一个region（或节点）上。
region自动分区会造成频繁IO。
自动分区时，rowkey按时间序排列，region-split后，数据总会写入一个region，导致其过大继续分裂，而另一个则是未写满的region。

分区后优点：写入/读取速度变快，不会频繁region-split导致频繁IO。

2 设置分区
splitkeys：

10|,10|,20|,30|,40|,50|,60|,70|,80|,90|

生成分区前缀：

private byte[][] getSplitKeys() {
		String[] keys = new String[] { "00|", "10|", "20|", "30|", "40|", "50|", "60|", "70|", "80|", "90|" };
		byte[][] splitKeys = new byte[keys.length][];
		TreeSet<byte[]> rows = new TreeSet<byte[]>(Bytes.BYTES_COMPARATOR);// 升序排序
		for (int i = 0; i < keys.length; i++) {
			rows.add(Bytes.toBytes(keys[i]));
		}
		Iterator<byte[]> rowKeyIter = rows.iterator();
		int i = 0;
		while (rowKeyIter.hasNext()) {
			byte[] tempRow = rowKeyIter.next();
			rowKeyIter.remove();
			splitKeys[i] = tempRow;
			i++;
		}
		return splitKeys;
	}

建表：

public boolean createTableBySplitKeys(String tableName, List<String> columnFamily) {
		try {
			if (StringUtils.isBlank(tableName) || columnFamily == null || columnFamily.size() < 0) {
				log.error("tableName|columnFamily不为null");
			}
			Admin admin = connection.getAdmin();
			TableName tableName1 = TableName.valueOf(tableName);
			if (admin.tableExists(tableName1)) {
				return true;
			} else {
				TableDescriptorBuilder builder = TableDescriptorBuilder.newBuilder(tableName1);
				for (String cf : columnFamily) {
					builder.setColumnFamily(ColumnFamilyDescriptorBuilder.newBuilder(Bytes.toBytes(cf)).build());
				}
				byte[][] splitKeys = getSplitKeys();
				admin.createTable(builder.build(), splitKeys);// 指定splitkeys
				log.info("表" + tableName + "创建成功，列族：" + columnFamily.toString());
			}
		} catch (Exception e) {
			e.printStackTrace();
			return false;
		}
		return true;
	}

造数据：

	private String getRandomNumber() {
		String ranStr = Math.random() + "";
		int pointIndex = ranStr.indexOf(".");
		return ranStr.substring(pointIndex + 1, pointIndex + 3);
	}

	private List<Put> batchPut() {
		List<Put> list = new ArrayList<Put>();
		for (int i = 1; i <= 10000; i++) {
			byte[] rowkey = Bytes.toBytes(getRandomNumber() + "-" + System.currentTimeMillis() + "-" + i);
			Put put = new Put(rowkey);
			put.addColumn(Bytes.toBytes("info"), Bytes.toBytes("name"), Bytes.toBytes("zs" + i));
			list.add(put);
		}
		return list;
	}

查看web ui以验证：http://localhost:16010/table.jsp?name=test
代码地址：https://github.com/xing54321/hbase_demo

二、注意点

1 如何加盐：取rowkey前面几位作为分区编码。可通过hash（SHA或者MD5进行hash，结果在start-end key之间随即散列即可）或partition（id对分区数取余）取得。
2 每个RegionServer上分区多少合适：每个RegionServer在20~200，每个region不超过10G。
3 rowkey加了散列前缀后，rowkey无法再参与条件查询，除非作为分区编码的前缀（散列前缀）也是一项查询条件。如：hadoop权威指南中的例子：全球气象站采集的每时刻的温度信息，rowkey组成为：气象站ID+（Long.MaxValue-毫秒级时间戳）。采用固定的散列前缀时（分区内一致），可采用多次查询，每次查询一个分区内数据的形式，最终将数据union得到所有。可以采用ES作为二级索引，复杂条件查询走ES获取rowkey，再去hbase查询，应注意ES每次1w条数限制，适时使用滚动查询。
4 逆序（反转）：时间戳放入rowkey一般采用Long.MaxValue-毫秒级时间戳的方式。因为rowkey存储中采用字典序由小到大排列，这样放置越近的记录越在顶端，查询时多数场景下会查询最近的记录，速度快。
5 64位操作系统8字节对齐。设计时，rowkey就尽量短，column family和qualifer尽量短，rowkey长度为8字节的倍数。
6 散列前缀和后面的分隔符一般用“|”或“~”，因为再ASIIC码中大于所有数字和字母。
7 rowkey是整数时，采用二进制表示，而不是数字的字符串版本形式存储，前者更省空间。

三、自动拆分策略

1 IncreasingToUpperBoundRegionSplitPolicy：0.94.0默认region split策略。根据公式min(r^2*flushSize，maxFileSize)确定split的maxFileSize，其中r为在线region个数，maxFileSize由hbase.hregion.max.filesize指定。
2 ConstantSizeRegionSplitPolicy：当region大小超过常量值（hbase.hregion.max.filesize）时，才进行拆分。
3 DelimitedKeyPrefixRegionSplitPolicy：保证以分隔符前面的前缀为splitPoint，保证相同RowKey前缀的数据在一个Region中。
4 KeyPrefixRegionSplitPolicy：保证具有相同前缀的row在一个region中（要求设计中前缀具有同样长度）。指定rowkey前缀位数划分region，通过读取table的prefix_split_key_policy.prefix_length属性，该属性为数字类型，表示前缀长度，在进行split时，按此长度对splitPoint进行截取。此种策略比较适合固定前缀的rowkey。当table中没有设置该属性，或其属性不为Integer类型时，指定此策略效果等同与使用IncreasingToUpperBoundRegionSplitPolicy。

参考：
https://blog.csdn.net/u013870094/article/details/79440312.
https://www.cnblogs.com/duanxz/p/3154487.html
https://blog.csdn.net/rlnLo2pNEfx9c/article/details/84207500

沐泽__

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
1
评论
hbase预分区和注意点

一、预分区1 原因：热点问题：数据持续读写一个region（或节点）上。region自动分区会造成频繁IO。2 设置分区（前缀）范围-10,10-20,20-30,30-40,40-50,50-60,60-70,70-80,80-90,90-生成分区前缀：建表：造数据：查看web ui以验证二、注意点1 如何加盐2 每个RegionServer上分区多少合适...
复制链接

扫一扫

专栏目录