hbase 读写空间数据(六)-总结

23 篇文章 0 订阅
12 篇文章 1 订阅

陆续根据Geomesa和自身GIS空间数据库经验梳理了5篇试验代码,  但是还没有好好思考总结下整个技术脉络,现总结如下:

Hbase特点:

1. 一个高可靠性、高性能、面向列、可伸缩的分布式存储系统 ( 可认为不是数据库 , 他的数据写到 hdfs )
2. 一个 KeyValue 存储系统 , key Value 都支持 byte 存储得列式分布式数据源 ;
3. 不支持事物 , 除非外部使用其他分布式事物组件封装 ;
4. Value 不支持索引 ;
5. 所有数据按照 key 递增存储 , 这里将 hbase 理解为一个大得多层分布式 跳表
6. 所有数据默认带时间版本信息 , 默认过期版本 3, 它并不直接删除数据
7. 支持 SQL 查询 , 有三方组件可转换 where 字句到 hbaseFilter 复合对象
8. 基本概览 Namespace( 类似 database) table( ) Rowkey ( 行键值 ) Family( 列簇 ) Qualifier( )  Value( );
开源,大厂,论文实现:

开源: GeoMesa

1. 一个开源的进行时空数据处理的 工具包 ( 基于 Scala),
2. locationtech 出品 , JTS, GeoTrellis  同源 , 社区较活跃 ;
3. 可同时支持 HBase Spark,kudu,Arrow,bigtable,kafa,redis
4. Hbase+GeoMesa 相当于 Postgresql+POSTGIS

        大厂: 基本上基于GeoMesa扩展自身业务;

1. 阿里 ( Hbase Ganos ) PaaS 提供 , 但是不支持 SQL ;( GeoMesa 扩展 )
2. 华为 ( CloudTable ) PaaS 提供 ( GeoMesa 扩展 )
3. JUST , ( 可能是 GeoMesa 扩展 )

论文:

大规模时空数据分布式存储 方法研究 ( 中国科学院计算技术研究所 北京 1 0 01 9 0)2014

基于Hbase的海量GIS数据分布式处理实践 (中国科学院计算技术研究所 2016

客户端查询根据范围计算出Key, 然后用Key的范围去查询或者每条Key遍历取数据

核心总结抽象为一句话: 空间数据编码及根据范围查询出对应范围的编码序列key.

不管是Geomesa系列还是论文系列都是这个逻辑,只不过一个在客户端做,一个在服务端做

抽象为代码总结为以下接口:

byte[] encode(double xmin, double ymin, double xmax, double ymax);
double [] decode(byte[] bts);
ArrayList<byte[]> QueryRange(double xmin, double ymin, double xmax, double ymax);

最后做编码总结,  文字描述总是苍白无力, 来张图z2 和xz的编码顺序图 (注意不是编码图编码图网上一堆,这是编码后得顺序图)

另外有一个重要问题:

Z索引适合点被查询box包含,

XZ索引(面,线)很可能查询也只能满足包含查询, 而不是真正意义上的空间数据库级别的相交查询, 因为无法解决跨边界得问题, 如下图:

所以在前面尝试在空间数据表中加入了xmin, ymin,xamx,ymax 来过滤查询用4个SingleColumnValueFilter来解决, 虽然解决了问题, 但是没有大规模测试.,不敢说效率如何. base研究暂时到这里, 建议有能力的直接用geomesa

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
HBase中,Row Key的设计非常重要,它直接影响到HBase性能和存储效率。通常来说,Row Key的设计需要考虑以下几个方面: 1. 业务需求:需要根据业务需求来确定Row Key的设计方案。例如,如果需要对数据进行按时间范围的查询,可以将时间戳作为Row Key的一部分。 2. 查询性能:需要根据查询需求来确定Row Key的设计方案。例如,如果查询时需要按照某一字段进行排序,可以将该字段作为Row Key的一部分。 3. 数据分布:需要保证Row Key的数据分布均匀,避免数据倾斜。可以使用散列函数或者随机数来实现均匀分布。 4. 存储空间:需要考虑Row Key的存储空间,尽量保证Row Key的长度不超过64KB,避免存储空间浪费。 一般来说,设计Row Key时需要遵循以下几个原则: 1. 尽量短小:Row Key的长度越短,存储空间性能就越好。 2. 唯一性:Row Key必须是唯一的,可以通过添加随机数或者时间戳等方式来增加唯一性。 3. 按照查询需求设计:根据具体的查询需求来设计Row Key,可以提高查询性能。 4. 数据分布均匀:使用散列函数或者随机数来保证Row Key的数据分布均匀,避免数据倾斜。 5. 考虑数据增长:需要考虑数据增长的情况,尽量保证Row Key的设计方案能够满足未来的数据增长需求。 需要注意的是,Row Key的设计需要根据具体的业务需求和数据特点来进行选择,没有一种设计方案适用于所有场景。因此,在设计Row Key时,需要综合考虑多个方面的因素,以达到最优的效果。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值