GeoMesa-HBase索引篇——概述

10 篇文章 6 订阅
8 篇文章 1 订阅

目录

 

1. GeoMesa索引简介

2. 索引类型

3. 传统空间索引方式

4. GeoMesa时空索引机制原理

4.1 建立时空索引

4.2 Query Planning

5. HBase DataStore的rowKey设计

5.1 针对Point的时间+空间索引(Z3)

5.2 针对Point的空间索引(Z2)

5.3 针对复杂空间对象(如:LineString、Polygon等)的时间+空间索引(XZ3)

5.4 针对复杂空间对象(如:LineString、Polygon等)的空间索引(XZ2)

5.5 Attribute索引

5.6 ID索引


1. GeoMesa索引简介

GeoMesa 索引的基本原理是将三维(经度、纬度、时间)的数据按照Z曲线进行降维,得到一维数据作为Key使用,方便在key-value数据库中进行查询。 实际的Key结构比简单的键值对更复杂。在Accumulo中GeoMesa索引的结构如图:

2. 索引类型

索引名称

索引解释

Z2 [ z2]

Z2索引使用二维Z阶曲线来索引点数据的纬度和经度。如果要素类型具有几何类型,则将创建此索引 Point。这用于有效地响应具有空间组件但没有时间组件的查询。

Z3 [ z3]

Z3索引使用三维Z阶曲线来索引点数据的纬度,经度和时间。如果要素类型具有几何类型Point且具有时间属性,则将创建此索引。这用于有效地回答具有空间和时间组件的查询。

XZ2 [ xz2]

XZ2索引使用XZ-ordering [1]的二维实现来索引非点数据的纬度和经度。XZ排序是Z-排序的扩展,设计用于空间扩展对象(即非点几何,如线串或多边形)。如果要素类型具有非Point几何图形,则将创建此索引。这用于有效地回答具有空间组件但没有时间组件的查询。

XZ3 [ xz3]

XZ3索引使用XZ-ordering [1]的三维实现来索引非点数据的纬度,经度和时间。如果要素类型具有非Point几何并且具有时间属性,则将创建此索引。这用于有效地回答具有空间和时间组件的查询。 

Record / ID [ id]

记录索引使用功能ID作为主键。它用于ID的任何查询。此外,某些属性查询可能最终从记录索引中检索数据。

Attribute [ attr]

属性索引使用属性值作为主索引键。这允许在没有时空组件的情况下快速检索查询。属性索引包括辅助时空密钥,其可以改进具有多个谓词的查询。

3. 传统空间索引方式

GeoMesa的数据存储使用 key-value数据库。key-value数据库是一种NoSQL数据库,其数据按照键值对的形式进行组织、索引和存储。 Accumulo,HBase和Google Cloud Bigtable对这些键进行排序,并可将它们存储在任意数量的节点(服务器)上。

当使用key-value数据库时,Key的良好设计可以使应用程序更高效的运行。与关系数据库不同的是,key-value数据库中会频繁的使用key进行查询。例如在订单数据库中,会以订单号作为key进行存储,当用户查询订单的时候,即可用通过订单号直接查询到订单数据并返回该条数据。Accumulo,HBase和Cloud Bigtable都是使用类似的机制进行工作,GeoMesa同样也是使用该机制来进行数据组织。GeoMesa根据时空数据的特点,实现了生成包含时空信息的Key的算法,算法的基本思想如图: 

图中的红线被称为空间填充曲线,又称为Z曲线。该线顺序访问每个单元格一次,并且能够保证访问次序的唯一性。 Z曲线也能用于高分辨率地图,如图:

Z曲线上的每个点都可以赋予一个顺序值,通过这个顺序值,GeoMesa将经纬度表示为一个整数,这样就将二维数据降为一维数据,可以作为key-value数据库中的key使用。因为Z曲线支持多维数据,所以GeoMesa也支持将多维数据降为一维数据,作为key使用。

4. GeoMesa时空索引机制原理

如何对时间空间数据进行有效地编码,这是一个GIS研究工作者一直在研究的问题。只有让这些数据能够快速的被查询到,这样的体系才是有用的。而这个工作的关键在于query planner上了。

4.1 建立时空索引

在此处介绍的案例是基于accumulo data store(GeoMesa基本的一个data store)的。这个框架是一个分布式的键值对数据源。而在给时空数据建立索引的过程就是要将三维的数据进行降维处理,即让经度、维度、时间数据转化成为单一维度的数据。这个特定的降维过程就是被index-schema的格式所定义的。

下面的图片就展示了一个简单的利用空间填充曲线来进行降维的过程。在这个例子当中,index-schema的格式是10个比特,遵循的模式就是“YXTTYXTTYX”。在这个过程当中,三个维度都呈现在Z型曲线当中。这个编码方式就是GeoMesa当中默认的一种index-schema的编码格式。

在前面的两个条带就展示了逻辑顺序的存储过程和物理顺序的存储过程。

4.2 Query Planning

例如,我们需要进行一个查询,查询条件如下:

  1. -180 ≤ longitude < 45
  2. -90 ≤ latitude < 22.5
  3. 0 < time < 9 (on an arbitrary scale of 0 to 16 for this illustration)

这个对应的查询范围正好是三个维度的最低值。下图就可以展示出这些key对应的查询位置:

这个例子使用的是10 bit的编码格式,所以在立方体当中只有1024个查询结果。默认的GeoMesa index-schema利用了超过55 bit,而这样利用穷举来进行查询的效率会非常的低。不过幸运的是,Geohash在进行位置信息的编码时,对于String类型的字符串的存储是分层的,因此这样就可以大大的降低查询的资源开销。

5. HBase DataStore的rowKey设计

5.1 针对Point的时间+空间索引(Z3)

ShardKey(1 byte)+Epoch Week(2 bytes)+Z3(x,y,t)(8 bytes)+FeatureID

5.2 针对Point的空间索引(Z2)

ShardKey(1 byte)+Z2(x,y)(2 bytes)+FeatureID

5.3 针对复杂空间对象(如:LineString、Polygon等)的时间+空间索引(XZ3)

ShardKey(1 byte)+Epoch Week(2 bytes)+XZ3(minX, minY, maxX, maxY)(8 bytes)+FeatureID

5.4 针对复杂空间对象(如:LineString、Polygon等)的空间索引(XZ2)

ShardKey(1 byte)+XZ2(minX, minY, maxX, maxY)(8 bytes)+FeatureID

5.5 Attribute索引

IdxBytes(2 bytes)+ShardKey(1 byte)+AttrValue+SplitByte(1 byte)+SecondaryIndex(Z3/XZ3/Z2/XZ2)+FeatureID

5.6 ID索引

FeatureID

Geomesa是一个开源的地理空间分析工具和库,它提供了高效的空间数据处理功能。Geomesa Windows教程是针对使用Windows操作系统的用户提供的教学材料,旨在帮助他们快速上手和使用GeomesaGeomesa Windows教程通常涵盖以下几个方面: 1. 环境准备:首先,需要确保Windows操作系统已经安装和配置好,并且具备一定的计算资源、存储空间和网络连接。 2. Geomesa安装和配置:接下来,需要下载和安装Geomesa软件包,并进行相应的配置。Geomesa可以与Apache Hadoop、Apache Spark和Apache Accumulo等配套使用,所以也需要相应的安装和配置。 3. 数据导入和查询:通过Geomesa,可以将地理空间数据导入到相应的数据存储中,如Hadoop分布式文件系统(HDFS)或者Accumulo数据库。然后,可以使用Geomesa提供的查询功能来进行地理空间数据的分析和检索。常见的操作包括空间范围查询、属性过滤、空间关系分析等。 4. 可视化和结果展示:Geomesa还提供了一些可视化工具和库,可以将地理空间数据进行可视化展示。通过这些工具,可以将结果以地图的形式展示出来,增加用户对数据的直观理解和分析。 需要注意的是,Geomesa Windows教程通常会基于具体的版本和使用场景来进行详细说明,所以用户需要根据自己的实际情况选择合适的教程和资料。另外,Geomesa的学习和使用还需要一定的地理空间数据和编程基础,对于初学者来说可能需要一些时间和精力来学习和掌握。但一旦熟悉了Geomesa的使用方法和技巧,将可以更高效地进行地理空间数据处理和分析工作。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值