geohash详解

机机是个好动又好学的孩子,平日里就喜欢拿着手机地图点点按按来查询一些好玩的东西。某一天机机到北海公园游玩,肚肚饿了,于是乎打开手机地图,搜索北海公园附近的餐馆,并选了其中一家用餐。

GeoHash核心原理解析

饭饱之后机机开始反思了,地图后台如何根据自己所在位置查询来查询附近餐馆的呢?苦思冥想了半天,机机想出了个方法:计算所在位置P与北京所有餐馆 的距离,然后返回距离<=1000米的餐馆。小得意了一会儿,机机发现北京的餐馆何其多啊,这样计算不得了,于是想了,既然知道经纬度了,那它应该 知道自己在西城区,那应该计算所在位置P与西城区所有餐馆的距离啊,机机运用了递归的思想,想到了西城区也很多餐馆啊,应该计算所在位置P与所在街道所有 餐馆的距离,这样计算量又小了,效率也提升了。

机机的计算思想很朴素,就是通过过滤的方法来减小参与计算的餐馆数目,从某种角度上讲,机机在使用索引技术。

一提到索引,大家脑子里马上浮现出B树索引,因为大量的数据库(如MySQL、oracle、PostgreSQL等)都在使用B树。B树索引本质上是对索引字段进行排序,然后通过类似二分查找的方法进行快速查找,即它要求索引的字段是可排序的,一般而言,可排序的是一维字段,比如时间、年龄、薪水等等。但是对于空间上的一个点(二维,包括经度和纬度),如何排序呢?又如何索引呢?解决的方法很多,下文介绍一种方法来解决这一问题。

思想:如果能通过某种方法将二维的点数据转换成一维的数据,那样不就可以继续使用B树索引了嘛。那这种方法真的存在嘛,答案是肯定的。目前很火的GeoHash算法就是运用了上述思想,下面我们就开始GeoHash之旅吧。

回到顶部

一、感性认识GeoHash

首先来点感性认识,http://openlocation.org/geohash/geohash-js/ 提供了在地图上显示geohash编码的功能。

1)GeoHash将二维的经纬度转换成字符串,比如下图展示了北京9个区域的GeoHash字符串,分别是WX4ER,WX4G2、WX4G3等 等,每一个字符串代表了某一矩形区域。也就是说,这个矩形区域内所有的点(经纬度坐标)都共享相同的GeoHash字符串,这样既可以保护隐私(只表示大 概区域位置而不是具体的点),又比较容易做缓存,比如左上角这个区域内的用户不断发送位置信息请求餐馆数据,由于这些用户的GeoHash字符串都是WX4ER,所以可以把WX4ER当作key,把该区域的餐馆信息当作value来进行缓存,而如果不使用GeoHash的话,由于区域内的用户传来的经纬度是各不相同的,很难做缓存。

GeoHash核心原理解析

2)字符串越长,表示的范围越精确。如图所示,5位的编码能表示10平方千米范围的矩形区域,而6位编码能表示更精细的区域(约0.34平方千米)

GeoHash核心原理解析

3)字符串相似的表示距离相近(特殊情况后文阐述),这样可以利用字符串的前缀匹配来查询附近的POI信息。如下两个图所示,一个在城区,一个在郊 区,城区的GeoHash字符串之间比较相似,郊区的字符串之间也比较相似,而城区和郊区的GeoHash字符串相似程度要低些。

GeoHash核心原理解析GeoHash核心原理解析
城区郊区

通过上面的介绍我们知道了GeoHash就是一种将经纬度转换成字符串的方法,并且使得在大部分情况下,字符串前缀匹配越多的距离越近,回到我们的 案例,根据所在位置查询来查询附近餐馆时,只需要将所在位置经纬度转换成GeoHash字符串,并与各个餐馆的GeoHash字符串进行前缀匹配,匹配越 多的距离越近。

回到顶部

二、GeoHash算法的步骤

下面以北海公园为例介绍GeoHash算法的计算步骤

GeoHash核心原理解析

2.1. 根据经纬度计算GeoHash二进制编码

地球纬度区间是[-90,90], 北海公园的纬度是39.928167,可以通过下面算法对纬度39.928167进行逼近编码:

1)区间[-90,90]进行二分为[-90,0),[0,90],称为左右区间,可以确定39.928167属于右区间[0,90],给标记为1;

2)接着将区间[0,90]进行二分为 [0,45),[45,90],可以确定39.928167属于左区间 [0,45),给标记为0;

3)递归上述过程39.928167总是属于某个区间[a,b]。随着每次迭代区间[a,b]总在缩小,并越来越逼近39.928167;

4)如果给定的纬度x(39.928167)属于左区间,则记录0,如果属于右区间则记录1,这样随着算法的进行会产生一个序列1011100,序列的长度跟给定的区间划分次数有关。

根据纬度算编码

bitminmidmax
1-90.0000.00090.000
00.00045.00090.000
10.00022.50045.000
122.50033.75045.000
133.750039.37545.000
039.37542.18845.000
039.37540.781542.188
039.37540.0782540.7815
139.37539.72662540.07825
139.72662539.902437540.07825

同理,地球经度区间是[-180,180],可以对经度116.389550进行编码。

根据经度算编码

bitminmidmax
1-1800.000180
10.00090180
090135180
190112.5135
0112.5123.75135
0112.5118.125123.75
1112.5115.3125118.125
0115.3125116.71875118.125
1115.3125116.015625116.71875
1116.015625116.3671875116.71875

2.2. 组码

通过上述计算,纬度产生的编码为10111 00011,经度产生的编码为11010 01011。偶数位放经度,奇数位放纬度,把2串编码组合生成新串:11100 11101 00100 01111。

最后使用用0-9、b-z(去掉a, i, l, o)这32个字母进行base32编码,首先将11100 11101 00100 01111转成十进制,对应着28、29、4、15,十进制对应的编码就是wx4g。同理,将编码转换成经纬度的解码算法与之相反,具体不再赘述。

GeoHash核心原理解析

回到顶部

三、GeoHash Base32编码长度与精度

下表摘自维基百科:http://en.wikipedia.org/wiki/Geohash

可以看出,当geohash base32编码长度为8时,精度在19米左右,而当编码长度为9时,精度在2米左右,编码长度需要根据数据情况进行选择。

GeoHash核心原理解析

回到顶部

三、GeoHash算法

上文讲了GeoHash的计算步骤,仅仅说明是什么而没有说明为什么?为什么分别给经度和维度编码?为什么需要将经纬度两串编码交叉组合成一串编码?本节试图回答这一问题。

如图所示,我们将二进制编码的结果填写到空间中,当将空间划分为四块时候,编码的顺序分别是左下角00,左上角01,右下脚10,右上角11,也就 是类似于Z的曲线,当我们递归的将各个块分解成更小的子块时,编码的顺序是自相似的(分形),每一个子快也形成Z曲线,这种类型的曲线被称为Peano空 间填充曲线。

这种类型的空间填充曲线的优点是将二维空间转换成一维曲线(事实上是分形维),对大部分而言,编码相似的距离也相近, 但Peano空间填充曲线最大的缺点就是突变性,有些编码相邻但距离却相差很远,比如0111与1000,编码是相邻的,但距离相差很大。

GeoHash核心原理解析

除Peano空间填充曲线外,还有很多空间填充曲线,如图所示,其中效果公认较好是Hilbert空间填充曲线,相较于Peano曲线而 言,Hilbert曲线没有较大的突变。为什么GeoHash不选择Hilbert空间填充曲线呢?可能是Peano曲线思路以及计算上比较简单吧,事实 上,Peano曲线就是一种四叉树线性编码方式。

GeoHash核心原理解析

回到顶部

四、使用注意点

1)由于GeoHash是将区域划分为一个个规则矩形,并对每个矩形进行编码,这样在查询附近POI信息时会导致以下问题,比如红色的点是我们的位 置,绿色的两个点分别是附近的两个餐馆,但是在查询的时候会发现距离较远餐馆的GeoHash编码与我们一样(因为在同一个GeoHash区域块上),而 较近餐馆的GeoHash编码与我们不一致。这个问题往往产生在边界处。

GeoHash核心原理解析

解决的思路很简单,我们查询时,除了使用定位点的GeoHash编码进行匹配外,还使用周围8个区域的GeoHash编码,这样可以避免这个问题。

2)我们已经知道现有的GeoHash算法使用的是Peano空间填充曲线,这种曲线会产生突变,造成了编码虽然相似但距离可能相差很大的问题,因此在查询附近餐馆时候,首先筛选GeoHash编码相似的POI点,然后进行实际距离计算。

参考文献:

http://en.wikipedia.org/wiki/Geohash

http://openlocation.org/geohash/geohash-js/

 

 

 

 
  1. Precision, Distance of Adjacent Cell in Meters

  2. 1, 5003530

  3. 2, 625441

  4. 3, 123264

  5. 4, 19545

  6. 5, 3803

  7. 6, 610

  8. 7, 118

  9. 8, 19

  10. 9, 3.71

  11. 10, 0.6

 

常见的一些应用场景

A、如果想查询附近的点?如何操作

查出改点的gehash值,然后到数据库里面进行前缀匹配就可以了。

 

B、如果想查询附近点,特定范围内,例如一个点周围500米的点,如何搞?

可以查询结果,在结果中进行赛选,将geohash进行解码为经纬度,然后进行比较

 

 *在纬度相等的情况下:

 *经度每隔0.00001度,距离相差约1米;

 *每隔0.0001度,距离相差约10米;

 *每隔0.001度,距离相差约100米;

 *每隔0.01度,距离相差约1000米;

 *每隔0.1度,距离相差约10000米。

 *在经度相等的情况下:

 *纬度每隔0.00001度,距离相差约1.1米;

 *每隔0.0001度,距离相差约11米;

 *每隔0.001度,距离相差约111米;

 *每隔0.01度,距离相差约1113米;

 *每隔0.1度,距离相差约11132米。

Geohash,如果geohash的位数是6位数的时候,大概为附近1千米…

  • 7
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: MySQL 中的 hash join 是一种连接两个表的方法,它通过将其中一个表的数据哈希到内存中的哈希表来实现。另一个表的数据在哈希表上进行匹配,从而得到符合条件的行。 这种方法适用于其中一个表的数据量较小的情况。因为哈希表的查询速度很快,所以这种方法效率高。但是,如果其中一个表的数据量很大,则需要将整个表加载到内存中,这可能会导致内存不足。 在 MySQL 中,使用 INNER JOIN、LEFT JOIN 或 RIGHT JOIN 关键字可以实现 hash join 操作。 ### 回答2: MySQL的hashJoin是一种关联查询的算法,用于将两个表中的数据进行关联。它通过计算每个表的关联列的哈希值,将相同哈希值的记录分配到同一个哈希桶中,然后对每个哈希桶进行内存中的关联操作。 首先,hashJoin需要将两个要关联的表按照关联列进行哈希分区。然后,对于第一个表的每个分区,将其哈希列值与第二个表进行匹配。如果哈希值相同,则将两个记录进行关联,生成结果。 hashJoin的优点是在内存充足的情况下,处理大规模数据的效率较高。由于哈希表是在内存中构建的,所以可以减少磁盘I/O的开销。此外,它适用于多种关联类型,如内连接、左连接、右连接等。 然而,hashJoin也有一些限制。首先,它需要将整个表进行哈希分区,因此在内存不足的情况下,可能导致性能下降。其次,在进行哈希分区和关联操作时,需要消耗较多的CPU资源。此外,如果两个表中的关联列不具有相同的数据分布,可能导致哈希桶不均匀,进而影响关联操作的效率。 总的来说,MySQL的hashJoin算法是一种高效的关联查询方法,可以在合适的场景下提供较好的性能。但需要注意配置合适的内存大小,并保证关联列的数据分布较为均匀,以达到最佳的运行效果。 ### 回答3: MySQL中的hashJoin是一种用于联接操作的算法。联接操作是将多个表中的数据按照某些条件进行匹配和合并的过程。而hashJoin是其中一种高效的联接算法。 hashJoin的原理是利用哈希表的特性,在内存中构建一个哈希表来存储较小表中的数据。首先,将待联接的两个表中的一个表的数据读入内存并构建哈希表,将哈希表的键值设为联接条件的键值,并将相应的数据行存储在哈希表中。然后,遍历另一个表的数据,对于每一行数据,通过联接条件的键值查找哈希表中是否存在对应的数据行,如果存在,则将两行数据进行合并,并输出结果。 相比于其他联接算法,hashJoin的优点主要体现在以下几个方面: 1. 内存控制:hashJoin将较小表的数据存储在内存中,避免了大规模的磁盘读写操作,提高了查询效率。同时,由于使用哈希表存储数据,可以大幅度减少内存的占用空间。 2. 快速查找:哈希表的查找操作具有快速的特性,可以在常数时间内完成查找操作。这使得hashJoin能够在较短的时间内完成联接操作,适用于处理大规模数据的场景。 3. 并行化处理:由于hashJoin的哈希表是在内存中构建的,可以方便地进行并行化处理。可以将不同的数据分配给不同的CPU进行处理,提高了联接操作的并行度和效率。 需要注意的是,hashJoin算法对内存的需求较高,如果内存不足,可能会导致性能下降或者无法完成联接操作。此外,选择合适的联接条件和恰当的索引也会对hashJoin的效率产生影响。因此,在使用hashJoin时,需要根据具体的业务场景和数据特点进行调优和优化。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值