SptialHadoop是基于hadoop扩展的用于处理空间大数据的与计算平台。最近的工作研究一下在大数据环境下空间索引的构建方法。今天就讨论下在spatialhadoop当中,空间索引是如何构建的。文章地址:Spatialhadoop
1、概述
为了弥补在hadoop中创建索引结构的不足,我们采用了两层索引的方法,包括全局索引和局部索引。全局索引存储在主节点上,主节点通过一个分区集合来对存储在子节点上的数据进行切分,每一个分区都有一个局部索引用来组织自己的数据。这样的组织方式主要解决了两个问题:1)它适合mapreduce编程范式,本地索引能够通过一个mapreduce工作来并行处理;2)本地索引的大小允许每一个被批量加载到内存中和通过扩展的方式写入到一个文件中。用户可以通过下面的spatialhadoop shell命令来对一个输入文件 src file 创建不同类型的索引,最终生成一个输出文件 dst file。这里的索引类型包括gr