使用GeoMesa实现时空索引并进行KNN查询

安装geomesa-hbase

  • 将geomesa-hbase_2.11-3.4.0-bin.tar.gz上传到xshell

  • 解压geomesa-hbase_2.11-3.4.0-bin.tar.gz

tar -zxvf geomesa-hbase_2.11-3.4.0-bin.tar.gz
  • 配置环境变量
vim .bashrc

添加如下内容:

#geomesa_hbase
export GEOMESA_HBASE_HOME=/home/ZQ/geomesa-hbase_2.11-3.4.0
export PATH=$PATH:$GEOMESA_HBASE_HOME/bin

在这里插入图片描述
使环境变量生效

source .bashrc

在这里插入图片描述

  • 部署GeoMesa-HBase分布式运行jar
    geomesa-hbase需要使用本地过滤器来加速查询,因此需要将GeoMesa的runtime JAR包,拷贝到
    HBase的库目录下
cd geomesa-hbase_2.11-3.4.0/
cp ./dist/hbase/geomesa-hbase-distributed-runtime-hbase1_2.11-3.4.0.jar /home/ZQ/hbase-1.4.13/lib/

在这里插入图片描述

  • 注册协处理器

GeoMesa利用服务器端处理来加速某些查询。具体实现:
在HBase的配置文件hbase-site.xml添加如下内容:

cd hbase-1.4.13/conf
vim hbase-site.xml
 <property>
               <name>hbase.coprocessor.user.region.classes</name>
               <value>org.locationtech.geomesa.hbase.coprocessor.GeoMesaCoprocessor</value>
       </property>

在这里插入图片描述
在这里插入图片描述

  • 设置命令行工具
    将HBase配置文件hbase-site.xml打包进geomesa-hbase-datastore_2.11-$VERSION.jar中:
cd geomesa-hbase_2.11-3.4.0/
zip -r lib/geomesa-hbase-datastore_2.11-hbase1_2.11-3.4.0.jar /home/ZQ/hbase-1.4.13/conf/hbase-site.xml

在这里插入图片描述

  • 进入到${GEOMESA_HBASE_HOME},运行:
./bin/install-shapefile-support.sh

在这里插入图片描述

  • 测试是否安装成功
geomesa-hbase version

在这里插入图片描述

时空索引

导入数据相关链接:GeoMesa命令行,索引概述_爱是与世界平行-程序员信息网
导入数据官方链接:8.3. Ingest Commands
定义特征类型官方链接:8.6. Defining Simple Feature Types
转换器官方链接:9. GeoMesa Convert

  • 数据准备

在${GEOMESA_HBASE_HOME}下新建data目录,进入data目录创建data.csv

mkdir data
cd data
vim data.csv

在data.csv中增加如下内容:

AAA,red,113.918417,22.505892,2017-04-09T18:03:46
BBB,white,113.960719,22.556511,2017-04-24T07:38:47
CCC,blue,114.088333,22.637222,2017-04-23T15:07:54
DDD,yellow,114.195456,22.596103,2017-04-21T21:27:06
EEE,black,113.897614,22.551331,2017-04-09T09:34:48

在这里插入图片描述

  • 定义特征类型
vim  conf/myschema.sft

在文件中增加如下内容

geomesa = {
sfts = {
example = {
type-name = "example"
attributes = [
{ name = "carid", type = "String", index = true }
{ name = "color", type = "String", index = false }
{ name = "double_0", type = "Double", index = false }
{ name = "double_1", type = "Double", index = false }
{ name = "time", type = "Date", index = false }
{ name = "geom", type = "Point", index = true,srid = 4326,default =
true }
    ]
   }
 }
}

在这里插入图片描述

  • 定义转换器
vim conf/testconvertor.convert

在文件中增加如下内容

geomesa.converters.example = {
"fields" : [
{
"name" : "carid",
"transform" : "toString($1)"
},
{
"name" : "color",
"transform" : "toString($2)"
},
{
"name" : "double_0",
"transform" : "toDouble($3)"
},
{
"name" : "double_1",
"transform" : "toDouble($4)"
},
{
"name" : "time",
"transform" : "isoDateTime($5)"
},
{
"name" : "geom",
"transform" : "point($double_0,$double_1)"
}
],
"format" : "CSV",
"id-field" : "md5(string2bytes($0))",
"options" : {
"encoding" : "UTF-8",
"error-mode" : "skip-bad-records",
"parse-mode" : "incremental",
"validators" : [
"index"
]
},
"type" : "delimited-text"
}

在这里插入图片描述

  • 导入数据

启动HDFS和HBase

start-dfs.sh

在这里插入图片描述

start-hbase.sh

在这里插入图片描述

geomesa-hbase ingest --catalog geomesa01 --feature-name cars20 --input-format csv -C conf/testconvertor.convert -s conf/myschema.sft "data/data.csv"

在这里插入图片描述

  • 进入hbase shell查看导入的数据
    Z2/Z3指示了Geomesa的索引方式(Z2:空间索引;Z3:时空索引)
hbase shell

在这里插入图片描述

list

在这里插入图片描述

scan 'geomesa01_cars20_z3_geom_time_v7'

在这里插入图片描述

KNN查询

  • 将GeoSparkModified解压到指定目录
unzip GeoSparkModified-master.zip
  • 使用geospark.jar作为依赖项运行Spark shell
spark-shell --jars /home/ZQ/GeoSparkModified-master/classes/artifacts/geospark_jar/geospark.jar

在这里插入图片描述

  • 导包运行KNN查询代码
    /home/ZQ/GeoSparkModified-master/src/test/resources/arealm.csv文件中含
    有121960条经纬度
import org.datasyslab.geospark.spatialOperator.KNNQuery
import org.datasyslab.geospark.spatialRDD.PointRDD;
import com.vividsolutions.jts.geom.GeometryFactory;
import com.vividsolutions.jts.geom.Point;
import com.vividsolutions.jts.geom.Coordinate;
val fact=new GeometryFactory();
val queryPoint=fact.createPoint(new Coordinate(-109.73, 35.08)); //查询点
val objectRDD=new PointRDD(sc,"file:///home/ZQ/GeoSparkModified-master/src/test/resources/arealm.csv",0,"csv")
val resultSize = KNNQuery.SpatialKnnQuery(objectRDD, queryPoint, 5); //查询邻近查询点的5个点

在这里插入图片描述

关闭HBase和HDFS

stop-hbase.sh
stop-dfs.sh

在这里插入图片描述

  • 1
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: KNN算法是一种基于距离度量的分类算法,可以用于对手写数字图像进行分类。首先,需要将手写数字图像转换为数字矩阵,然后计算测试样本与训练样本之间的距离,选择距离最近的K个训练样本,根据它们的类别进行投票,将测试样本分类为得票最多的类别。KNN算法简单易懂,但是需要大量的存储空间和计算时间,同时对于高维数据和噪声数据的处理也存在一定的挑战。 ### 回答2: KNN (K-Nearest Neighbors)算法是一种基于实例的学习算法,主要用于分类和回归问题。在手写数字图像分类中,我们可以使用KNN算法进行分类。 手写数字图像分类是一个常见的机器学习问题,通常情况下,每一个手写数字图像的分类都是已知的。我们可以先将每一个手写数字图像表示成特征向量,例如,每一个手写数字图像可以表示为长度为m的特征向量,其中m表示每个数字图像中使用的像素个数。然后,我们可以根据这些特征向量进行分类。KNN算法通过比较新样本与训练集中的所有案例,将其分配给最相似的类别。 具体地,对于一个新数据点,我们可以计算它与训练集中所有数据点的距离,并找到距离它最近的k个训练集数据点。然后,对于这k个数据点,我们可以根据它们的类别进行统计,将新数据点分类为这k个数据点中出现最频繁的类别。 在使用KNN算法进行手写数字分类时,我们需要选择一个适当的k值来获得较好的分类效果。同时,我们还需要注意的是,当特征向量具有高维度时,计算距离将会非常耗费时间和计算资源。在实际应用中,我们可以使用一些降维技术或特征选择方法来缩小特征空间,以加速分类过程。 总之,KNN算法是一种简单、有效的分类方法,可用于手写数字图像分类。通过计算距离并利用投票系统,我们可以对新数据点进行分类,并实现在图像识别等领域的应用。 ### 回答3: knn算法是一种非参数的分类算法,它的核心思想是通过计算待分类样本与训练集中各个样本之间的距离来判断待分类样本属于哪个类别。在手写数字图像的分类中,首先需要将数字图像进行预处理,例如将图像转化为灰度图像、二值化处理等。然后,需要将处理后的图像转化为特征向量,一般采用的是提取图像的轮廓或者是像素点矩阵。接着,将特征向量作为训练样本,根据knn算法对待分类样本进行分类。 knn算法的步骤如下:首先选择一个k值,表示在训练样本中选取k个最近邻的样本作为待分类样本的参考。然后对于待分类样本,计算它与训练集中各个样本之间的距离,该距离可以采用欧式距离、曼哈顿距离等,计算的结果可以用一个距离值表示。然后根据距离值的大小,将训练样本按照距离值从小到大排序,然后选取前k个最近邻的样本进行分类,分类结果以多数表决的方式确定。最后,将待分类样本的类别确定为距离它最近的k个样本中出现最多的类别。 在手写数字图像的分类中,knn算法的性能受到多种因素的影响,例如k值的选择、特征向量的选取、距离度量的方式等。对于k值的选择,k值在选择时应该保证k值不太小也不太大,一般选择k的平方根而且k值要小于训练集中样本数量的一半。对于特征向量的选择,应该选择较为稳定的特征向量,不仅可以尽可能保留图像的信息,而且可以减少噪声的影响。在距离度量的方式上,对于手写数字图像的分类,一般采用余弦距离或者欧式距离等。 总之,使用knn算法实现对手写数字图像的分类是一个非常基础和基本的任务。在实际应用中,需要深入分析不同的特征向量选择和距离度量方法对knn算法性能的影响,并结合实际应用的特点,优化算法的实现

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值