Elasticsearch 处理地理信息

1、GeoHash

​ GeoHash是一种地理坐标编码系统,可以将地理位置按照一定的规则转换为字符串,以方便对地理位置信息建立空间索引。首先要明确的是,GeoHash代表的不是一个点而是一个区域。GeoHash具有两个显著的特点:一是通过改变 GeoHash的长度,我们可以表示任意精度的位置:GeoHash越短,其表示的区域越大,位置精度越低;相反,GeoHash越长,其表示的区域越小,位置精度越高。Elasticsearch 支持GeoHash字符串长度是12,这个精度已经达到了厘米级别;二是如果不同位置的GeoHash字符串前缀相同,那他们一定在同一个区域中。

​ GeoHash将地理坐标编码为字符串的方法与二分查找有几分相识。它将经纬度范围一分为二,分成左右两个区间;坐标落入左区间为0,落入右区间为1。按照此方法,分别对精度和维度不停地地柜逼近实际坐标值,就会得到两组由0,1组成的数字字符串。然后按照偶数位放经度,奇数位放纬度的方法,将两组数据串联组合起来。最后将组合的数字串转换成十进制,并用Base32对数字进行编码就得到GeoHash最终编码了。

​ 根据经纬度的定义,经度整体范围为: [ -180 , 180 ] ,纬度整体范围为:[ -90 , 90 ]。所以第一次递归分割坐标后,经度的左右区间为 **[ -180 , 0 ) **和

[ 0 , 180 ],即西半球和东半球 纬度的左右区间为 **[ -90 , 0 ) [ 0 , 90 ],即南半球和北半球。以山东济南某地坐标( 117.15838 , 36.74038 )**为例,经纬度第一次递归后都落入到右区间,则他们第一位数字都是1。由于落入了右区间,所以经纬第二次递归就是针对右区间分割:经度为 **[ 0 , 90 ) **和 [ 90 , 180 ],纬度为

[ 0 , 45 ) [ 45 , 90 ] 。这次经度落入到了右区间,二纬度落入了左区间,所以他们的第二位数字分别为10。按照此方法不停的递归下去,就能无线的接近于实际坐标。

​ 可以看出,GeoHash时间上是将地球假设为一个平面,然后在这个平面上划分网格的过程。在这个递归的过程中,每一次都是将整个区域一分为二,区域面积也就约分越小,而且在相同区域的位置他们的前缀数字一定是相同的。表1-1列出了经度 117.15838经过十次递归运算过程及结果。

表1-1 GeoHash经度 117.15838

次数经度范围左区间 - 0右区间 - 1117.15838
1[ -180 , 180 ][ -180 , 0 )[ 0 , 180 ]1
2[ 0 , 180 ][ 0 , 90 )[ 90 , 180 ]1
3[ 90 , 180 ][90 , 135 )[ 135 , 180 ]0
4[ 90 , 135 )[ 90, 112.5 )[ 112.5 , 135 )1
5[ 112.5 , 135 )[ 112.5 , 123.75 )[ 123.75 , 135 )0
6[ 112.5 , 123.75 )[ 112.5 , 118.125 )[ 118.125 , 123.75)0
7[ 112.5 , 118.125 )[ 112.5 , 115.3125 )[ 115.3125 , 118.125)1
8[ 115.3125 , 118.125)[ 115.3125 , 116.71875 )[ 116.71875 , 118.125 )1
9[ 116.71875 , 118.125 )[ 116.71875 , 117.421875 )[ 117.421875 , 118.125 )0
10[ 116.71875 , 117.421875 )[ 116.71875 ,117.0703125 )[ 117.0703125, 117.421875 )1

​ 经过10次递归,经度为117.15838得到的数字字符串为1101001101,以同样的方式对纬度做GeoHash运算,表1-2列出了纬度 36.74038经过十次递归运算过程及结果。

表1-2 GeoHash纬度 36.74038

次数经度范围左区间 - 0右区间 - 136.74038
1[ -90, 90][ -90 , 0 )[ 0 , 90]1
2[ 0 , 90][ 0 , 45)[ 45, 90]0
3[ 0 , 45)[0, 22.5)[ 22.5, 45 )1
4[ 22.5, 45)[ 22.5, 33.75 )[ 33.75 , 45)1
5[ 33.75 , 45)[ 33.75, 39.375 )[ 39.375 , 45 )0
6[ 33.75, 39.375 )[ 33.75, 36.5625 )[ 36.5625 , 39.375)1
7[ 36.5625 , 39.375)[ 36.5625 , 37.96875)[ 37.96875 , 39.375)0
8[ 36.5625 , 37.96875)[ 36.5625 , 37.265625 )[ 37.265625 , 37.96875 )0
9[ 36.5625 , 37.265625 )[ 36.5625, 36.9140625 )[ 36.9140625 , 37.265625 )0
10[ 36.5625, 36.9140625 )[ 36.5625 ,36.7385625 )[ 36.7385625 , 36.9140625 )1

同样经过十次递归,纬度得到的数字串为1011010001 ,下面按偶数位经度,奇数位纬度的方法合并两个数字串,注意位数是从0开始,或者理解为先经度后纬度,各区一位交叉合并。

经度:1101001101

纬度:1011010001

合并:11100 11100 01101 00011

合并后结果按照每五位一组,一次转换成十进制数 28、28、13、3,并使用表1-3对应的Base32编码转为字符串。

表 1- 3
在这里插入图片描述

​ 最终结果为wwe34,可以到 http://geohash.org/ 网站上输入"36.74038,117.15838" 验证结果为:wwe3402hhp5z 这个结果为12位,说明做了30次递归。

表1-4列出了GeoHash字符串长度与实际位置误差关系。

表 1- 4 GeoHash字符串长度与实际位置关系

GeoHash长度纬度位数经度位数纬度误差经度误差区域面积
123±23±235009.4km*4992.6km
255±2.8±5.61252.3km*624.1km
378±0.70±0.70156.5km*156km
41010±0.087±0.1839.1km*19.5km
51213±0.022±0.0224.9km*4.9km
61515±0.0027±0.00551.2km*609.4m
71718±0.00068±0.00068152.9m*152.4m
82020±0.000085±0.0001738.2m*19m
92223±0.000021±0.0000214.8m*4.8m
102525±0.00000268±0.000005361.2m*59.5cm
112728±0.00000067±0.000000674.9cm*14.9cm
123030±0.00000008±0.000000173.7cm*1.9cm

​ 根据图1-4表示,当GeoHash字符串长度达到12位时,位置经度误差可以控制在不到8cm²的范围内。

2、地理类型字段

​ Elasticsearch 提供了两种地理相关的数据类型geo_pointgeo_shape,前者用于保存地理位置,即具体的某一个坐标;而后者用于保存地理形状,如矩形和多边形。

1. geo_point 类型

​ 地理位置由经度和维度共同定义,所以geo_point定义地理位置坐标最基本的形式也是通过提供经度和纬度来实现的。

如下:存储了数据的日期、主键、地理位置信息

PUT /obd
{
	"mapping":{
        "properties":{
            "datadate": {  //数据日期
            	"type": "date"
            },
            "id": {   //数据主键
            	"type": "long"
            },
            "location": {  //地理位置信息
            	"type": "geo_point"
            },
            "name": {  //名称(编号)
           		 "type": "text"
            }
        }
	}
}

​ 如上,location的数据类型为geo_point,这种类型有四种表示形式

​ 例如:

# 格式1 对象
PUT /obd/_doc/1
{
  "location": { 
    "lat": 41.12,
    "lon": -71.34
  }
}
# 格式2 数组
PUT /obd/_doc/2
{
  "location": [ -71.34, 41.12 ] 
}
# 格式3 字符串
PUT /obd/_doc/3
{
  "location": "41.12,-71.34" 
}
# 格式4 geohash
PUT /obd/_doc/4
{
  "location": "wwe3402hhp5z" 
}

2、基于geo_point类型的查询(java)

  • 按距离搜索

  • 按距离排序

  • 按时间范围

maven依赖

   <parent>
        <groupId>org.springframework.boot</groupId>
        <artifactId>spring-boot-starter-parent</artifactId>
        <version>2.4.3</version>
        <relativePath/> <!-- lookup parent from repository -->
    </parent>
<dependencies>
        <!--必备: spring boot web-->
        <dependency>
            <groupId>org.springframework.boot</groupId>
            <artifactId>spring-boot-starter-web</artifactId>
        </dependency>
        <!--es-->
        <dependency>
            <groupId>org.springframework.boot</groupId>
            <artifactId>spring-boot-starter-data-elasticsearch</artifactId>
        </dependency>
        <!--测试-->
        <dependency>
            <groupId>org.springframework.boot</groupId>
            <artifactId>spring-boot-starter-test</artifactId>
            <scope>test</scope>
        </dependency>
        <dependency>
            <groupId>org.projectlombok</groupId>
            <artifactId>lombok</artifactId>
        </dependency>
        <!--数据库-->
        <dependency>
            <groupId>mysql</groupId>
            <artifactId>mysql-connector-java</artifactId>
        </dependency>
        <dependency>
            <groupId>com.microsoft.sqlserver</groupId>
            <artifactId>mssql-jdbc</artifactId>
            <scope>runtime</scope>
        </dependency>
        <dependency>
            <groupId>org.springframework.boot</groupId>
            <artifactId>spring-boot-starter-jdbc</artifactId>
        </dependency>
        <!--mybatis-->
        <dependency>
            <groupId>com.baomidou</groupId>
            <artifactId>mybatis-plus-boot-starter</artifactId>
            <version>3.4.2</version>
        </dependency>
        <!-- druid 连接池 -->
        <dependency>
            <groupId>com.alibaba</groupId>
            <artifactId>druid-spring-boot-starter</artifactId>
            <version>1.2.5</version>
        </dependency>
        <dependency>
            <groupId>org.springframework.boot</groupId>
            <artifactId>spring-boot-starter-actuator</artifactId>
        </dependency>

        <!-- 动态数据源 -->
        <dependency>
            <groupId>com.baomidou</groupId>
            <artifactId>dynamic-datasource-spring-boot-starter</artifactId>
            <version>2.5.4</version>
        </dependency>
        <dependency>
            <groupId>cn.hutool</groupId>
            <artifactId>hutool-all</artifactId>
            <version>5.8.16</version>
        </dependency>
    </dependencies

配置文件yml

spring:
  elasticsearch:
    rest:
      uris: 192.168.254.190:9200,192.168.254.191:9200,192.168.254.192:9200
  datasource:
    druid:
      stat-view-servlet:
        # 默认true 内置监控页面首页/druid/index.html
        enabled: false
      initial-size: 20
      max-active: 60
      min-idle: 20
      max-wait: 30000
    dynamic:
      primary: master
      strict: false
      datasource:
        master: ***
          driver-class-name: com.mysql.cj.jdbc.Driver
          username: root
          password: ***
          url: 
        jdc:
          url: ***
          driver-class-name: com.microsoft.sqlserver.jdbc.SQLServerDriver
          username: sa
          password: ***

数据库实体

@Data
@EqualsAndHashCode()
@TableName("carPosition")
public class CarPosition {

    @TableId(value = "id")
    private Long id;

    @TableField("vehicleIdentificationNumber")

    private String vehicleIdentificationNumber;
    @TableField("collectionTime")
    private LocalDateTime collectionTime;
    /**
     * 经度
     */
    private String longitude;
    /**
     * 纬度
     */
    private String latitude;



}

es实体

@Data
@FieldNameConstants
@AllArgsConstructor
@NoArgsConstructor
@Document(indexName = "#{@dynamicIndex.getIndex()}", createIndex = false)
public class ObdModel implements Serializable {

    @Id
    private Long id;

    @Field(type = FieldType.Text)
    private String name;

    @GeoPointField
    private GeoPoint location;

    @Field(type = FieldType.Date, format = DateFormat.custom, pattern ="yyyy-MM-dd HH:mm:ss:SSS")
    private LocalDateTime datadate;
}

将数据库数据存储到es


import cn.hutool.core.util.ObjectUtil;
import cn.hutool.core.util.ReUtil;
import com.baomidou.mybatisplus.core.conditions.query.LambdaQueryWrapper;

import com.sunfeng.elasticsearch.entity.CarPosition;
import com.sunfeng.elasticsearch.es.model.ObdModel;
import com.sunfeng.elasticsearch.es.repository.ObdModelRepository;
import com.sunfeng.elasticsearch.es.utils.DynamicIndex;
import com.sunfeng.elasticsearch.service.CarPositionService;

import lombok.extern.slf4j.Slf4j;
import org.elasticsearch.common.geo.GeoPoint;
import org.junit.jupiter.api.Test;
import org.springframework.boot.test.context.SpringBootTest;
import org.springframework.data.elasticsearch.core.ElasticsearchRestTemplate;
import org.springframework.data.elasticsearch.core.document.Document;
import org.springframework.data.elasticsearch.core.mapping.IndexCoordinates;


import javax.annotation.Resource;

import java.time.LocalDateTime;
import java.time.ZoneOffset;
import java.util.List;
import java.util.Optional;
import java.util.stream.Collectors;

import static com.sunfeng.elasticsearch.es.utils.DateTimeFormatterUtil.yyyy_MM_dd_HH_mm_ss;


@Slf4j
@SpringBootTest
class ElasticsearchSpringdataApplicationTests {

    @Resource
    private ObdModelRepository obdModelRepository;

    @Resource
    private DynamicIndex dynamicIndex;

    @Resource
    private ElasticsearchRestTemplate restTemplate;

    @Resource
    private CarPositionService carPositionService;
		
    @Test
    public void createIndex() {
        //生成索引名称
        String obdIndex = "obd2";
        Document mapping = restTemplate.indexOps(IndexCoordinates.of(obdIndex)).createMapping(ObdModel.class);
        //判断索引库中是否存在该索引
        if (!restTemplate.indexOps(IndexCoordinates.of(obdIndex)).exists()) {
            restTemplate.indexOps(IndexCoordinates.of(obdIndex)).create();
            //创建映射
            restTemplate.indexOps(IndexCoordinates.of(obdIndex)).putMapping(mapping);
        }
    }


    @Test
    public void contextLoads() {
        dynamicIndex.setIndex("obd");
        Iterable<ObdModel> all = obdModelRepository.findAll();

        all.forEach(System.out::println);
        dynamicIndex.setIndex("");
    }
	//纬度正则
    private static String latReg = "^[\\-\\+]?((0|([1-8]\\d?))(\\.\\d{1,6})?|90(\\.0{1,6})?)$";
	//经度正则
    private static String lonReg = "^[\\-\\+]?(0(\\.\\d{1,6})?|([1-9](\\d)?)(\\.\\d{1,6})?|1[0-7]\\d{1}(\\.\\d{1,6})?|180(\\.0{1,6})?)$";

    public static void main(String[] args) {
        System.out.println(LocalDateTime.parse("2023-08-04 19:00:00", yyyy_MM_dd_HH_mm_ss).toInstant(ZoneOffset.of("+8")).toEpochMilli());
    }
 @Test
    public void dbToEs() {

        log.info("开始统计!!");

        LambdaQueryWrapper<CarPosition> lambdaQueryWrapper = new LambdaQueryWrapper<CarPosition>();


        dynamicIndex.setIndex("obd202308");


        List<CarPosition> carPositionList = carPositionService.list(lambdaQueryWrapper);
        /**
         * 获取分页数据
         */
        log.info("需要处理的数据量为:{}", carPositionList.size());

        carPositionList = carPositionList.parallelStream()
                .filter(carPosition -> ObjectUtil.isNotEmpty(carPosition.getLatitude()) &&
                        ObjectUtil.isNotEmpty(carPosition.getLongitude()) &&
                        ReUtil.isMatch(latReg, carPosition.getLatitude()) &&
                        ReUtil.isMatch(lonReg, carPosition.getLongitude())).collect(Collectors.toList());
        log.info("排除部分脏数据后为:{}", carPositionList.size());
        ArrayList<ObdModel> obdModels = new ArrayList<>();
        //批量保存提高效率
        for (int i = 0; i < carPositionList.size(); i++) {
            CarPosition carPosition = carPositionList.get(i);

            ObdModel obdModel = new ObdModel();
            obdModel.setId(carPosition.getId());
            obdModel.setName(carPosition.getVehicleIdentificationNumber());
            obdModel.setDatadate(carPosition.getCollectionTime());
            GeoPoint geoPoint = new GeoPoint(Double.parseDouble(carPosition.getLatitude()), Double.parseDouble(carPosition.getLongitude()));
            obdModel.setLocation(geoPoint);
            obdModels.add(obdModel);
            if (obdModels.size() % 10000 == 0) {
                log.info("开始保存");
                obdModelRepository.saveAll(obdModels);
                log.info("结束保存");
                obdModels.clear();
            }
        }
        obdModelRepository.saveAll(obdModels);
    }

}

es数据查询

package com.sunfeng.elasticsearch;


import com.sunfeng.elasticsearch.es.utils.DateTimeFormatterUtil;
import lombok.extern.slf4j.Slf4j;
import org.elasticsearch.action.search.SearchRequest;

import org.elasticsearch.action.search.SearchResponse;
import org.elasticsearch.client.RequestOptions;
import org.elasticsearch.client.RestHighLevelClient;
import org.elasticsearch.common.geo.GeoDistance;
import org.elasticsearch.common.geo.GeoPoint;
import org.elasticsearch.common.unit.DistanceUnit;
import org.elasticsearch.index.query.BoolQueryBuilder;
import org.elasticsearch.index.query.GeoDistanceQueryBuilder;
import org.elasticsearch.index.query.QueryBuilders;
import org.elasticsearch.index.query.RangeQueryBuilder;

import org.elasticsearch.search.SearchHits;
import org.elasticsearch.search.builder.SearchSourceBuilder;
import org.elasticsearch.search.sort.GeoDistanceSortBuilder;
import org.elasticsearch.search.sort.SortBuilders;
import org.elasticsearch.search.sort.SortOrder;
import org.junit.jupiter.api.Test;
import org.springframework.boot.test.context.SpringBootTest;

import javax.annotation.Resource;
import java.io.IOException;
import java.math.BigDecimal;

import java.time.LocalDateTime;
import java.time.ZoneOffset;
import java.util.Map;


import static com.sunfeng.elasticsearch.es.utils.DateTimeFormatterUtil.getDateTimeOfTimestamp;
import static com.sunfeng.elasticsearch.es.utils.DateTimeFormatterUtil.yyyy_MM_dd_HH_mm_ss;

@Slf4j
@SpringBootTest
public class TestSearchDocument {

    @Resource
    private RestHighLevelClient restHighLevelClient;

    @Test
    public void contextLoads() throws IOException {

        //创建查询请求
        SearchRequest searchRequest = new SearchRequest();
        searchRequest.indices("obd202308");

        GeoPoint geoPoint = new GeoPoint(36.508270D, 117.848530D);
        //条件1、设置搜索半径
        GeoDistanceQueryBuilder distanceQueryBuilder = QueryBuilders.geoDistanceQuery("location")
                .point(geoPoint)
                .distance(10000, DistanceUnit.METERS)
                .geoDistance(GeoDistance.ARC); //设置查询精度
        
       
        
        //条件3、设置搜索区间 时间区间
        //注意: 时间格式要用 yyyy-MM-dd HH:mm:ss:SSS
        RangeQueryBuilder rangeQueryBuilder = QueryBuilders.rangeQuery("datadate")
                .gt("2023-08-04 19:00:00:000")
                .lte("2023-08-04 20:00:00:000");
        // 组合查询条件
        BoolQueryBuilder must = QueryBuilders.boolQuery()
                .must(rangeQueryBuilder)
                .must(distanceQueryBuilder);
        
        
 		//条件2:按照距离排序
        //构建GeoDistanceSortBuilder设置按距离排序参数
        GeoDistanceSortBuilder sort = SortBuilders.geoDistanceSort("location", geoPoint);
        //升序排序
        sort.order(SortOrder.ASC);
      
        //构建检索
        SearchSourceBuilder sourceBuilder = SearchSourceBuilder
                .searchSource()
                .from(0)
                .size(10000)
                .query(must)
                .sort(sort);


        // 设置SearchRequest搜索参数
        searchRequest.source(sourceBuilder);

         log.info("开始搜索");
        // 执行ES请求
        SearchResponse searchResponse = restHighLevelClient.search(searchRequest, RequestOptions.DEFAULT);
        log.info("结束搜索");
        SearchHits hits = searchResponse.getHits();
        log.info("检索结果数量为:{}", "" + hits.getHits().length);
		//结果打印
        hits.forEach(hit -> {
            Map<String, Object> sourceAsMap = hit.getSourceAsMap();
            // 获取坐标
            Object location = sourceAsMap.get("location");

            String datadate = sourceAsMap.get("datadate").toString();

            Long id = Long.valueOf(sourceAsMap.get("id").toString());
            //获取距离值,并保留两位小数点
            BigDecimal geoDis = BigDecimal.valueOf((Double) hit.getSortValues()[0]);
            System.out.println("获取坐标:" + location + ",时间:" + datadate + ",距离:" + geoDis + ",id:" + id);
        });
    }
}
2023-08-20 23:16:51.745  INFO 8624 --- [           main] c.s.elasticsearch.TestSearchDocument     : 开始搜索
2023-08-20 23:16:52.705  INFO 8624 --- [           main] c.s.elasticsearch.TestSearchDocument     : 结束搜索
2023-08-20 23:16:52.706  INFO 8624 --- [           main] c.s.elasticsearch.TestSearchDocument     : 检索结果数量为:1401

索引数据规模大概1124W,搜索大概只需1秒左右 还可以进一步优化
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值