spark es的新增索引值（地理空间坐标）

最新推荐文章于 2022-09-17 11:20:05 发布

IT但丁

最新推荐文章于 2022-09-17 11:20:05 发布

阅读量770

点赞数

分类专栏： Hadoop及存储组件文章标签： elasticsearch es spark

本文链接：https://blog.csdn.net/u010271601/article/details/108035395

版权

Hadoop及存储组件专栏收录该内容

1 篇文章 0 订阅

订阅专栏

一、新建Mapping

可以在Kibana中建好mapping，也可以在api中写好，执行程序的时候创建。
这里在Kibana已经创建好

PUT /realweather
{
    "mappings": {
        "properties": {
            "@timestamp": {
                "type": "date",
				"format": "yyyy-MM-dd HH:mm:ss"
            },
            "realtime": {
                "type": "date",
				"format": "yyyy-MM-dd HH:mm:ss"
            },
            "geometry": {
                "type": "geo_shape"
            },
            "tem": {
                "type": "integer",
               "index": false
            },
            "vis": {
                "type": "double",
               "index": false
            }
        }
    }
}

日期类型设定为“date”，并设定好日期的格式为"yyyy-MM-dd HH:mm:ss"
geometry存储的为网格，类型设定为“geo_shape”（polygon），在以坐标或网格检索的时候方便检索
“index”: false 意思是该字段不作为索引字段，默认为true

二、导入ES依赖

Java REST Client 有两种风格：

Java Low Level REST Client ：用于ES的低级客户端。它允许通过http与Elasticsearch集群通信。将请求编排和响应反编排留给用户自己处理。它兼容所有的Elasticsearch版本。
Java High Level REST Client ：用于ES的高级客户端。它提供很多API，并负责请求的编排与响应的反编排。使用需与ES版本保持一致。

就好比是，一个是传自己拼接好的字符串，并且自己解析返回的结果；
而另一个是传对象，返回的结果也已经封装好了直接是对象，更加规范了参数的名称以及格式，更加面向对象

这里使用的是高级API客户端

        <!-- ES -->
        <dependency>
            <groupId>org.elasticsearch.client</groupId>
            <artifactId>elasticsearch-rest-high-level-client</artifactId>
            <version>7.0.0</version>
        </dependency>

三、程序实现

1、创建spark入口、创建ES客户端

因为后续要使用spark ml算法库进行建模训练数据，所以我这里是使用spark程序来实现的，用java也是一样的。
注意地址要写对，端口要使用9200，因为使用的是http

import java.math.BigDecimal
import java.text.SimpleDateFormat

import com.google.gson.JsonObject
import org.apache.http.HttpHost
import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}
import org.elasticsearch.action.bulk.{BulkRequest, BulkResponse}
import org.elasticsearch.action.index.IndexRequest
import org.elasticsearch.client.{RequestOptions, RestClient, RestHighLevelClient}
import org.elasticsearch.common.settings.Settings
import org.elasticsearch.common.xcontent.{XContentBuilder, XContentFactory, XContentType}

object ParseRealWeather {
  def main(args: Array[String]): Unit = {
    val conf: SparkConf = new SparkConf()
      .setAppName(this.getClass.getSimpleName)
      .setMaster("local[*]")
    val sc = new SparkContext(conf)

	// 创建es的客户端
    val client = new RestHighLevelClient(RestClient.builder(new HttpHost("10.xx.xxx.xxx", 9200, "http"), new HttpHost
    ("10.xx.xxx.xxx", 9200, "http")))

2、读取数据，处理前几行头信息

 val lines: RDD[String] = sc.textFile("D:\\testzip\\roadweather\\202008140950.txt")
 
    val startArr: Array[String] = lines.take(5)
    
    val timeStr: String = startArr(0) + "00"
    val format1 = new SimpleDateFormat("yyyyMMddHHmmss")
    val weaTime: Long = format1.parse(timeStr).getTime
    
    val format2 = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss")
    // 格式化为 mapping中设定的日期格式
    val realTime: String = format2.format(weaTime)
    val latLon: Array[String] = startArr(1).split(" ")
    val latPos: Double = latLon(0).toDouble
    val lonPos: Double = latLon(1).toDouble

3、提取属性值

使用了BigDecimal来解决double类型的值，在做运算时，精度丢失的问题

// 处理的时候过滤掉前几行
    val dataRdd: RDD[String] = lines.filter(!startArr.contains(_))

    dataRdd.take(150).foreach(line => {
      //25_3651:["00029000.00000.00-0.100.119.900801007"]
      val lineArr: Array[String] = line.split(":")

      val tileLat: Int = lineArr(0).split("_")(0).toInt
      val tileLon: Int = lineArr(0).split("_")(1).toInt

	// 解决double类型缺失精度的问题
      val latPosBd = new BigDecimal(latPos.toString())
      val tileLatBd = new BigDecimal((tileLat * 0.01).toString())
      val lonPosBd = new BigDecimal(lonPos.toString())
      val tileLonBd = new BigDecimal((tileLon * 0.01).toString())
      val lat: Double = latPosBd.add(tileLatBd).doubleValue()
      val lon: Double = lonPosBd.add(tileLonBd).doubleValue()

      val tem: Int = lineArr(1).substring(4, 7).toInt
      val vis: Double = lineArr(1).substring(27, 32).toDouble

      val lonBd = new BigDecimal(lon.toString())
      val zzBd = new BigDecimal(0.01.toString())
      val latBd = new BigDecimal(lon.toString())
      val zaBd = new BigDecimal(0.01.toString())
      val finalLon: Double = lonBd.add(zzBd).doubleValue()
      val finalLat: Double = latBd.add(zaBd).doubleValue()

4、将坐标拼成WKT文本

使用的是POLYGON的格式
因为存储的是四边形网格，es中要求网格必须是封闭的，所以网格首尾坐标必须重合
有关WKT的介绍，请点击这里。

	// 拼接字符串
      val geometry: String = "POLYGON ((" + lat + " " + lon + "," + finalLat + " " + lon + "," + finalLat + "" +
        " " + finalLon + "," + lat + " " + finalLon + "," + lat + " " + lon + "))"

5、将属性拼接成对象

（1） XContentBuilder 形式

      val builder: XContentBuilder = XContentFactory.jsonBuilder()
        .startObject()
        .field("realtime", realTime)
        .field("geometry", geometry)
        .field("tem", tem)
        .field("vis", vis)
        .endObject()

	// 批量处理
      val request = new BulkRequest
      request.add(new IndexRequest("realweather").source(builder))
      val response: BulkResponse = client.bulk(request, RequestOptions.DEFAULT)
    })

（2）Gson的JsonObject 形式

使用gson的JsonObject，在source的时候，需要自己写tostring方法，因为没有toJsonString()方法

    val jsonObject = new JsonObject
          jsonObject.addProperty("realWeaTime", realWeaTime)
    jsonObject.addProperty("geometry", geometry)
    jsonObject.addProperty("tem", tem)
    jsonObject.addProperty("vis", vis)

	// 批量处理
      val request = new BulkRequest
      request.add(new IndexRequest("realweather").source(jsonObject.toString, XContentType.JSON))
      val response: BulkResponse = client.bulk(request, RequestOptions.DEFAULT)
    })

（3）fastJson的JSONObject 形式

使用fastJson的JSONObject，本身有toJsonString()方法,因为source中可以转换

    // 使用fastJson的JSONObject，本身有toJsonString()方法,因为source中可以转换
    val nObject1 = new JSONObject()
    nObject1.put("realWeaTime", realWeaTime)
    nObject1.put("geometry", geometry)
    nObject1.put("tem", tem)
    nObject1.put("vis", vis)

	// 批量处理
      val request = new BulkRequest
      request.add(new IndexRequest("realweather").source(nObject1 ))
      val response: BulkResponse = client.bulk(request, RequestOptions.DEFAULT)
    })

注意上面json对象的不同之处，否则在.source（）的时候，会报错：The number of object passed must be even but was [1]

6、关闭资源


    client.close()
    sc.stop()
  }
}

IT但丁

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
spark es的新增索引值（地理空间坐标）

目录一、新建Mapping二、导入ES依赖三、程序实现1、创建spark入口、创建ES客户端2、读取数据，处理前几行头信息3、提取属性值4、将坐标拼成WKT文本5、将属性拼接成对象（1） XContentBuilder 形式（2）Gson的JsonObject 形式（3）fastJson的JSONObject 形式6、关闭资源一、新建Mapping可以在Kibana中建好mapping，也可以在api中写好，执行程序的时候创建。这里在Kibana已经创建好PUT /realweather{
复制链接

扫一扫