Hive数据写入ES，处理经纬度范围查询

最新推荐文章于 2024-06-19 00:15:00 发布

꧁꫞ND꫞꧂

最新推荐文章于 2024-06-19 00:15:00 发布

阅读量1.3k

点赞数

分类专栏： # elk

本文链接：https://blog.csdn.net/Baron_ND/article/details/103025793

版权

本文介绍如何利用Hive将数据写入Elasticsearch（ES），特别是在涉及经纬度查询的情况下。通过构造合适的querybuilder实现范围查询，以及如何获取特定范围内的数据和具体值，以适应大数据处理需求。

摘要由CSDN通过智能技术生成

使用ES的初衷就是快速检索，他的默认输出数据是一万条，并不适合大数据的处理计算。要是需要导出或者将取出的数据再做二次处理的话，就需要换组件。

首先需要将hive中的数据写入ES，要是涉及到经纬度，需要lat,lng的格式放到location字段里面。

import org.apache.spark.rdd.RDD
import org.apache.spark.sql.{Row, SparkSession}
import org.elasticsearch.spark.rdd.EsSpark

/**
  * Created by yinyi on 2019/9/3.
  */

object BigWide_V2{
  def main(args: Array[String]) {
  val spark = SparkSession
  .builder()
  .appName("TestES")
  .config("spark.sql.warehouse.dir", Utils.HIVEWAREHOUSELOCATION)
  .config("es.nodes", "10.0.4.67 ,0.0.4.235,0.0.4.161,0.0.4.90 ,0.0.4.111") //es的节点，多个用逗号分隔
  .config("es.index.auto.create", "true") //开启自动创建索引
  .config("index.refresh_interval", "-1") //设置为-1以禁用刷新
  .config("es.nodes",Utils.HOST_ES) //es的节点，多个用逗号分隔
  //      .config("es.write.operation","upsert")//表示如果id重复就更新数据；
  .config("es.mapping.date.rich","false")
  .config("spark.sql.shuffle.partitions","6000")
  .enableHiveSupport()
  .getOrCreate()

  

    val los = spark.sql("select name,mobile ,province,city,county,concat_ws(',',nvl(lat,'0.0'),nvl(lng,'0.0')) as location,child_english_label," +
      " chusan_gaosan_label,vippl_label,xinyongka_label,cos_med_label,age_label,sex_label,edu_label," +
      " marry_status_label,income_level_label,consume_level_label,month_consume_pinci_label " +
      " from  precisionmarketing.result_190905_sugang_jingqing_big_wide_label "+
      " where mobile                   rlike '^1[3456789]\\\\d{9}$'   " +
      " and lng >-180    and lng<180 and lat>-90 and lat<90         " +
      "").rdd


    //lter