elasticsearch+spark+hbase 整合

  1.用到的maven依赖

     

       <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-hive_2.11</artifactId>
            <version>1.6.1</version>
        </dependency>

        <dependency>
            <groupId>org.elasticsearch</groupId>
            <artifactId>elasticsearch-hadoop</artifactId>
            <version>2.4.0</version>
        </dependency>

  注意:上面两个依赖的顺序不能换,否则编译代码的Scala版本会变成 2.10(这是因为maven顺序加载pom中的依赖jar),会导致下述问题:

      

15/05/26 21:33:24 INFO cluster.SparkDeploySchedulerBackend: SchedulerBackend is ready for scheduling beginning after reached minRegisteredResourcesRatio: 0.0  
Exception in thread "main" java.lang.NoSuchMethodError: scala.Predef$.ArrowAssoc(Ljava/lang/Object;)Ljava/lang/Object;  
    at stream.tan14.cn.streamTest$.main(streamTest.scala:25)  
    at stream.tan14.cn.streamTest.main(streamTest.scala)  
    at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)  
    at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57)  
    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)  
    at java.lang.reflect.Method.invoke(Method.java:606)  
    at org.apache.spark.deploy.SparkSubmit$.launch(SparkSubmit.scala:328)  
    at org.apache.spark.deploy.SparkSubmit$.main(SparkSubmit.scala:75)  
    at org.apache.spark.deploy.SparkSubmit.main(SparkSubmit.scala)  

 

2、spark和elasticsearch 整合查询接口

   1)参考地址 :

         https://www.elastic.co/guide/en/elasticsearch/reference/2.4/query-dsl.html

         https://www.elastic.co/guide/en/elasticsearch/hadoop/2.4/spark.html#spark-installation

   2)接口代码:

     

 val query =
      """{
          "query": {
            "bool": {
              "must": [{
                "range":{
                  "updatetime": {
                    "gte": ""
                  }
                }
              }]
            }
          }
        }"""

// 上述query用于过滤es数据,如果没有添加这一项,直接用spark的dataframe 过滤,性能会受到很大的影响!!
val options = Map("es.nodes" -> ES_URL, "es.port" -> ES_PORT, "es.query" -> query) ctx.read.format("org.elasticsearch.spark.sql").options(options).load("index/type").registerTempTable("test")

 

转载于:https://www.cnblogs.com/RichardYD/p/6282775.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值