项目实战从0到1之Spark（5）Spark整合Elasticsearch-从ES读取数据

最新推荐文章于 2024-01-20 12:58:01 发布

weixin_42254293

最新推荐文章于 2024-01-20 12:58:01 发布

阅读量567

点赞数

文章标签： elasticsearch spark big data

原文链接：https://www.cnblogs.com/huanghanyu/p/13633939.html

版权

项目实战从0到1之Spark（5）Spark整合Elasticsearch-从ES读取数据
阅读目录

代码：

由于ES集群在拉取数据时可以提供过滤功能，因此在采用ES集群作为spark运算时的数据来源时，
根据过滤条件在拉取的源头就可以过滤了（ES提供过滤），就不必像从hdfs那样必须全部加载进spark的内存根据filter算子过滤，费时费力。

回到顶部
代码：
复制代码
import org.apache.spark.{SparkConf, SparkContext}
import org.elasticsearch.spark._
object Spark2Elasticsearch {
def main(args: Array[String]): Unit = {
val conf =new SparkConf().setAppName(“Spark2ES”).setMaster(“local[2]”)
conf.set(“es.nodes”,“hadoop1,hadoop2,hadoop3”)
conf.set(“es.port”,“9200”)
conf.set(“es.index.auto.create”,“true”)
val sc =new SparkContext(conf)
val query:String =s"""{
“query” : {
“match_all” : {}
},
“filter” : {
“term” : {
“price” : 50.55
}
}
}"""
val rdd = sc.esRDD(“store”, query)
println(rdd.collect().toBuffer)
}
}
复制代码
clipboard.png

运行结果：

clipboard.png

采坑点：
那个sc.esRDD方法其实是ES提供的jar包里的一个隐试转换，在import org.elasticsearch.spark._这个包下，
配置mavin依赖时注意spark的配套版本，本文1.6的spark依赖如下：

clipboard.png

分类: 离线数据仓库

weixin_42254293

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
项目实战从0到1之Spark（5）Spark整合Elasticsearch-从ES读取数据

项目实战从0到1之Spark（5）Spark整合Elasticsearch-从ES读取数据阅读目录代码：由于ES集群在拉取数据时可以提供过滤功能，因此在采用ES集群作为spark运算时的数据来源时，根据过滤条件在拉取的源头就可以过滤了（ES提供过滤），就不必像从hdfs那样必须全部加载进spark的内存根据filter算子过滤，费时费力。回到顶部代码：复制代码import org.apache.spark.{SparkConf, SparkContext}import org.elasti
复制链接

扫一扫