java spark es_使用Apache Spark将数据写入ElasticSearch

本文并不打算介绍elasticsearch-hadoop,其从2.1版本开始提供了内置 支持Apache elasticsearch-hadoop之前,我们需要引入依赖:

org.elasticsearch

elasticsearch-hadoop

2.3.4

为了方便,本文直接在spark-shell中操作ElasticSearch。在此之前,我们需要在$SPARK_HOME/conf/spark-default.conf文件中加入以下配置: spark.es.nodes  www.iteblog.com

spark.es.port  9200

其中spark.es.nodes指定你es集群的机器列表,但是不需要把你集群所有的节点都列在里面;spark.es.port表示集群HTTP端口。之所以要加上spark前缀是因为elasticsearch-hadoop会把spark前缀去掉。

如果你直接将代码写入文件,那么你可以在初始化SparkContext之前设置好ElasticSearch相关的参数,如下: import org.apache.spark.SparkConf

val conf = new SparkConf().setAppName("iteblog").setMaster(master)

conf.set("es.nodes", "www.iteblog.com")

conf.set("es.port", "9200")

conf.set("es.index.auto.create", "true")

在写入数据之前,先导入org.elasticsearch.spark._包,这将使得所有的RDD拥有saveToEs方法。下面我将一一介绍将不同类型的数据写入ElasticSearch中。

将Map对象写入ElasticSearch scala> import org.elasticsearch.spark._

import org.elasticsearch.spark._

scala> val numbers = Map("one" -> 1, "two" -> 2, "three" -> 3)

numbers: scala.collection.immutable.Map[String,Int] = Map(one -> 1, two -> 2, three -> 3)

scala> val airports = Map("OTP" -> "Otopeni", "SFO" -> "San Fran")

airports: scala.collection.immutable.Map[String,String] = Map(OTP -> Otopeni, SFO -> San Fran)

scala> sc.makeRDD(Seq(numbers, airports)).saveToEs("iteblog/docs")

上面构建了两个Map对象,然后将它们写入到ElasticSearch中;其中saveToEs里面参数的iteblog表示索引(indexes),而docs表示type。然后我们可以通过下面URL查看iteblog这个index的属性: curl -XGET :9200/iteblog

{

"iteblog": {

"aliases": { },

"mappings": {

"docs": {

"properties": {

"SFO": {

"type": "string"

},

"arrival": { </

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值