本文并不打算介绍elasticsearch-hadoop,其从2.1版本开始提供了内置 支持Apache elasticsearch-hadoop之前,我们需要引入依赖:
org.elasticsearch
elasticsearch-hadoop
2.3.4
为了方便,本文直接在spark-shell中操作ElasticSearch。在此之前,我们需要在$SPARK_HOME/conf/spark-default.conf文件中加入以下配置: spark.es.nodes www.iteblog.com
spark.es.port 9200
其中spark.es.nodes指定你es集群的机器列表,但是不需要把你集群所有的节点都列在里面;spark.es.port表示集群HTTP端口。之所以要加上spark前缀是因为elasticsearch-hadoop会把spark前缀去掉。
如果你直接将代码写入文件,那么你可以在初始化SparkContext之前设置好ElasticSearch相关的参数,如下: import org.apache.spark.SparkConf
val conf = new SparkConf().setAppName("iteblog").setMaster(master)
conf.set("es.nodes", "www.iteblog.com")
conf.set("es.port", "9200")
conf.set("es.index.auto.create", "true")
在写入数据之前,先导入org.elasticsearch.spark._包,这将使得所有的RDD拥有saveToEs方法。下面我将一一介绍将不同类型的数据写入ElasticSearch中。
将Map对象写入ElasticSearch scala> import org.elasticsearch.spark._
import org.elasticsearch.spark._
scala> val numbers = Map("one" -> 1, "two" -> 2, "three" -> 3)
numbers: scala.collection.immutable.Map[String,Int] = Map(one -> 1, two -> 2, three -> 3)
scala> val airports = Map("OTP" -> "Otopeni", "SFO" -> "San Fran")
airports: scala.collection.immutable.Map[String,String] = Map(OTP -> Otopeni, SFO -> San Fran)
scala> sc.makeRDD(Seq(numbers, airports)).saveToEs("iteblog/docs")
上面构建了两个Map对象,然后将它们写入到ElasticSearch中;其中saveToEs里面参数的iteblog表示索引(indexes),而docs表示type。然后我们可以通过下面URL查看iteblog这个index的属性: curl -XGET :9200/iteblog
{
"iteblog": {
"aliases": { },
"mappings": {
"docs": {
"properties": {
"SFO": {
"type": "string"
},
"arrival": { </