Spark读取ElasticSearch数据库三种配置方式及其注意事项

最新推荐文章于 2024-07-31 15:54:40 发布

aifen4802

最新推荐文章于 2024-07-31 15:54:40 发布

阅读量382

点赞数

文章标签：数据库大数据

原文链接：http://www.cnblogs.com/langeraa/p/10908418.html

版权

******重点中的重点，这是首先要注意的问题：

就是导入的org.elasticsearch.elasticsearch-spark-20_2.11 Jar包的版本一定要和要读取的ES数据库的版本保持一致，

如果比数据库版本低，会直接报错，如果高于数据库的版本，数据的解析会出现问题。

首先配置SparkConf

1         SparkConf conf = new SparkConf()
2                 .setAppName("ElasticSearch-spark")
3                 .setMaster("local[1]")
4                 .set("es.es.index.auto.create", "true")
5 
6                 .set("es.nodes","127.0.0.1")
7                 .set("es.port","9200")
8                 .set("es.nodes.wan.only", "true");

第一种读取方式：

1         SparkSession sparkSession = SparkSession.builder().config(conf).getOrCreate();
2         JavaSparkContext jsc = new JavaSparkContext(sparkSession.sparkContext());//adapter
3         JavaRDD<Map<String, Object>> searchRdd = esRDD(jsc, "index" ).values();
4         for (Map<String, Object> item : searchRdd.collect()) {
5             item.forEach((key, value)->{
6                 System.out.println("search key:" + key + ", search value:" + value);
7             });
8         }

第二种读取方式：

1         JavaSparkContext sc = new JavaSparkContext(conf);
2         JavaPairRDD<String, Map<String, Object>> esRDD = JavaEsSpark.esRDD(sc, "index");
3         System.out.println(esRDD.count());
4         System.out.println(esRDD.collect().toString());
5         for(Tuple2 tuple:esRDD.collect()){
6             System.out.print(tuple._1()+"----------");
7             System.out.println(tuple._2());
8         }

第三种读取方式：

1         SparkSession spark = SparkSession.builder().config(conf).getOrCreate();
2         Dataset<Row> a  = spark
3                 .read()
4                 .format("es")
5                 .load("index")
6                 ;
7         System.out.println(a.schema());
8         a.show();