elasticsearch-Hadoop中elasticsearch是数据源,hadoop作为执行引擎,也就是说数据存储其实还是由elasticsearch来掌管与hdfs无关,另外elasticsearch-hdfs已经停止更新,所以就不要再去尝试将elasticsearch中的index写到HDFS这档子事了。
在过去的几年的日志分析领域,开源搜索引擎Elasticsearch已经变得越来越流行。它与其开源的服务器端的日志收集产品Logstash,其开源可视化工具kibana一起组成了ELK分析组合。这个功能强大的组合正蓄势待发。
Elasticsearch是一个基于Lucene的分布式搜索服务器。它存储json格式的文档数据,有基于RESTful的操作接口。利用Elasticsearch可以方便的在任何Web应用中集成搜索应用。另外它更有出色的聚合功能(aggregation),能轻松的对数据进行统计分析 ,这一点上Elasticsearch已经超越了其最初的纯搜索引擎的角色,但是如果真正用它来做为复杂的数据分析工具,它能打败hadoop或spark吗?
Elasticsearch流行的原因
1. Elasticsearch集群实例很容易搭建。
2. 基于json格式的查询语言比开发Ma