elasticsearch 与 hive集成

本文介绍了如何将ElasticSearch与Hive集成,以实现对HDFS上大数据的实时搜索。通过Flume收集日志数据,存储到HDFS和ElasticSearch,借助ElasticSearch的接口实现数据可视化。在Hive中创建原数据表和元数据视图,使用ElasticSearch-Hadoop的jar包进行集成,支持各种Hadoop版本。
摘要由CSDN通过智能技术生成

ElasticSearch是一个基于Lucene构建的开源,分布式,RESTful搜索引擎。设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。


hive是一个基于hdfs的数据仓库,方便使用者可以通过一种类sql(HiveQL)的语言对hdfs上面的打数据进行访问通过elasticsearch与hive的结合来实现对hdfs上面的数据实时访问的效果。

在上面的图中描述了日志通过Flume Collector 流到Sink 然后进入hdfs和elastic search,然后可以通过es的接口可以实时将一些趋势 比如当前用户数 请求次数等展示在图表中实现数据可视化。



要作集成需要在hive上有两个表,一个是原数据表,另外一个类似于在元数据表上面建立的view,但是并不是数据的存储  下面是作者Costin Leau在邮件列表里边的描述,网址http://elasticsearch-users.115913.n3.nabble.com/Elasticsearch-Hadoop-td4047293.html


There is no duplication per-se in HDFS. Hive tables are just 'views' of data - one sits unindexed, in raw format in HDFS
the other one is indexed and analyzed in Elasticsearch.

You can't combine the two since they are completely different things - one is a file-system, the other one is a search
and analytics engine.
首先 我们要获得elasticsearc-hadoop的jar包,可以通过maven方式取得:


<dependency>
  <groupId>org.elasticsearch</groupId>
  <artifactId>elasticsearch-hadoop</artifactId>
  <version>2.0.1</version>
</dependency>

这个地址是elasticsearch-hadoop的github地址:https://github.com/elasticsearch/elasticsearch-hadoop#readme

目前最新的版本是2.0.1 这个版本能支持目前所有的hadoop衍生版本。


取得这个jar包之后,可以将其拷贝到hive的lib目录中,然后以如下方式打开hive命令窗口:

<span style="font-size:18px;">bin/hive  -hiveconf hive.aux.jars.path=/home/hadoop/hive/lib/elasticsearch-hadoop-2.0.1.jar</span>
这个也可以写在hive的配置文件中


建立view表

<span style="font-size:18px;">CREATE EXTERNAL TABLE user  (id INT, name STRING)   
STORED BY 'org.elasticsearch.hadoop.hive.ESStorageHandler' 
TBLPROPERTIES('es.resource' = 'radiott/artiststt','es.index.auto.create' = 'true');</span>

es.resource的radiott/artiststt分别是索引名和索引的类型,这个是在es访问数据时候使用的。

然后建立源数据表

CREATE TABLE user_source  (id INT, name STRING) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',';    

数据示例:

1,medcl
2,lcdem
3,tom
4,jack
将数据导入到user_source表中:

 LOAD DATA LOCAL INPATH '/home/hadoop/files1.txt' OVERWRITE INTO TABLE <span style="font-size:18px;">user_source</span>;

hive> select * from user_source; 
OK
1	medcl
2	lcdem
3	tom
4	jack
Time taken: 3.4 seconds, Fetched: 4 row(s)

将数据导入到user表中:

INSERT OVERWRITE TABLE user  SELECT s.id, s.name FROM user_source s;
hive> INSERT OVERWRITE TABLE user  SELECT s.id, s.name FROM user_source s;
Total MapReduce jobs = 1
Launching Job 1 out of 1
Number of reduce tasks is set to 0 since there's no reduce operator
Starting Job = job_1412756024135_0007, Tracking URL = N/A
Kill Command = /home/hadoop/hadoop/bin/hadoop job  -kill job_1412756024135_0007
Hadoop job information for Stage-0: number of mappers: 1; number of reducers: 0
2014-10-08 17:44:04,121 Stage-0 map = 0%,  reduce = 0%
2014-10-08 17:45:04,360 Stage-0 map = 0%,  reduce = 0%, Cumulative CPU 1.21 sec
2014-10-08 17:45:05,505 Stage-0 map = 0%,  reduce = 0%, Cumulative CPU 1.21 sec
2014-10-08 17:45:06,707 Stage-0 map = 100%,  reduce = 0%, Cumulative CPU 1.29 sec
2014-10-08 17:45:07,728 Stage-0 map = 100%,  reduce = 0%, Cumulative CPU 1.29 sec
2014-10-08 17:45:08,757 Stage-0 map = 100%,  reduce = 0%, Cumulative CPU 1.29 sec
2014-10-08 17:45:09,778 Stage-0 map = 100%,  reduce = 0%, Cumulative CPU 1.29 sec
2014-10-08 17:45:10,800 Stage-0 map = 100%,  reduce = 0%, Cumulative CPU 1.29 sec
2014-10-08 17:45:11,915 Stage-0 map = 100%,  reduce = 0%, Cumulative CPU 1.29 sec
2014-10-08 17:45:12,969 Stage-0 map = 100%,  reduce = 0%, Cumulative CPU 1.42 sec
2014-10-08 17:45:14,231 Stage-0 map = 100%,  reduce = 0%, Cumulative CPU 1.42 sec
2014-10-08 17:45:15,258 Stage-0 map = 100%,  reduce = 0%, Cumulative CPU 1.42 sec
2014-10-08 17:45:16,300 Stage-0 map = 100%,  reduce = 0%, Cumulative CPU 1.42 sec
2014-10-08 17:45:17,326 Stage-0 map = 100%,  reduce = 0%, Cumulative CPU 1.42 sec
2014-10-08 17:45:18,352 Stage-0 map = 100%,  reduce = 0%, Cumulative CPU 1.42 sec
2014-10-08 17:45:19,374 Stage-0 map = 100%,  reduce = 0%, Cumulative CPU 1.42 sec
2014-10-08 17:45:20,396 Stage-0 map = 100%,  reduce = 0%, Cumulative CPU 1.42 sec
2014-10-08 17:45:21,423 Stage-0 map = 100%,  reduce = 0%, Cumulative CPU 1.42 sec
2014-10-08 17:45:22,447 Stage-0 map = 100%,  reduce = 0%, Cumulative CPU 1.42 sec
2014-10-08 17:45:23,475 Stage-0 map = 100%,  reduce = 0%, Cumulative CPU 1.42 sec
MapReduce Tota
### 回答1: Confluent Platform是一个开源的分布式流处理平台,基于Apache Kafka。它提供了一套完整的工具和组件,可以帮助用户构建可扩展、高性能的实时数据集成和流处理应用程序。 Elasticsearch(简称ES)是一个高效的分布式搜索和分析引擎,用于实时地索引和搜索大规模的数据集。 在将Confluent Platform与Elasticsearch集成时,可以使用Kafka Connect插件实现数据的实时同步。Kafka Connect是一种可插拔的框架,可以实现数据源与数据目标之间的连接和数据传输。 要将Confluent Platform与Hive集成,首先需要安装Kafka Connect的Hive插件。该插件可在Kafka Connect的插件目录中找到并进行安装。安装完成后,需要进行一些配置和设置,包括连接到Hive的认证凭据、数据库连接信息等。 一旦Kafka Connect的Hive插件配置完毕,就可以使用Kafka Connect的Hive连接器将数据从Kafka主题实时地同步到Hive表中。连接器会监控Kafka主题中的数据变化,并将新增、更新或删除的数据实时地写入到Hive表中。同时,连接器还支持根据需要进行数据转换和映射,以适应Hive表的结构和模式。 通过将Confluent Platform与ElasticsearchHive集成,可以实现流处理和实时数据同步的功能。这样,用户可以从Kafka主题中读取和处理实时数据,并将其同步到ElasticsearchHive中,以进行更深入的搜索、分析和查询。同时,这种集成还提供了可扩展的、高性能的数据流处理解决方案,满足了实时数据集成和分析的需求。 ### 回答2: 在将Confluent平台和Elasticsearch(ES)进行同步至Hive的过程中,我们需要使用Kafka Connect来实现这个目标。Kafka Connect是一个可扩展的框架,可以用于将各种数据源连接到Kafka集群,并进行数据的传输和转换。 首先,我们需要在Confluent平台上配置Kafka Connect,以便能够连接到ElasticsearchHive。这可以通过修改Kafka Connect的配置文件来实现。我们需要指定ElasticsearchHive的连接信息,例如主机名、端口和凭证等。 一旦配置完成,我们可以创建一个Kafka Connect任务,它将负责将Elasticsearch中的数据流式传输到Hive中。任务的配置文件将包含从Elasticsearch读取数据的配置和将数据写入Hive的配置。我们可以指定要同步的索引、类型和查询条件,以及Hive表的结构和位置。 当任务启动后,Kafka Connect将会从Elasticsearch中读取数据,并将其转换为适合Hive表的格式。然后,它会将数据写入Hive表,从而实现数据的同步。我们可以使用Kafka Connect的监控工具来跟踪任务的进展和性能。 需要注意的是,在进行同步之前,我们必须确保ElasticsearchHive之间的数据结构兼容。如果两者之间存在字段不匹配或数据类型不兼容等问题,我们需要在同步过程中进行数据转换或清洗。 总结起来,将Confluent平台和Elasticsearch同步至Hive的过程中,我们需要使用Kafka Connect来连接两者,并配置合适的参数。然后,创建一个Kafka Connect任务,将Elasticsearch中的数据转换为Hive表的格式,并实现数据的传输和同步。这样,我们可以在Hive中使用Confluent平台和Elasticsearch中的数据进行分析和查询。 ### 回答3: Confluent Platform是一个开源的实时流数据平台,其中包括了Kafka,一个分布式流处理平台。而Elasticsearch(简称ES)是一个分布式全文搜索和分析引擎。Hive是一个基于Hadoop的数据仓库工具。 要将Confluent Platform中的数据同步至Hive,可以采用以下步骤: 1. 创建Hive表:首先,需要在Hive中创建一个表来存储从Confluent Platform中同步的数据。可以使用Hive的建表语句来定义表的结构和类型。 2. 连接Kafka和ES:借助Confluent Platform的Kafka Connect功能,可以轻松地将Kafka和ES连接起来。Kafka Connect是Kafka的一个插件,它提供了连接Kafka和其他数据存储系统的功能。 3. 配置Kafka Connect:配置Kafka Connect的连接器,使其能够将Kafka中的数据发送到ES。可以通过编辑Kafka Connect配置文件来指定连接器的配置参数,如Kafka主题、ES索引和类型等。 4. 启动Kafka Connect:启动Kafka Connect,让其开始从Kafka中读取数据,并将数据写入ES。可以使用命令行工具来启动Kafka Connect。 5. 配置Hive和ES连接:在Hive中配置ES连接,以便可以从ES中读取数据。可以使用Hive的插件或者自定义函数来实现与ES的交互。 6. 创建数据管道:在Hive中创建一个数据管道,将从ES读取的数据导入Hive表中。可以使用Hive的INSERT INTO语句来将数据从ES插入到Hive表中。 通过以上步骤,就可以将Confluent Platform中的数据同步至Hive。数据会从Kafka通过Kafka Connect传输到ES,然后通过Hive和ES的连接,将数据导入到Hive表中。这样就实现了数据的同步和迁移。同时,可以根据具体需求进行调整和优化,以满足业务的实时数据处理和分析需求。
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值