通过ES-Hadoop实现Hive读写Elasticsearch数据

最新推荐文章于 2024-01-28 14:33:10 发布

置顶

Cloud_Tech

最新推荐文章于 2024-01-28 14:33:10 发布

阅读量2k

点赞数 1

分类专栏： Elasticsearch实践技巧文章标签： elasticsearch hadoop hive 大数据数据库

本文链接：https://blog.csdn.net/qq_46396563/article/details/108884278

版权

ES-Hadoop是Elasticsearch推出的专门用于对接Hadoop生态的工具，可以让数据在Elasticsearch和Hadoop之间双向移动，无缝衔接Elasticsearch与Hadoop服务，充分使用Elasticsearch的快速搜索及Hadoop批处理能力，实现交互式数据处理。本文介绍如何通过ES-Hadoop实现Hadoop的Hive服务读写Elasticsearch数据。

Hadoop生态的优势是处理大规模数据集，但是其缺点也很明显，就是当用于交互式分析时，查询时延会比较长。而Elasticsearch擅长于交互式分析，对于很多查询类型，特别是对于Ad-hoc查询（即席查询），可以达到秒级。ES-Hadoop的推出提供了一种组合两者优势的可能性。使用ES-Hadoop，您只需要对代码进行很小的改动，即可快速处理存储在Elasticsearch中的数据，并且能够享受到Elasticsearch带来的加速效果。

ES-Hadoop的原理是将Elasticsearch作为MR、Spark或Hive等数据处理引擎的数据源，在计算存储分离的架构中扮演存储的角色。这和 MR、Spark或Hive的数据源并无差异，但相对于这些数据源，Elasticsearch具有更快的数据选择过滤能力。这种能力正是分析引擎最为关键的能力之一。

在这里插入图片描述

阿里云Elasticsearch兼容开源Elasticsearch的功能，以及Security、Machine Learning、Graph、APM等商业功能，致力于数据分析、数据搜索等场景服务。支持5.5.3、6.3.2、6.7.0、6.8.0和7.4.0等版本，并提供了商业插件X-Pack服务。在开源Elasticsearch的基础上提供企业级权限管控、安全监控告警、自动报表生成等功能。本文使用阿里云Elasticsearch为您演示，单击此处即可免费试用。

操作流程

准备工作

创建同一专有网络下的阿里云Elasticsearch和E-MapReduce（以下简称EMR）实例、关闭Elasticsearch实例的自动创建索引功能并创建索引和Mapping、下载与Elasticsearch实例版本一致的ES-Hadoop安装包。
[步骤一：上传ES-Hadoop JAR包至HDFS](#步骤一：上传ES-Hadoop JAR包至HDFS)

将已下载的ES-Hadoop安装包上传至EMR Master节点的HDFS目录下。
步骤二：创建Hive外表

创建Hive外表，与

最低0.47元/天解锁文章

Cloud_Tech

关注

1
点赞
踩
17

收藏

觉得还不错? 一键收藏
4
评论
通过ES-Hadoop实现Hive读写Elasticsearch数据

ES-Hadoop是Elasticsearch推出的专门用于对接Hadoop生态的工具，可以让数据在Elasticsearch和Hadoop之间双向移动，无缝衔接Elasticsearch与Hadoop服务，充分使用Elasticsearch的快速搜索及Hadoop批处理能力，实现交互式数据处理。本文介绍如何通过ES-Hadoop实现Hadoop的Hive服务读写Elasticsearch数据。Hadoop生态的优势是处理大规模数据集，但是其缺点也很明显，就是当用于交互式分析时，查询时延会比较长。而Ela
复制链接

扫一扫