通过ES-Hadoop实现Spark读写Elasticsearch数据

置顶

Cloud_Tech

于 2021-01-11 10:57:53 发布

阅读量1.6k

点赞数

分类专栏： Elasticsearch实践技巧文章标签： hadoop elasticsearch spark 大数据数据库

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_46396563/article/details/112463053

版权

本文展示了如何使用ES-Hadoop库在Spark中实现对Elasticsearch的数据读写操作，包括准备Elasticsearch和EMR实例、配置依赖、编写Java示例代码以及验证读写结果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

ES-Hadoop是Elasticsearch推出的专门用于对接Hadoop生态的工具，可以让数据在Elasticsearch和Hadoop之间双向移动，无缝衔接Elasticsearch与Hadoop服务，充分使用Elasticsearch的快速搜索及Hadoop批处理能力，实现交互式数据处理。本文介绍如何通过ES-Hadoop实现Hadoop的Hive服务读写Elasticsearch数据。

Spark是一种通用的大数据计算框架，拥有Hadoop MapReduce所具有的计算优点，能够通过内存缓存数据为大型数据集提供快速的迭代功能。与MapReduce相比，减少了中间数据读取磁盘的过程，进而提高了处理能力。本文介绍如何通过ES-Hadoop实现Hadoop的Spark服务读写Elasticsearch数据。

阿里云Elasticsearch兼容开源Elasticsearch的功能，以及Security、Machine Learning、Graph、APM等商业功能，致力于数据分析、数据搜索等场景服务。支持5.5.3、6.3.2、6.7.0、6.8.0和7.4.0等版本，并提供了商业插件X-Pack服务。在开源Elasticsearch的基础上提供企业级权限管控、安全监控告警、自动报表生成等功能。本文使用阿里云Elasticsearch为您演示，单击此处即可免费试用。

准备工作

创建阿里云Elasticsearch实例，并开启自动创建索引功能。

具体操作步骤请参见创建阿里云Elasticsearch实例和开启自动创建索引。本文以6.7.0版本的实例为例。
注意在生产环境中，建议关闭自动创建索引功能，提前创建好索引和Mapping。由于本文仅用于测试，因此开启了自动创建索引功能。
创建与Elasticsearch实例在同一专有网络下的E-MapReduce（以下简称EMR）实例。

实例配置如下：

产品版本：EMR-3.29.0
必选服务：Spark(2.4.5)，其他服务保持默认

具体操作步骤，请参见创建集群。

注意 Elasticsearch实例的私网访问白名单默认为0.0.0.0/0，您可在安全配置页面查看，如果未使用默认配置，您还需要在白名单中加入EMR集群的内网IP地址：
- 请参见查看集群列表与详情，获取EMR集群的内网IP地址。
- 请参见配置ES公网或私网访问白名单，配置Elasticsearch实例的VPC私网访问白名单。

最低0.47元/天解锁文章

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。