阿里云EMR集群搭建及使用

q495673918

已于 2025-03-19 14:45:17 修改

阅读量4.8k

点赞数 3

分类专栏：阿里云文章标签： hadoop 阿里云大数据

于 2023-03-09 17:27:13 首次发布

本文链接：https://blog.csdn.net/q495673918/article/details/129427312

版权

EMR是阿里云上的大数据处理系统，基于Hadoop和Spark，提供成本优化、高性能、易用性和高可用性。用户可以创建和管理EMR集群，配置软件和硬件，设置安全策略，并通过监控告警确保集群稳定。此外，文章还讨论了EMR与自建Hadoop集群的对比，以及如何解决使用过程中遇到的问题，如EMR-cli的报错和Spark任务的线程限制。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.ecs部署了emr-cli,然后使用spark的时候会报错，但是在emr管理的机器上启动没这个问题

1.简介

1.什么是EMR

EMR是运行在阿里云平台上的一种大数据处理的系统解决方案。可以简单的理解为一个对标ambari的产品。EMR构建于云服务器ECS上，基于开源的Apache Hadoop和Apache Spark。可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理数据。EMR提供on ECS和on ACK两种方式，on ACK指的是容器化。

2.组成

E-MapReduce的核心是集群。E-MapReduce集群是由一个或多个阿里云ECS实例组成的Hadoop、Flink、Druid、ZooKeeper集群。以Hadoop为例，每个ECS 实例上通常都运行了一些daemon进程（例如，NameNode、DataNode、ResouceManager和NodeManager），这些daemon进程共同组成了Hadoop集群。

Master节点，部署了Hadoop的主节点服务，包括HDFS NameNode、HDFS JournalNode、ZooKeeper、YARN ResourceManager和HBase HMaster等服务，可以根据集群的使用场景，选择高可用集群或非高可用集群。测试环境可以选择非高可用集群，生产环境建议选择高可用集群。高可用集群可以选择2个或3个Master节点，当选择2个Master节点时，HDFS JournalNode和ZooKeeper会部署在Core的emr-worker-1节点。生产环境建议创建高可用集群时选择3个Master节点。
Core节点，部署了HDFS DataNode和YARN Nodemanager，用于HDFS数据的存储和YARN的计算，不可以弹性伸缩。
Task节点，部署了YARN NodeManager，用于YARN计算，可以通过弹性伸缩的方式灵活扩容或缩容。
Gateway集群，部署了Hadoop的客户端文件，您可以通过Gateway提交作业，避免直接登录集群产生的安全和客户端环境隔离问题。您需要先创建Hadoop集群，然后创建Gateway集群关联至Hadoop集群。

3.与自建hadoop集群对比

对比项	阿里云EMR	自建Hadoop集群
成本	支持按量和包年包月付费方式，集群资源支持灵活调整，数据分层存储，资源使用率高。无额外软件License费用。	需提前预估资源，且资源相对固定，资源使用率低。采用Hadoop发行版，需额外支付License费用。
性能	较开源版本性能大幅提升。	采用开源社区版本，性能需自行优化。
易用性	分钟级别启动Hadoop集群，敏捷响应业务需求。	采购服务器，部署Hadoop生态组件，周期长达数周。
弹性	可根据作业临时启动和销毁集群。集群资源可根据时间周期或集群负载动态自动调整。基于JindoFS计算存储分离架构，轻松分别扩展计算和存储资源。	计算和存储耦合，资源相对固定，无法弹性调整资源。
安全	支持企业级多租户资源管理，支持对表、列、行级别的权限控制和日志审计，支持数据加密。	多租户管理能力需自行配置，能力不完善，无法满足企业级需求。
可靠	大规模、企业级环境的检验，随开源版本升级，并经过专业的兼容性验证测试，提供优于社区版本的使用体验。	需自行更新和升级开源版本，验证各组件版本兼容性，自行修复社区bug。
服务	专业和资深大数据专家技术服务团队提供售后支持。	社区版本无服务支持，Hadoop发行版，需额外支付License和服务费用。