Enable HTTPS for YARN and MAPREDUCE2

Short Description:
Steps to enable HTTPS for YARN and MAPREDUCE2
Article

1. As a first step, enable HTTPS for HDFS, you can follow the article https://community.hortonworks.com/articles/52875/enable-https-for-hdfs.html

2. Add/Update below configurations in "Custom mapred-site" mapred-site.xml

 
 
  1. mapreduce.jobhistory.http.policy=HTTPS_ONLY
  2. mapreduce.jobhistory.webapp.https.address=<JHS>:<JHS_HTTPS_PORT>
  3. mapreduce.ssl.enabled=true
  4. mapreduce.shuffle.ssl.enabled=true
  5.  
  6. Ex: mapreduce.jobhistory.webapp.https.address=apappu-hdp234-2.openstacklocal:19889

3. Add/update below configurations under "Advanced yarn-site" ( yarn-site.xml)

 
 
  1. yarn.http.policy=HTTPS_ONLY
  2. yarn.log.server.url=https://JHS:JHS_HTTPS_PORT/jobhistory/logs
  3. yarn.resourcemanager.webapp.https.address=RM:RM_HTTPS_PORT
  4. yarn.nodemanager.webapp.https.address=0.0.0.0:NM_HTTPS_PORT
  5.  
  6. Ex:
  7. yarn.log.server.url=https://apappu-hdp234-2.ambari.org:19889/jobhistory/logs
  8. yarn.resourcemanager.webapp.https.address=apappu-hdp234-2.ambari.org:8090
  9. yarn.nodemanager.webapp.https.address=0.0.0.0:8042

4. Add/update below property in hdfs-site (hdfs-site.xml) under HDFS service.

 
 
  1. dfs.https.enable=true

5. Restart HDFS, YARN, MAPREDUCE services

6. should be able to access the URLs now,

YARN: https://HT_HOST:19889/

MAPREDUCE:https://YARN-RM-HOST:19889/jobhistory

More articles

*. To enable HTTPS for HBASE - https://community.hortonworks.com/articles/51165/enable-httpsssl-for-hbase-master-ui.html

<think>嗯,用户让我介绍一下Hadoop大数据配置YARN的相关内容。首先,我需要确定用户对Hadoop和YARN的了解程度。可能他们已经有了一些基础,但需要具体的配置指导。YARN作为资源管理框架,配置起来可能涉及多个配置文件,比如yarn-site.xml、mapred-site.xml等。我需要回忆这些文件中的关键参数,比如资源管理器的地址、内存和CPU的配置。 接下来,用户可能需要知道配置的具体步骤,比如修改哪些文件,如何调整参数。例如,yarn.nodemanager.resource.memory-mb和yarn.scheduler.maximum-allocation-mb这些内存设置,以及虚拟核的相关配置。同时,MapReduce的配置部分也不能忽略,比如指定使用YARN作为调度器。 还要考虑用户的集群环境,是单节点还是多节点?配置时是否需要同步到所有节点?可能需要提醒用户检查防火墙设置,确保节点之间通信正常。另外,启动和测试的步骤也很重要,比如重启YARN服务,运行示例作业来验证配置是否正确。 用户可能遇到的问题包括配置参数错误、端口冲突或者资源分配不足,需要给出常见问题及解决方法。例如,如果作业无法运行,检查日志或资源分配参数是否合理。最后,强调配置后的监控和管理,比如Web界面和日志分析,帮助用户维护集群稳定运行。</think>好的,我将为您逐步讲解Hadoop YARN的核心配置要点。以下是结构化说明: # 一、YARN架构回顾 YARN(Yet Another Resource Negotiator)由三大核心组件构成: 1. **ResourceManager (RM)**:全局资源调度器 2. **NodeManager (NM)**:单节点资源代理 3. **ApplicationMaster (AM)**:应用级任务协调器 # 二、关键配置文件 需修改以下文件(路径:`$HADOOP_HOME/etc/hadoop/`): ## 1. yarn-site.xml ```xml <!-- 资源管理器地址 --> <property> <name>yarn.resourcemanager.hostname</name> <value>master-node</value> </property> <!-- 节点内存资源 --> <property> <name>yarn.nodemanager.resource.memory-mb</name> <value>8192</value> <!-- 单节点可用内存 --> </property> <!-- 虚拟核数 --> <property> <name>yarn.nodemanager.resource.cpu-vcores</name> <value>8</value> <!-- 物理核心数×超线程系数 --> </property> <!-- 启用日志聚合 --> <property> <name>yarn.log-aggregation-enable</name> <value>true</value> </property> ``` ## 2. mapred-site.xml ```xml <!-- 指定使用YARN框架 --> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> <!-- 设置任务内存限制 --> <property> <name>mapreduce.map.memory.mb</name> <value>2048</value> <!-- 单个Map任务内存 --> </property> ``` # 三、高级参数调优 ```xml <!-- 容器内存分配策略 --> <property> <name>yarn.scheduler.minimum-allocation-mb</name> <value>1024</value> <!-- 最小分配单位 --> </property> <property> <name>yarn.scheduler.maximum-allocation-mb</name> <value>8192</value> <!-- 最大分配单位 --> </property> <!-- 服务端口配置 --> <property> <name>yarn.resourcemanager.webapp.address</name> <value>0.0.0.0:8088</value> </property> ``` # 四、部署与验证步骤 1. **同步配置到所有节点** ```bash scp -r /path/to/hadoop/conf/ worker-node1:/hadoop/etc/hadoop/ ``` 2. **启动YARN服务** ```bash # 在ResourceManager节点 yarn --daemon start resourcemanager # 在NodeManager节点 yarn --daemon start nodemanager ``` 3. **验证集群状态** ```bash yarn node -list # 查看节点注册情况 # 运行测试作业 hadoop jar hadoop-mapreduce-examples.jar pi 16 1000 ``` # 五、常见问题排查 1. **节点未注册**: - 检查`yarn.resourcemanager.hostname`配置一致性 - 验证节点间网络连通性(telnet master-node:80322. **内存分配错误**: ```bash # 查看NodeManager日志 tail -f /var/log/hadoop-yarn/yarn-yarn-nodemanager-*.log # 确认物理内存与配置值关系: Total_alloc = yarn.nodemanager.resource.memory-mb ``` 3. **作业卡在ACCEPTED状态**: - 检查`yarn.scheduler.capacity.root.queues`队列配置 - 验证ApplicationMaster资源请求是否超出限制 # 六、监控与管理 1. Web控制台访问:`http://resourcemanager-host:8088` 2. 使用`yarn top`实时监控资源使用 3. 日志聚合路径配置: ```xml <property> <name>yarn.nodemanager.remote-app-log-dir</name> <value>/tmp/logs</value> </property> ``` **最佳实践建议**: - 预留20%物理内存给系统进程 - 容器内存应设置为Xmx值的1.2倍(考虑JVM开销) - 定期检查`yarn.nodemanager.resource.detect-hardware-capabilities`自动检测硬件配置
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值