配置yarn平台程序运行的历史服务,日志查看功能

一,MapReduce historyserver(历史服务)

1.    历史服务器:查看已经运行完成的应用记录

            修改mapred-site.xml

            指定historyserver的地址,内部和外部通信端口号,如果不指定默认是本机

            historyserver是一个轻量级的服务,可以部署在任意一台节点上

    2.    配置(在mapred-site.xml中):

        注意:这里的端口号不能随便修改

        <property>

          <name>mapreduce.jobhistory.address</name>

          <value>hostname:10020</value>

        </property>

        <property>

          <name>mapreduce.jobhistory.webapp.address</name>

          <value>hostname:19888</value>      

        </property>

    3.    启动历史日志服务 sbin/mr-jobhistory-daemon.sh start historyserver

    历史服务信息:

二,日志聚合功能

1.    修改yarn-site.xml

        指定开启聚合功能

        指定日志存放在HDFS上的时间期限,一般建议3-7天左右。

        存放在HDFS的/tmp/logs/用户之下(若查看该目录提示:Permission denied: user=dr.who, access=READ_EXECUTE, inode="/tmp”。       可运行bin/hdfs dfs -chmod -R 755 /tmp修改权限进行访问)

        <property>

            <name>yarn.log-aggregation-enable</name>

            <value>true</value>

        </property>

        <property>

            <name>yarn.log-aggregation.retain-seconds</name>

            <value>106800</value>

        </property>

    2.    重启yarn进程并启动历史日志服务

          先关掉之前yarn进程,和历史服务进程。

3.测试重新跑个测试mapreduce程序

bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar wordcount /wordcount/input/words.txt /wordcount/output2

日志显示结果:

    4.    指定存放已经完成的Hadoop的作业记录

        (接下来的4、5、6的操作可以使用默认的值,不用修改,只是让大家看下,是可以修改的)

        <property>

            <name>mapreduce.jobhistory.done-dir</name>

            <value>${yarn.app.mapreduce.am.staging-dir}/history/done</value>

        </property>

    5.    指定存放的正在运行的Hadoop作业记录

        <property>

            <name>mapreduce.jobhistory.intermediate-done-dir</name>

            <value>${yarn.app.mapreduce.am.staging-dir}/history/done_intermediate</value>

            <description></description>

        </property>

    6.    提交job作业记录的目录位置

        <property>

            <name>yarn.app.mapreduce.am.staging-dir</name>

            <value>/tmp/hadoop-yarn/staging</value>

            <description>The staging dir used while submitting jobs.</description>

        </property>
 

 

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
1. Spark-YARN安装配置: Step 1:安装Hadoop 首先要安装Hadoop,因为Spark需要依赖Hadoop的YARN框架来进行资源管理和任务调度。可以参照Hadoop官网的安装文档进行安装。 Step 2:下载Spark 从Spark官网下载最新的Spark版本,解压缩到一个目录下。 Step 3:配置Spark环境变量 在Spark的安装目录下,进入conf目录,将spark-env.sh.template文件重命名为spark-env.sh,然后打开该文件,添加下列配置: export HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop export SPARK_MASTER_HOST=<master_ip_address> export SPARK_WORKER_CORES=<number_of_cores_per_worker> export SPARK_WORKER_MEMORY=<memory_per_worker> 其中,HADOOP_CONF_DIR指定Hadoop的配置文件目录,SPARK_MASTER_HOST指定Spark的master节点地址,SPARK_WORKER_CORES指定每个worker节点的CPU核数,SPARK_WORKER_MEMORY指定每个worker节点的内存大小。 Step 4:启动Spark集群 在Spark的安装目录下,进入sbin目录,执行以下命令启动Spark集群: ./start-all.sh 这会启动Spark的master节点和worker节点。 Step 5:测试Spark集群 在Spark的安装目录下,进入bin目录,执行以下命令: ./spark-shell 这会启动Spark的命令行界面,可以在其中输入一些Spark代码进行测试。 2. 历史服务器的配置: Spark的历史服务器是一个Web界面,可以显示Spark应用程序历史记录和统计信息。要配置Spark的历史服务器,需要按照以下步骤进行操作: Step 1:启用Spark的事件日志 在Spark的安装目录下,进入conf目录,打开spark-defaults.conf文件,添加以下配置: spark.eventLog.enabled true spark.eventLog.dir file:/tmp/spark-events 这会启用Spark的事件日志,并将日志保存在/tmp/spark-events目录下。 Step 2:启动Spark历史服务器 在Spark的安装目录下,进入sbin目录,执行以下命令启动Spark历史服务器: ./start-history-server.sh 这会启动Spark的历史服务器。 Step 3:访问Spark历史服务器 在浏览器中输入以下地址,即可访问Spark历史服务器的Web界面: http://<server_ip_address>:18080 其中,server_ip_address是Spark历史服务器所在机器的IP地址。 Step 4:查看Spark应用程序历史记录和统计信息 在Spark历史服务器的Web界面中,可以查看Spark应用程序历史记录和统计信息。可以选择要查看的应用程序,然后查看其详细信息、执行计划、任务列表等信息。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值