hadoop在yarn上运行

YARN上运行MapReduce程序

这里接着上面的博文接着写的
植入代码
设置一些配置
[root@zhiyou01 hadoop-2.7.3]# cd etc/hadoop/

在这里插入图片描述
对这里的文件进行修改
[root@zhiyou01 hadoop]# vi yarm-env.sh
[root@zhiyou01 hadoop]# vi yarn-env.

他们的jdk是被注释的解注释修改成自己的jdk路径
紧接着对这个文件进行修改
[root@zhiyou01 hadoop]# vi yarm-env.sh

//对他添加的内容yarn-site.xml
<!-- reduce获取数据的方式 -->
<property>
 <name>yarn.nodemanager.aux-services</name>
 <value>mapreduce_shuffle</value>
</property>


<!-- 指定YARN的ResourceManager的地址hosts文件配置ip映射 -->
<property>
<name>yarn.resourcemanager.hostname</name>
<value>zhiyou101</value>
</property>

在对mapred-site.xml.template、cp一下

#命令
[root@zhiyou01 hadoop]# cp mapred-site.xml.template mapred-site.xml
#然后这样一下[root@zhiyou01 hadoop]# vi mapred-site.xml
//添加这样一段代码

<property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
</property

启动
注意:namenode只需要格式化一次,不要一直格式化它,

启动YARN
包含:
ResourceManager:管理所有的NodeManager,给Nodemanager发送命令(老板)
NodeManager:负责管理该节点的资源调度。(经理)
首先启动resourcemanager,在启动nodemanage

#杀死该杀死的
[root@zhiyou01 sbin]# jps
3089 NameNode
3794 Jps
3187 DataNode
[root@zhiyou01 sbin]# kill -9 3089
[root@zhiyou01 sbin]# kill -9 3187
[root@zhiyou01 sbin]# jps
3804 Jps
[root@zhiyou01 sbin]# 
#启动开始在[root@zhiyou01 sbin]# 
./yarn-daemon.sh start resourcemanager
 ./yarn-daemon.sh start nodemanager
 ./hadoop-daemon.sh start namenode
  ./hadoop-daemon.sh start datanode
 
#出现以下代表成功
[root@zhiyou01 sbin]# jps
3832 ResourceManager
4425 Jps
4140 NodeManager
4270 NameNode
4334 DataNode
[root@zhiyou01 sbin]# 

浏览器访问,通过8088端口:http://zhiyou101:8088
vi /etc/hostname 修改Linux的主机名

在${hadoop}/share/hadoop/mapreduce目录下
hadoop jar hadoop-mapreduce-examples-2.7.3.jar wordcount /hadoop/input/wc.txt /hadoop/output1

在控制台输出运行结果
hadoop fs -cat /hadoop/output/part-r-00000

在这里插入图片描述
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Hadoop YARN运行PySpark,需要按照以下步骤操作: 1. 安装Hadoop和Spark,并配置好环境变量。 2. 在Hadoop集群上启动YARN服务。 3. 在Spark的conf目录下,创建一个新的spark-defaults.conf文件,并添加以下配置: ``` spark.master yarn spark.submit.deployMode client spark.driver.memory 1g spark.executor.memory 1g spark.executor.instances 2 spark.yarn.appMasterEnv.PYSPARK_PYTHON /usr/bin/python3 ``` 其中,`spark.master`设置为`yarn`,表示使用YARN作为Spark的资源管理器;`spark.submit.deployMode`设置为`client`,表示在客户端模式下提交应用程序;`spark.driver.memory`和`spark.executor.memory`分别设置为1g,表示每个Driver和Executor的内存大小;`spark.executor.instances`设置为2,表示启动2个Executor;`spark.yarn.appMasterEnv.PYSPARK_PYTHON`设置为`/usr/bin/python3`,表示使用Python3作为PySpark的解释器。 4. 在PySpark脚本中,添加以下代码: ``` from pyspark.sql import SparkSession spark = SparkSession.builder.appName("PySparkExample").getOrCreate() # 在这里编写PySpark代码 spark.stop() ``` 其中,`SparkSession`用于创建Spark应用程序的入口点;`appName`设置应用程序的名称;`getOrCreate`方法用于获取现有的SparkSession或创建一个新的SparkSession。 5. 在命令行中,使用以下命令提交PySpark应用程序: ``` spark-submit --master yarn --deploy-mode client --py-files <path-to-py-files> <path-to-pyspark-script> ``` 其中,`--master`设置为`yarn`,表示使用YARN作为Spark的资源管理器;`--deploy-mode`设置为`client`,表示在客户端模式下提交应用程序;`--py-files`指定需要上传到集群的Python文件;`<path-to-pyspark-script>`指定PySpark脚本的路径。 6. 提交应用程序后,可以在YARN的Web界面上查看应用程序的运行情况。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值