Yarn伪分布式部署及log日志分析

4.MapReduce和Yarn

MapReduce: 用来计算的 是jar包提交的Yarn上  本身不需要部署
Yarn: 资源和作业调度 是需要部署的
MapReduce on Yarn

下面部署Yarn:

进入/home/hadoop/app/hadoop-2.6.0-cdh5.7.0/etc/hadoop目录,

cp mapred-site.xml.template mapred-site.xml

vi mapred-site.xml

添加如下的记录(也就是MapReduce跑在yarn上面,也可以跑在其它的上面):

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

 vi  yarn-site.xml有,添加下面记录:
<configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>    
        <value>mapreduce_shuffle</value> 
    </property>
</configuration>

意思是:yarn的nodemanager服务用的是mapreduce里的shuffle

添加后如下:

保存。

默认值在官网都可以看到的:

启动Start 
ResourceManager daemon  老大 资源管理者
NodeManager daemon      小弟 节点管理者

sbin/start-yarn.sh

如果有些组件启动不了,去看日志。

然后就可以用http://ip:8088/访问web界面了。

面试题:

日志分析:

计入

hadoop-hadoop-datanode-10-9-140-90.log
hadoop-用户-进程名称-机器名称

ll -h看一下日志大小

①如果日志内容比较小,可以vi编辑,然后搜索error等,等位到错误的地方,然后分析。如果日志很大,最好不要这样,一方面不方便,另一方面系统会把几百M的内容加载到内存里,不好。

②如果日志内容比较多,可以这样:

tail -1000f hadoop-hadoop-namenode-10-9-140-90.log  倒序查看最后1000行

③还可以把日志文件用sz命令下载到自己电脑本地,然后用编辑器去分析查看。这样还可以备份。

Hadoop是一个开源的大数据处理框架,用于处理海量数据。部署Hadoop分布式集群通常涉及以下几个步骤: 1. **硬件准备**: - 确定节点数量:集群可能由一个或多个节点组成,每个节点都有足够的存储和计算能力。 - 配置硬件:节点需要有独立的硬盘空间(HDFS数据存储)和内存(MapReduce任务执行),以及网络连接。 2. **软件安装**: - 安装基础环境:Linux操作系统是Hadoop的主要运行平台,确保所有节点上都安装了必要的基础工具包。 - 安装Hadoop:下载Hadoop二进制包,按照官方文档的指导进行安装,包括Hadoop的核心(HDFS和MapReduce)、Hadoop YARN、Hive、HBase等组件。 3. **配置文件**: - 修改`core-site.xml`:配置Hadoop的全局参数,如名称节点地址、数据节点地址。 - 修改`hdfs-site.xml`:配置HDFS的详细设置,如块大小、副本数等。 - 配置`yarn-site.xml`:YARN的资源配置和调度策略。 4. **启动服务**: - 启动Hadoop守护进程:包括NameNode(管理HDFS命名空间)、DataNode(存储数据)、ResourceManager(资源管理)、NodeManager(管理本节点任务)等。 - 使用命令行工具(如`start-dfs.sh`和`start-yarn.sh`)或配置脚本来启动和监控集群。 5. **验证集群**: - 使用Hadoop的命令行工具(如`hadoop fs -ls`)检查HDFS文件系统是否正常工作。 - 测试MapReduce任务,确保数据可以被正确分发和处理。 6. **安全管理**: - 配置访问控制:使用Kerberos或者Hadoop的其他安全框架来管理用户身份验证。 7. **监控与日志**: - 安装和配置Hadoop的监控工具(如Ganglia、Hadoop Metrics2)和日志系统(如Log4j)。 8. **扩展性**: - 根据业务需求调整集群规模,添加更多的节点,实现水平扩展。 - 如果数据量持续增长,可能需要考虑使用Hadoop的高级特性如HBase、Hive等。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值