大数据项目

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/sinat_30436087/article/details/82745994

1、Hadoop概述

HDFS,MapReduce,yarn

2、项目需求分析与设计

3、Linux环境配置

1、配置hostname,便于直接用主机名访问。
这里写图片描述

配置host对应主机名network

这里写图片描述

配置host地址映射

这里写图片描述
2、切换到root用户下,编辑sudoers使kfk免密码输入

这里写图片描述
这里写图片描述

查看防火墙状态sudo service iptables status,修改selinuxSELINUX=disabled使得关闭防火墙。

这里写图片描述

这里写图片描述

通过命令开关防火墙:

这里写图片描述

然后卸载centos自带的java,sudo rpm -qa | grep java 查找包含java的安装包。sudo rpm -e --nodesp ~卸载含java的安装包

这里写图片描述

4、安装软件

先创建目录,更改目录权限

这里写图片描述

修改目录权限chmod u+x /opt/softwares/*

在这里插入图片描述
上传安装包,解压jdktar -zxvf jdk -C /opt/modules/ 并配置Java环境

在这里插入图片描述

5、集群配置

克隆三台机器。

在这里插入图片描述

配置三台机器的主机名和IP地址的映射(Windows也需要配置)

在这里插入图片描述

安装Hadoop2.5.0

在这里插入图片描述

sbin目录:存放启动或停止hadoop相关服务的脚本
bin目录:存放对hadoop相关服务(HDFS,YARN)进行操作的脚本
etc目录:hadoop的配置文件目录,存放hadoop的配置文件
share目录:存放hadoop的依赖jar包和文档,文档可以被删除掉
lib目录:存放hadoop的本地库(对数据进行压缩解压缩功能)

使用notepad连接Linux,对etc目录下的一些配置文件进行配置

在这里插入图片描述

配置hadoop-env.sh, yarn-en.sh, mapred-env.sh的Java环境

echo $JAVA_HOME 直接找出Java的路径,复制路径到各个配置文件中。
在这里插入图片描述

根据官网配置namenode
在这里插入图片描述

配置datanode,即配置slaves文件
在这里插入图片描述

首先进行格式化
在这里插入图片描述
格式化完成后,启动namenode和datanode
在这里插入图片描述

访问bigdata-pro01.kfk.com:50070就可以访问Hadoop文件系统了。

然后通过scp -r hadoop-2.5.0/ kfk@bigdata-pro02.kfk.com:/opt/modules/ 发送给bigdata02。同理,发送给bigdata-pro03。

所有的软件发送完成后,在pro02和pro03节点上启动datanode.
在这里插入图片描述

这时打开 bigdata-pro01.kfk.com:50070 就可以看到分布式集群已经完成。

创建HDFS文件目录,上传文件并读取文件
在这里插入图片描述

至此三台机器的HDFS文件系统已经配置完成,接下来配置YARN。

根据官网,配置一下两个文件。

在这里插入图片描述

yarn-site.xml配置如下:
在这里插入图片描述

然后配置mapred-site.xml
在这里插入图片描述

分发所有配置好的文件到另外两台机器上。

Map reduce实例
首先创建一个文件,并将其发送到hdfs文件系统上。
在这里插入图片描述

启动yarn resourcemanageryarn nodemanager
在这里插入图片描述

然后在另外两台机器上启动nodemanager
打开 bigdata-pro01.kfk.com:8088 通过node,可以查看所有的节点。

在这里插入图片描述

启动日志聚集:
在这里插入图片描述

重新启动hdfs和yarn。
在这里插入图片描述

在这里插入图片描述

展开阅读全文

没有更多推荐了,返回首页