在centos07 VM 下的单机hadoop搭建

最新推荐文章于 2024-10-17 15:34:15 发布

大数据fighting

最新推荐文章于 2024-10-17 15:34:15 发布

阅读量287

点赞数 1

文章标签：大数据 hadoop linux 分布式

本文链接：https://blog.csdn.net/qq_41704237/article/details/107022535

版权

Hadoop介绍

Hadoop是一个分布式基础系统架构，主要包括
分布式文件系统HDFS 、分布式计算系统Mapreduce 和分布式资源管理系统YARN、以及数据仓库工具Hive和分布式数据库Hbase。
程序员可以在Hadoop下开发程序，将所编写的程序运行于计算机集群上，从而对海量数据的处理。

1、分布式文件系统HDFS

HDFS是一种文件存储系统。可以创建、删除、移动或重命名文件，等等。但是 HDFS 的架构是基于一组特定的节点构建的。这些节点包括 NameNode（仅一个），它在 HDFS 内部提供元数据服务，负责管理；DataNode，它为 HDFS 提供存储块，负责执行。

存储在 HDFS 中的文件被分成块，然后将这些块复制到多个计算机中（DataNode）。这与传统的 RAID 架构大不相同。块的大小（通常为 64MB）和复制的块数量在创建文件时由客户机决定，数据块的大小会根据文件大小，一个数据块的大小确定。NameNode 可以控制所有文件操作。HDFS 内部的所有通信都基于标准的TCP/IP协议。

NameNode
它负责管理文件系统名称空间和控制外部客户机的访问。NameNode 决定是否将文件映射到 DataNode 上的复制块上。
DataNode
DataNode 响应来自 HDFS 客户机的读写请求。它们还响应来自 NameNode 的创建、删除和复制块的命令。

一、创建vm虚拟机

点击文件新建虚拟机
在这里插入图片描述
下一步：选择稍后安装操作系统

下一步：选择LINUX和Centos7 64 位

下一步：填写虚拟机名和存储的位置

下一步：磁盘大小可以选择20G 拆分成多个文件

下一步：点击自定义硬件配置

内存改为4096M
在这里插入图片描述
添加centos7镜像

配置网络适配器（两个，需要自己添加一个）记得生成mac地址

点击确定关闭完成配置完，可以启动虚拟机
选择语言英文或中文然后begin

配置时间选择如下：

点击如下两个箭头所指第一个点进入然后down直接出来就好
在这里插入图片描述
第二个两个网络都要点开记得DNS 后面配置ip地址结构跟DNS一样

begin install 后设置密码

等待加载完 reboot
输入root
密码：ok
进入虚拟机修改ip地址和主机名和主机列表

修改BOOTPROTO=static （网络配置参数设置为静态ip）
ONBOOT=yes （自启动）
IPADDR=192.168.255.120 （本虚拟的ip的地址）
在这里插入图片描述
开启网络
关闭防火墙
下次启动虚拟机自动禁用防火墙
如下：

创建ssh连接（具体请看前面的博客）
如下所示：

搭建hadoop

搭建hadoop需要jdk和hadoop
在opt目录下创建software文件夹
输入：mkdir software
在这里插入图片描述
把jdk和hadoop安装包拖入此目录下并解压到opt目录下的install目录下（自己创建目录）

生成密钥，进行免密登录：
输入：ssh-keygen -t rsa -P “”
输入：cat .ssh/id_rsa.pub >> .ssh/authrized_keys

配置jdk和 hadoop

输入：vi /etc/profile
在这里插入图片描述
修改的内容：

export JAVA_HOME=/opt/install/jdk1.8.0_221
export JRE_HOME=$JAVA_HOME/jre
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib"
export HADOOP_HOME=/opt/install/hadoop-2.6.0-chd5.14.2
export PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin:$HADOOP_HOME/sbin:$HADOOP_HOME/bin

在这里插入图片描述
配置hadoop的内置文件
（1）core-site.xml
进入etc/hadoop目录下
输入：cd etc/hadoop/
修改的内容如下：

<property>
        <name>fs.defaultFS</name>
        <value>hdfs://192.168.241.131:9000</value>
</property>
<property>
        <name>hadoop.tmp.dir</name>
        <value>/opt/install/hadoop260/tmp</value>
</property>
<property>
        <name>hadoop.proxyuser.root.groups</name>
        <value>*</value>
</property>
<property>
        <name>hadoop.proxyuser.root.hosts</name>
        <value>*</value>
</property>

在这里插入图片描述
（2）hadoop-env.xml
输入：vi hadoop-env.sh
修改内容：

export JAVA_HOME=/opt/install/jdk1.8.0_221

在这里插入图片描述
（2）hdfs-site.xml
输入：vi hdfs-site.xml
修改内容：

<property>
        <name>dfs.replication</name>
        <value>1</value>
</property>
<property>
        <name>dfs.permissions.enabled</name>
        <value>false</value>
</property>

（4）mapred-site.xml
原配置文件是mapred-site.xml.template 对其改个名
mv mapred-site.xml.template mapred-site.xml
输入：vi mapred-site.xml
修改内容：

<configuration>
 <property>
  <name>mapreduce.framework.name</name>
  <value>yarn</value>
 </property>
</configuration>

（4）slaves
输入：vi slaves
修改内容：添加虚拟机的名称（作者是hadoop01）
hadoop01
（5）yarn-site.xml，
输入：vi yarn-site.xml
修改内容：

<property>
        <name>yarn.resourcemanager.hostanme</name>
        <value>hadoop131</value>
</property>

<property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
</property>

配置完文件后，格式化hdfs
到 cd /opt/install/hadoop-2.6.0-cdh5.14.2/
输入：hadoop namenode -format
输入：start-all.sh 开启hadoop
输入：jps 查看是否开启成功如图出现以下进程，则是开启成功
在这里插入图片描述