Hadoop安装及hdfs操作

最新推荐文章于 2024-05-14 20:17:45 发布

大数据小理

最新推荐文章于 2024-05-14 20:17:45 发布

阅读量1.8k

点赞数 2

分类专栏：大数据 hadoop 文章标签： hadoop hdfs

本文链接：https://blog.csdn.net/m0_46914845/article/details/125763032

版权

大数据同时被 2 个专栏收录

64 篇文章 11 订阅

订阅专栏

hadoop

18 篇文章 11 订阅

订阅专栏

Hadoop安装及hdfs操作如下

**
先安装完成了centos7，首先要对宿主机（windows）和虚拟机（centos7）的网络进行测试，保证虚拟机可以与宿主机互通.

在宿主机按下windows+R
Mac : 在终端中输入ifconfig

Windows : 在cmd命令行（windows+R,输入CMD）窗口中输入ipconfig
打开虚拟机中的命令行，ping一下上面的虚拟网卡地址。

在虚拟机中输入ifconfig查看虚拟机的ip地址
![在这里插入图片描述](https://img-blog.csdnimg.cn/b6e979f9986243029ccd32d107b172f2.png

在宿主机中的命令行中输入ping 192.168.23.134,若出现以下图例，则代表网络互通
2. 上传安装包到虚拟机

2.1 在cecureCRT中新建一个会话（右键点击session文件夹 -> new session）在这里插入图片描述
2.2 在下个页面中输入目标虚拟机的IP地址和最高权限管理员用户root
2.3

2.4 输入CRT会话的显示名称，输入完成
在这里插入图片描述

2.5 双击session manager窗口中的相应的会话名（19数据本）弹出以下窗口
选择accept & save
在这里插入图片描述
2.6 输入root用户的密码

2.7 成功登录虚拟机
在这里插入图片描述
3. 从宿主机上传安装包到linux虚拟机
3.1 右键点击会话的选项卡，选择 connect SFTP session
3.2 在SFTP窗口中输入linux命令，如cd、ls等，是操作虚拟机
在SFTP窗口中输入l+linux命令，如lcd、lls等，则是在操作宿主机
3.3 需要在宿主机中找到要上传的文件所在的目录
在宿主机，将安装包拷贝到D:/

在SFTP窗口中输入：lcd d:/
3.4 需要在虚拟机中找到上传文件的目标目录（/opt/soft/）
在这里插入图片描述
3.5

Cd 切换目录
Mkdir soft 在当前目录下创建一个名为soft的文件夹
Ls 列出当前文件夹下的所有子文件夹和文件
Ls -al 列出当前文件夹下的所有子文件夹和文件的详细信息

以drwxr-xr-x权限为例说明一下linux的权限
首字母：

: 代表文件
d: 代表文件夹
三组权限：
rwx r-x r-x : 7 5 5 ：最高权限 777
u(user) 当前登录的用户权限 rwx ：
r : 读取权限： 4
w: 写权限： 2
x: 执行权限： 1
-: 没有权限
g(group) r-x : 代表的是用户所在的组权限
o(other) r-x : 其他用户（如windows的用户）
3.6 Put / get
Put: 将某个文件上传到虚拟机的当前目录（/opt/soft）
Get: 将某个文件下载到宿主机的当前目录（d:/）

3.7 在虚拟机中查看上传的文件
ls : 简要的列出当前目录下的所有文件及文件夹（文件夹用粗体显示）

ls -a 显示当前目录下的所有文件及文件夹（包含隐藏文件及文件夹，使用.开头）

ls -l 显示所有文件及文件夹的详细信息
在这里插入图片描述
第一个root代表的是创建该文件的用户名
第二个root代表的是创建该文件的用户组
Chmod : 修改权限
-rw-r–r-- （644）修改为 -rwxr-xr-x （755）

Chown : 修改文件所属用户
Chgrp : 修改文件所属用户组

ls-al ：既显示隐藏文件，也显示详细信息
ll : ls -l 的简写
4. 安装hadoop之前的准备工作
4.1 修改计算机名称
hostnamectl set-hostname master
在这里插入图片描述
4.2 关闭防火墙并取消其开机启动
systemctl stop firewalld
systemctl disable firewalld

4.3 修改hosts
vi /etc/hosts ：输入 IP 别名
将ip地址的别名输入到hosts文件中之后，就可以使用别名替代IP地址了

5. 安装hadoop
5.1 安装jdk
5.1.1 解压缩jdk安装包
命令： rpm -ivh jdk-8u91-linux-x64.rpm

5.1.2 配置java的环境变量
执行：vi /etc/profile 编辑系统环境变量
JAVA_HOME : java的安装路径

在这里插入图片描述
export JAVA_HOME=/usr/java/jdk1.8.0_91
PATH : 将java安装路径下的bin文件夹以及 jre/bin添加到path
export PATH= $P A T H :$ JAVA_HOME/bin: $JAVA_HOME/jre/bin CLASSPATH : . ； tools.jar dt.jar rt.jar export CLASSPATH=.:$ JAVA_HOME/lib/tools.jar: $JAVA_HOME/lib/dt.jar:$ JAVA_HOME/jre/lib/rt.jar
在这里插入图片描述
5.1.3 验证java是否安装

5.2 安装hadoop
5.2.1 解压缩hadoop
命令： tar -zxvf hadoop hadoop-2.7.3.tar.gz

5.2.2 重命名hadoop文件夹
命令： mv hadoop-2.7.3 hadoop

5.2.3 hadoop的三种集群模式：
本地模式：解压缩hadoop之后不需要进行任何配置。
伪分布模式（*）：测试环境下使用
完全分布式：生产环境下使用
5.2.4 设置hadoop的环境变量
在这里插入图片描述
#hadoop
export HADOOP_HOME=/opt/soft/hadoop
export PATH= $P A T H :$ HADOOP_HOME/bin:$HADOOP_HOME/sbin
5.2.5 设置hadoop-env.sh
找到JAVA_HOME，并将其修改为java安装路径

5.2.6 设置hadoop的四个配置文件

A. Core-site.xml
cd /opt/soft/hadoop/etc/hadoop
Vi core-site.xml

<property>
    <name>fs.defaultFS</name>
    <value>hdfs://master:9000</value>
</property>
<property> 
    <name>hadoop.tmp.dir</name>
    <value>/opt/soft/hadoop/tmp</value>

Fs.defaultFS: 指定namenode与datanode之间联通地址及端口 Hadoop.tmp.dir : 指定hadoop临时文件夹，如果没有该文件夹，需要提前将其创建出来

B. Hdfs-site.xml

dfs.replication
1

Dfs.replication：文件在hdfs中存储时的副本数量，如果是伪分布式集群，设置为1
如果是完全分布式集群，则建议设置为3.

C. Mapred-site.xml
由于安装后默认只有mapred-site.xml.template 模板文件，需要通过模板复制并重命名mapred-site.xml

mapreduce.framework.name
yarn

Mapreduce.framwork.name：在大数据分析时，运行mapreduce计算模型的框架名称。

D. Yarn-site.xml

yarn.resourcemanager.hostname
master

yarn.nodemanager.aux-services
mapreduce_shuffle

Yarn.redoucemanager.hostname 指定的yarn集群的主节点所在的ip地址，如果在/etc/hosts文件中设置了ip的别名，此处就可以使用别名（master）替代，相同的操作也出现在了core-site中的fs.defaultFS节点中。
Yarn.nodemanager.aux-services map转向reduce的默认算法，采用的是shuffle算法。固定值，不需要修改。
6. 启动hadoop
6.1 使java与hadoop的环境变量生效
source /etc/profile
6.2 设置ssh无秘钥登录
A. 跳入主目录： cd ~

B. 查看主目录中是否存在.ssh隐藏文件夹
在这里插入图片描述

通过ls -al命令可以观察在当前机器中是不存在.ssh文件

存在
生成公私密钥对： ssh-keygen -t rsa 不需要输入，直接回车即可

发送公钥到目标主机 : ssh-copy-id master 输入当前用户的密码
不存在
则执行 ssh localhost
输入密码
.ssh就出现了，后面操作就与存在时相同了。

6.3 hdfs的格式化
Hdfs namenode -format
在这里插入图片描述
注意：如果格式化失败，代表配置是有问题的，需要耐心检查各项配置。一定不要再次格式化，要在格式化之前将我们之前创建临时文件夹/opt/soft/hadoop/tmp中所有内容全部清空。rm -rf /opt/soft/hadoop/tmp/*
6.4 启动hdfs
Start-dfs.sh
在这里插入图片描述
6.5 验证hdfs是否启动成功
A. 运行jps命令，查看进程
Namenode
Datanode
Secondarynamenode

B. 在宿主机登录hadoop hdfs的webUI查看相关信息。
打开浏览器输入 http://192.168.23.134:50070

在这里插入图片描述
如果输入ip:50070之后能够看到以上页面，则代表hadoop已经安装并启动成功了。
7. hadoop常用脚本：
7.1 hadoop的常用脚本根据功能不同放在了/hadoop_home/bin ,/hadoop_home/sbin
Hadoop_home: hadoop的安装路径
Bin : hadoop的功能性脚本
Hadoop : hadoop脚本可以对hadoop hdfs及yarn进行操作
Hdfs : 专门操作hdfs的脚本
Mapred ：mapreduce脚本（不常用）
Yarn：yarn脚本（不常用）
Sbin:
Hadoop-deamon.sh ：单节点管理脚本（开启单个节点的某进程）
Start-dfs.sh - stop-dfs.sh : 开启/关闭hdfs集群
Start-yarn.sh - stop-yarn.sh : 开启/关闭yarn集群
Start-all.sh - stop-all.sh : 开启/关闭hdfs、yarn集群
7.2 操作hdfs的命令入口为hadoop fs 或 hdfs dfs
7.3 数据准备
在平台的实验数据中下载以下数据

通过sftp窗口将数据上传至linux的/opt/datas

上传文件
在这里插入图片描述

7.4 上传 goods01.txt 到 hdfs
A. 执行hadoop fs -put goods01.txt /data 或者 hdfs dfs -put goods01.txt /data
B. 查看上传到hdfs的文件

通过webUI查看

如果在上传文件的时候，hdfs没有相应的文件夹，会出错。要对错误文件进行删除
删除命令： hdfs dfs -rm /data
创建文件夹命令： hdfs dfs -mkdir /data
上传命令： hdfs dfs -put goods01.txt /data/
查看文件内容： hdfs dfs -text /data/goods01.txt
通过hdfs命令查看
Hdfs dfs -ls /data
Hdfs dfs -lsr /
创建目录