Hadoop安装及hdfs操作

**

Hadoop安装及hdfs操作如下

**
先安装完成了centos7,首先要对宿主机(windows)和虚拟机(centos7)的网络进行测试,保证虚拟机可以与宿主机互通.

  1. 在宿主机按下windows+R
    在这里插入图片描述Mac : 在终端中输入ifconfig
    在这里插入图片描述
    Windows : 在cmd命令行(windows+R,输入CMD)窗口中输入ipconfig
    打开虚拟机中的命令行,ping一下上面的虚拟网卡地址。
    在这里插入图片描述
    在虚拟机中输入ifconfig查看虚拟机的ip地址
    ![在这里插入图片描述](https://img-blog.csdnimg.cn/b6e979f9986243029ccd32d107b172f2.png

在宿主机中的命令行中输入ping 192.168.23.134,若出现以下图例,则代表网络互通
2. 上传安装包到虚拟机

2.1 在cecureCRT中新建一个会话(右键点击session文件夹 -> new session)在这里插入图片描述
2.2 在下个页面中输入目标虚拟机的IP地址和最高权限管理员用户root
2.3 在这里插入图片描述

2.4 输入CRT会话的显示名称,输入完成
在这里插入图片描述

2.5 双击session manager窗口中的相应的会话名(19数据本)弹出以下窗口
选择accept & save
在这里插入图片描述
2.6 输入root用户的密码

2.7 成功登录虚拟机
在这里插入图片描述
3. 从宿主机上传安装包到linux虚拟机
3.1 右键点击会话的选项卡,选择 connect SFTP session
3.2 在SFTP窗口中输入linux命令,如cd、ls等,是操作虚拟机
在SFTP窗口中输入l+linux命令,如lcd、lls等,则是在操作宿主机
3.3 需要在宿主机中找到要上传的文件所在的目录
在宿主机,将安装包拷贝到D:/

在SFTP窗口中输入:lcd d:/
3.4 需要在虚拟机中找到上传文件的目标目录(/opt/soft/)
在这里插入图片描述
3.5
在这里插入图片描述
Cd 切换目录
Mkdir soft 在当前目录下创建一个名为soft的文件夹
Ls 列出当前文件夹下的所有子文件夹和文件
Ls -al 列出当前文件夹下的所有子文件夹和文件的详细信息
在这里插入图片描述
以drwxr-xr-x权限为例说明一下linux的权限
首字母:

  • : 代表文件
    d: 代表文件夹
    三组权限:
    rwx r-x r-x : 7 5 5 : 最高权限 777
    u(user) 当前登录的用户权限 rwx :
    r : 读取权限 : 4
    w: 写权限 : 2
    x: 执行权限 : 1
    -: 没有权限
    g(group) r-x : 代表的是用户所在的组权限
    o(other) r-x : 其他用户(如windows的用户)
    3.6 Put / get
    Put: 将某个文件上传到虚拟机的当前目录(/opt/soft)
    Get: 将某个文件下载到宿主机的当前目录(d:/)
    在这里插入图片描述
    3.7 在虚拟机中查看上传的文件
    ls : 简要的列出当前目录下的所有文件及文件夹(文件夹用粗体显示)
    在这里插入图片描述
    ls -a 显示当前目录下的所有文件及文件夹(包含隐藏文件及文件夹,使用.开头)
    在这里插入图片描述

ls -l 显示所有文件及文件夹的详细信息
在这里插入图片描述
第一个root代表的是创建该文件的用户名
第二个root代表的是创建该文件的用户组
Chmod : 修改权限
-rw-r–r-- (644) 修改为 -rwxr-xr-x (755)
在这里插入图片描述
Chown : 修改文件所属用户
Chgrp : 修改文件所属用户组
在这里插入图片描述
ls-al : 既显示隐藏文件,也显示详细信息
ll : ls -l 的简写
4. 安装hadoop之前的准备工作
4.1 修改计算机名称
hostnamectl set-hostname master
在这里插入图片描述
4.2 关闭防火墙并取消其开机启动
systemctl stop firewalld
systemctl disable firewalld
在这里插入图片描述
4.3 修改hosts
vi /etc/hosts : 输入 IP 别名
将ip地址的别名输入到hosts文件中之后, 就可以使用别名替代IP地址了
在这里插入图片描述
5. 安装hadoop
5.1 安装jdk
5.1.1 解压缩jdk安装包
命令: rpm -ivh jdk-8u91-linux-x64.rpm

5.1.2 配置java的环境变量
执行:vi /etc/profile 编辑系统环境变量
JAVA_HOME : java的安装路径

在这里插入图片描述
export JAVA_HOME=/usr/java/jdk1.8.0_91
PATH : 将java安装路径下的bin文件夹以及 jre/bin添加到path
export PATH= P A T H : PATH: PATH:JAVA_HOME/bin: J A V A H O M E / j r e / b i n C L A S S P A T H : . ; t o o l s . j a r d t . j a r r t . j a r e x p o r t C L A S S P A T H = . : JAVA_HOME/jre/bin CLASSPATH : . ; tools.jar dt.jar rt.jar export CLASSPATH=.: JAVAHOME/jre/binCLASSPATH:.tools.jardt.jarrt.jarexportCLASSPATH=.:JAVA_HOME/lib/tools.jar: J A V A H O M E / l i b / d t . j a r : JAVA_HOME/lib/dt.jar: JAVAHOME/lib/dt.jar:JAVA_HOME/jre/lib/rt.jar
在这里插入图片描述
5.1.3 验证java是否安装
在这里插入图片描述
5.2 安装hadoop
5.2.1 解压缩hadoop
命令: tar -zxvf hadoop hadoop-2.7.3.tar.gz
在这里插入图片描述
5.2.2 重命名hadoop文件夹
命令: mv hadoop-2.7.3 hadoop
在这里插入图片描述
5.2.3 hadoop的三种集群模式:
本地模式 : 解压缩hadoop之后不需要进行任何配置。
伪分布模式(*) :测试环境下使用
完全分布式 :生产环境下使用
5.2.4 设置hadoop的环境变量
在这里插入图片描述
#hadoop
export HADOOP_HOME=/opt/soft/hadoop
export PATH= P A T H : PATH: PATH:HADOOP_HOME/bin:$HADOOP_HOME/sbin
5.2.5 设置hadoop-env.sh
找到JAVA_HOME,并将其修改为java安装路径
在这里插入图片描述
5.2.6 设置hadoop的四个配置文件

A. Core-site.xml
cd /opt/soft/hadoop/etc/hadoop
Vi core-site.xml

<property>
    <name>fs.defaultFS</name>
    <value>hdfs://master:9000</value>
</property>
<property> 
    <name>hadoop.tmp.dir</name>
    <value>/opt/soft/hadoop/tmp</value>
Fs.defaultFS: 指定namenode与datanode之间联通地址及端口 Hadoop.tmp.dir : 指定hadoop临时文件夹,如果没有该文件夹,需要提前将其创建出来

B. Hdfs-site.xml

dfs.replication
1

Dfs.replication:文件在hdfs中存储时的副本数量,如果是伪分布式集群,设置为1
如果是完全分布式集群,则建议设置为3.

C. Mapred-site.xml
由于安装后默认只有mapred-site.xml.template 模板文件,需要通过模板复制并重命名mapred-site.xml

mapreduce.framework.name
yarn

Mapreduce.framwork.name:在大数据分析时,运行mapreduce计算模型的框架名称。

D. Yarn-site.xml

yarn.resourcemanager.hostname
master


yarn.nodemanager.aux-services
mapreduce_shuffle

Yarn.redoucemanager.hostname 指定的yarn集群的主节点所在的ip地址,如果在/etc/hosts文件中设置了ip的别名,此处就可以使用别名(master)替代,相同的操作也出现在了core-site中的fs.defaultFS节点中。
Yarn.nodemanager.aux-services map转向reduce的默认算法,采用的是shuffle算法。固定值,不需要修改。
6. 启动hadoop
6.1 使java与hadoop的环境变量生效
source /etc/profile
6.2 设置ssh无秘钥登录
A. 跳入主目录 : cd ~

B. 查看主目录中是否存在.ssh隐藏文件夹
在这里插入图片描述

通过ls -al命令可以观察在当前机器中是不存在.ssh文件

  1. 存在
    生成公私密钥对 : ssh-keygen -t rsa 不需要输入,直接回车即可
    在这里插入图片描述
    发送公钥到目标主机 : ssh-copy-id master 输入当前用户的密码
    在这里插入图片描述
  2. 不存在
    则执行 ssh localhost
    输入密码
    .ssh就出现了,后面操作就与存在时相同了。
    在这里插入图片描述

6.3 hdfs的格式化
Hdfs namenode -format
在这里插入图片描述
注意:如果格式化失败,代表配置是有问题的,需要耐心检查各项配置。一定不要再次格式化,要在格式化之前将我们之前创建临时文件夹/opt/soft/hadoop/tmp中所有内容全部清空。rm -rf /opt/soft/hadoop/tmp/*
6.4 启动hdfs
Start-dfs.sh
在这里插入图片描述
6.5 验证hdfs是否启动成功
A. 运行jps命令,查看进程
Namenode
Datanode
Secondarynamenode
在这里插入图片描述

B. 在宿主机登录hadoop hdfs的webUI查看相关信息。
打开浏览器输入 http://192.168.23.134:50070

在这里插入图片描述
如果输入ip:50070之后能够看到以上页面,则代表hadoop已经安装并启动成功了。
7. hadoop常用脚本:
7.1 hadoop的常用脚本根据功能不同放在了/hadoop_home/bin ,/hadoop_home/sbin
Hadoop_home: hadoop的安装路径
Bin : hadoop的功能性脚本
Hadoop : hadoop脚本可以对hadoop hdfs及yarn进行操作
Hdfs : 专门操作hdfs的脚本
Mapred :mapreduce脚本(不常用)
Yarn:yarn脚本(不常用)
Sbin:
Hadoop-deamon.sh : 单节点管理脚本(开启单个节点的某进程)
Start-dfs.sh - stop-dfs.sh : 开启/关闭hdfs集群
Start-yarn.sh - stop-yarn.sh : 开启/关闭yarn集群
Start-all.sh - stop-all.sh : 开启/关闭hdfs、yarn集群
7.2 操作hdfs的命令入口为hadoop fs 或 hdfs dfs
7.3 数据准备
在平台的实验数据中下载以下数据

通过sftp窗口将数据上传至linux的/opt/datas

上传文件
在这里插入图片描述

7.4 上传 goods01.txt 到 hdfs
A. 执行hadoop fs -put goods01.txt /data 或者 hdfs dfs -put goods01.txt /data
B. 查看上传到hdfs的文件

  1. 通过webUI查看
    在这里插入图片描述
    如果在上传文件的时候,hdfs没有相应的文件夹,会出错。要对错误文件进行删除
    删除命令: hdfs dfs -rm /data
    创建文件夹命令: hdfs dfs -mkdir /data
    上传命令: hdfs dfs -put goods01.txt /data/
    查看文件内容: hdfs dfs -text /data/goods01.txt

  2. 通过hdfs命令查看
    Hdfs dfs -ls /data
    Hdfs dfs -lsr /

  3. 创建目录

在hdfs中进行递归文件夹创建时, 需要mkdir指令添加-p参数
4. 复制本地文件到hdfs
Hdfs dfs -copyFromLocal 本地文件夹名 hdfs的目录
Hdfs dfs Put 本地文件夹名 hdfs的目录

  1. 将hdfs上的文件复制到linux本地
    Hdfs dfs -copyTpLocal hdfs的目标文件路径 linux路径
    Hdfs dfs -get hdfs的目标文件路径 linux路径

hdfs常用命令如下:需要重点掌握
在这里插入图片描述
在这里插入图片描述

  • 2
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大数据小理

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值