基于虚拟机下Ubuntu 20.04的大数据环境配置一(Hadoop安装、配置与基本操作)

基于虚拟机下Ubuntu 20.04的大数据环境配置系列之Hadoop安装、配置与基本操作,之后更新Hbase、Hive等大数据相关技术博文

一、 以下配置所需要软件的版本(尽量做到版本一致,下面链接为对应下载网址)

  1. Ubuntu 20.04
  2. Putty 0.74, released on 2020-06-27
  3. FileZilla Client 3.50.0 released
  4. JDK 1.8.0_261
  5. Hadoop Release 2.10.1 available, 2020 Sep 21

二、Windows 环境

1.1 安装虚拟机
建议安装 VMware Workstation Pro 15(低版本安装Ubuntu 20.04容易出现版本不兼容问题!!!!,如找不到软件留言);
1.2 在虚拟机上安装 Ubuntu 20.04。
虚拟机最低需要满足:2G 内存,20G 硬盘空间(当然要是电脑配置允许可以任性);
1.3 安装 putty
在 Linux 端安装 openssh-server 之后,使用 putty 通过 ssh 连接到 Linux;
1.4 安装 FileZilla
在 Linux 端安装 openssh-server 之后,使用 FileZilla 通过 ssh ftp 连接到 Linux磁盘文件系统;

二、Linux 环境
注:以下为Linux操作命令,在Ubuntu中打开终端相当于Windows的命令行

2.1创建 hadoop 用户

#以下为创建Hadoop用户
sudo useradd -m hadoop -s /bin/bash
sudo passwd hadoop
sudo adduser hadoop sudo

2.2更新 APT

sudo apt update
sudo apt upgrade
#如果还未安装vim还需要安装vim
sudo apt-get install vim    # 安装vim

2.3 安装并配置 SSH
这一步免密配置以方便后面的使用!!!!

#查看 openssh-server 安装情况,一句一句执行,不要直接直接复制,同时删除注释
service –status-all |grep ssh
ps |grep ssh            #查看进程
sudo apt install openssh-server  #安装
ssh localhost                    #测试
exit    #退出
cd ~/.ssh/    #如果没有该目录,请先执行一次 ssh localhost
ssh-keygen -t rsa -P ''
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys  #加入授权
ssh localhost  #测试无需密码
exit    #退出

2.4安装并配置 Java 环境
准备工作:将下载好的JDK压缩包通过FileZilla 上传到Linux下的主目录

# 创建/usr/lib/jvm目录
sudo mkdir /usr/lib/jvm
#解压JDK压缩包到/usr/lib/jvm目录
sudo tar -zxvf jdk-8u261-linux-x64.tar.gz -C /usr/lib/jvm
#打开配置文件,采用vim编辑器,这一步不会
sudo vim ~/.bashrc
#进去后输入a进入编辑状态,在文件末尾追加下面内容:
#set oracle jdk environment
export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_261
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=${JAVA_HOME}/bin:$PATH
#按esc按键,输入  :wq   保存退出
#接下来执行配置文件
source ~/.bashrc

#查看并确认Java的版本
java -version

出现JAVA信息既可证明配置成功jdk
在这里插入图片描述
2.5安装 Hadoop
准备工作:将下载好的Hadoop压缩包通过FileZilla 上传到Linux下的主目录

#解压到/usr/local/目录下
sudo tar -zxvf hadoop-2.10.1.tar.gz -C /usr/local/
sudo mv ./hadoop-2.10.1/ ./hadoop
sudo chown -R hadoop:hadoop ./hadoop
#测试安装结果,出现版本信息即可
/usr/local/hadoop/bin/hadoop version

2.6伪分布式模式配置
(1)配置文件
Hadoop 的配置文件位于 /usr/local/hadoop/etc/hadoop/ 中,伪分布式需要修改 2个配置文件 core-site.xml 和 hdfs-site.xml 。

cd /usr/local/hadoop/etc/hadoop/
#修改配置文件 core-site.xml
<configuration>
 <property>
 <name>hadoop.tmp.dir</name>
 <value>file:/usr/local/hadoop/tmp</value>
 <description>Abase for other temporary directories.</description>
 </property>
 <property>
 <name>fs.defaultFS</name>
 <value>hdfs://localhost:9000</value>
 </property>
</configuration>

#修改配置文件 hdfs-site.xml
<configuration>
 <property>
 <name>dfs.replication</name>
 <value>1</value>
 </property>
 <property>
 <name>dfs.namenode.name.dir</name>
 <value>file:/usr/local/hadoop/tmp/dfs/name</value>
 </property>
 <property>
 <name>dfs.datanode.data.dir</name>
 <value>file:/usr/local/hadoop/tmp/dfs/data</value>
 </property>
</configuration>

(2)修改脚本 hadoop-env.sh

cd /usr/local/hadoop
vim ./etc/hadoop/hadoop-env.sh
# 声明 JAVA_HOME
export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_261
# 解决 Hadoop 和 HBase 启动时的一些警告信息
export HADOOP_OPTS="-Djava.library.path=${HADOOP_HOME}/lib/native"

2. 7NameNode 格式化

cd /usr/local/hadoop
./bin/hdfs namenode -format
#这里需要能看到文本中有 successfully formatted

2.8启动 Hadoop

#开启 NameNode 和 DataNode 守护进程
cd /usr/local/hadoop
./sbin/start-dfs.sh
#确认进程已启动
jps

出现如下进程可说明进程已启动,
在这里插入图片描述

2.8运行 Hadoop 伪分布式实例
测试你所安装的hadoop操作功能

#在 HDFS 中创建用户目录 /user/hadoop
./bin/hdfs dfs -mkdir -p /user/hadoop
#将 ./etc/hadoop 中的 xml 文件作为输入文件复制到分布式文件系统中
./bin/hdfs dfs -mkdir input
#使用相对路径如 input,其对应的绝对路径就是 /user/hadoop/input
./bin/hdfs dfs -put ./etc/hadoop/*.xml input
#查看分布式文件系统中的文件列表
/bin/hdfs dfs -ls input
./bin/hdfs dfs -cat input/*
将分布式文件系统中的文件取回到本地
./bin/hdfs dfs -get input ./output
ls ./output

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

2.9关闭 Hadoop

cd /usr/local/hadoop
./sbin/stop-dfs.sh

三、常见问题:
1、开启 NameNode 和 DataNode 守护进程需要多次重复输入密码;
解决:遗漏ssh配置的步骤,按照2.3过程重新加入授权后解决了此问题,实现免密登录,使用过程中减少了麻烦。
2、java -version命令执行后没有出现版本信息
解决:根据2.4仔细查看配置文件,再次检查是否运行了配置文件,这一步十分重要。
四、学习建议
强烈建议学习Linux的相关操作命令再进行大数据的学习,这是一个比较大的学习障碍;使用Putty操作时候善用tab键,推荐厦门大学林子雨老师的大数据课程,内容十分很多都很详细。

  • 4
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值