一、VMware 与 Ubuntu安装
- 解决VMware无法安装的问题
- 先将设备的软盘设置设为使用物理驱动器以及自动监测模式
- 在ubutun中解压VMmareTools并安装
- Ubuntu系统设置最佳下载服务器
- 在使用APT 服务器前需提前设置好最近服务器
- 之后需要更新缓存,时间可能会比较长。
二、 Hadoop Single Node Cluster的安装
1. 按装JDK
Hadoop是用Java开发必须先安装JDK
java --version
查看java版本
2. 使用apt软件包管理,安装java- sudo apt-get update
连接到APT Server 更新软件报信息
sudo apt-get install default-jdk
下载并安装jdk
安装版本为:1.8.0_181
update-alternatives --display java
查看以安装的软件包
显示的安装路径为:/usr/lib/jvm/java-8-openjdk-i386/jre/bin/java
-
设置SSH无密码登陆
Hadoop中的多台服务器之间使用SSH(secure Shell)进行连接
-
sudo apt-get install ssh
:安装ssh -
sudo apt-get install rsync
:安装远程同步工具 -
使用ssh-keygen生成无密码密钥对
运行命令后不设置密码
ssh-keygen
查看.ssh文件夹
ll ~/.ssh
也可用ls
-
将公钥复制到authorized_keys中
cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys
之后就可以用ssh usr@[ip地址]
登陆到authorized_keys文件对应的用户了;另外感兴趣的话也可通过win的cmd窗口使用相同的方法生产密钥对然后把公钥通过
scp
命令复制到虚拟机中Ubuntu系统中对应的authorized_keys2也就,新建的第二个文件里,这样就可通过win的cmd窗口无密码登陆到虚拟机中Ubuntu系统中。
- 下载安装Haddoop
之后安装的spark2.4 要求Hadoop版本在2.7以上
-
下载hadoop-3.1.1
wget https://www-us.apache.org/dist/hadoop/common/hadoop-3.1.1/hadoop-3.1.1.tar.gz
-
解压缩
sudo tar -zxvf Hadoop-3.1.1-tar.gz
-
移动hadoop文件至/usr/local/hadoop
mv hadoop-3.1.1 /usr/local/hadoop
注意mv是将一个文件夹内的文件移动到另一个文件夹内,将hadoop-3.1.1文件内的文件移动到hadoop这个文件中 -
查看hadoop目录
ll /usr/local/hadoop
- 各文件夹说明
bin/ 各项运行文件,包括Hadoop,HDFS,YARN等
sbin/ 各项shell文件,包括start-all, stop-all.sh
etc/hadoop 子目录包含Hadoop配置文件,例如hadoop-env.sh,cor-site.xml, YARN-site.xml
lib/ Hadoop函数库
logs/ 系统日志,可从中找出运行问题
- 各文件夹说明
-
设置Hadoop环境变量
- 编辑~/.bahshrc
sudo getdit ~/.bashrc
- 使新.bashrc生效
source ~/.bashrc
- 编辑~/.bahshrc
-
修改Hadoop配置设置文件
- 编辑Hadoop-envsh
sudo gedit /usr/local/hadoop/etc/hadoop/hadoop-env.sh
注意:JAVA_HOME=
等号后不要留空格 - 修改core-site.xml
sudo gedit /usr/local/hadoop/etc/hadoop/core-site.xml
- 编辑YARN-site.xml
sudo gedit /usr/local/hadoop/etc/hadoop/yarn-site.xml
- 设置mapred-site.xml
- 设置mapreduce框架为yarn
- 设置hdfs-site.xml
- 设置blocks副本备份数量
- 设置NameNode数据存储目录
- 设置DataNode数据存储目录
- 编辑Hadoop-envsh
-
创建并格式化HDFS
- 创建namenode数据储存目录
Linux mkdir命令
mkdir用于建立子目录,-P:确保目录名称存在,不存在就建一个。
sudo mkdir -p /usr/local/hadoop/hadoop_data/hdfs/namenode
- 创建datanode数据存储目录
sudo mkdir -p /usr/local/hadoop/hadoop_data/hdfs/datanode
- 将Hadoop目录的所有者更改为hduser
Linux chown命令
user:新的文件拥有者ID;group:新的文件拥有者组(group);—R:处理指定目录以及其子目录
sudo chown lbt:lbt -R /usr/local/hadoop
- 将HDFS进行格式化
hadoop namenode -format
- 创建namenode数据储存目录
-
启动Hadoop
- 启动HDFS
start-dfs.sh
- 启动Yarn
start-yarn.sh
- 同时启动HDFS和Yarn
start-all.sh
- 使用jps查看已经启动的进程
jps
jps(Java Virtual Machine Process Status Tool),可以查看当前所运行的进程(process)
- 启动HDFS
-
打开Hadoop Resource-Manager Web 界面
httpL//localhost:8088
-
打开NameNode HDFS Web界面
http://localhost:50070