目录
修改配置文件/etc/hosts
设置环境变量~/.bashrc
hadoop-env.sh
core-site.xml
yarn-site.xml
mapred-site.xml
hdfs-site.xml
修改系统/etc/profile文件
hadoop安装、运行方式
单机模式——不需要配置,只是单独的java进程,用于测试。
伪分布式模式——只在一台主机上运行Hadoop,主节点和从节点都在一个节点上。
集群模式(完全分布式)——安装到多个节点,节点可以是不同的电脑或虚拟机的系统,一个主节点master,多个从节点slave。
伪分布式安装
步骤:
-
下载VirtualBox软件
-
创建虚拟机
-
安装linux系统(Ubuntu版本)
-
安装jdk,hadoop使用java的编写程序,使用jdk编译
-
安装ssh(安全外壳协议),为了让从节点的各台主机密码联通
-
安装hadoop
安装jdk
检测Ubuntu里有没有jdk
终端输入:javac
应该是没有的,需要下载,安装,配置,重新加载,验证
-
windows下载jdk,Java Downloads | Oracle
官网下载需要注册账户,并到邮箱确认邮件,然后返回下载(下载1.8版本原因:我的教材是8u181版,维护时间长久)
-
下载了jdk---.tar.gz安装包,放到共享文件夹
-
复制到主目录的文件夹,该文件夹路径下打开终端
-
解压(安装),产生jdk文件夹
tar -zxvf jdk---.tar.gz
-
设置环境变量,打开配置文件(vi和gedit的区别?一个是编辑器,一个是记事本,两个都可以,用法不同,新手用gedit)
(gedit /etc/profile这条只能访问、查看;用下面的命令,管理员可修改(输入密码时看不见,输入后回车))
sudo gedit /etc/profile
-
进入编辑界面,特定位置输入信息,保存关闭文件
(vi编辑界面命令:I:编辑状态;delete:修改状态;esc:退出编辑状态;:wq:保存退出;命令完回车)
export JAVA_HOME=/home/linlin/jdk/jdk---
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=${JAVA_HOME}/bin:$PATH
-
重新加载配置文件,(命令提示符会变颜色)
source /etc/profile
-
验证jdk
java -version
javac
-
出现版本信息,安装成功。
配置SSH
通过SSH对所有传输的数据加密,利用SSH可以防止远程管理系统时出现信息外泄的问题。
启动hadoop,NameNode必须与DataNode连接,并且主节点管理从节点,可以设置无密码登录(使用SSH Key来验证身份)
SSH Key 会产生密钥(私钥id_rsa和公钥id_rsa.pub),主节点将公钥给从节点,从节点匹配(authorized_keys)与主节点传递的请求信息,产生字符串并用公钥加密给主节点,主节点用私钥解密,解密后的字符串再发送给从节点,对比正确后即可实现数据传输且加密。
-
打开终端,输入命令(保证网络,便可以在Ubuntu系统上下载),输入y安装
sudo apt-get install ssh
-
产生SSH Key(密钥),输入命令,产生私钥(id_rsa)和公钥(id_rsa.pub),(这个命令会停顿三下,按回车)
ssh-keygen -t rsa
-
把公钥放到许可证(authorized_keys)中
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
-
更改权限
chm