搭建Hadoop平台
1. 安装了centos7的虚拟机
2. 在centos7上安装JDK
1. 解压缩
2. 配置环境变量(/etc/profile:->PATH)
3. 关闭防火墙
4. 配置主机的hosts文件,将本机的ip和主机名添加到文件中 192.168.56.101 master
5. 安装Hadoop
1. 获取安装文件 hadoop-2.6.5.tar.gz
1. 从本机上传,可以直接拖拽,也可以使用rz -y命令
2. 解压缩
1. tar zxvf /opt/hadoop-2.6.5.tar.gz -C /opt
2. hadoop-2.6.5中的文件夹
1. bin/sbin:里面都是hadoop的执行命令,配置环境变量时,这两个文件夹都需要添加到环境变量中
2. lib:hadoop运行所需的所有的jar包
3. log(**):保存的是hadoop运行中产生的日志
4. ect:是hadoop的配置文件
5. share:是一些示例代码和程序
3. 配置环境变量
1. 声明一个HADOOP_HOME
2. 将bin和sbin都配置到PATH下
3. 对/etc/profile文件的修改会在下次重启后永久生效
4. 不重启也希望生效,需要敲source /ect/profile命令,在本次访问中生效
4. 配置Hadoop
1. hadoop在安装目录的/etc/hadoop文件夹下提供了很多配置文件,配置Hadoop就是修改这些文件的配置
2. 每个文件中其实默认有大量的配置,开发者看不到,开发者仅需要对修改的配置进行配置就可以,其他都默认使用 默认的配置
5. 具体配置项的作用
1. hadoop.tmp.dir:在本机上指定一个hadoop运行的临时目录,保存文件系统的相关信息。
1. 默认情况下,使用的是linux系统的默认临时文件夹路径。该文件夹每次重启Linux都会被清空,会导致hadoop无法正常运行
2. 因此必须手动配置一个不会被删除的路径
3. 每次对namenode进行format之前,必须删除集群上所有主从节点的该文件夹,才能format成功
2. fs.defaultFS:HDFS对外提供服务的主机名和端口号
3. dfs.replication:指定文件在HDFS上保存的副本数量,默认是3
1. 学习阶段可以手动设置为1,节省硬盘空间
4. mapreduce.framework.name:指定Mpareduce运行在YRAN之上
5. /opt/hadoop-2.6.5/etc/hadoop/slaves:配置的是Hadoop集群中所有从节点的主机名
1. 该文件中默认的从节点是localhost,如果是伪分布模式,该配置不需要修改
2. 伪分布情况下,使用master(192.168.56.101)作为主节点,使用localhost(127.0.0.1)作为从节点
2. 如果是完全分布模式,需要删除localhost,添加从节点的主机名
6. 启动hadoop
1. 启动hdfs:
1. start-dfs.sh
2. 启动后应该有3个进程在运行,是用jps命令查看
3. namenode
4. datanode
5. secondarynamenode
6. 少任意一个,代表hadoop启动失败
7. 也可以在浏览器上访问http://192.168.56.101:50070
2. 启动yarn
1. start-yarn.sh
2. 可以使用jps命令查看yarn是否启动成功
3. resourceManager
4. nodeManager
7. 关闭hadoop
1. stop-dfs.sh
2. stop-yarn.sh