Hadoop CentOS6.x 伪分布式安装 流程 详细 包括前提准备

注意:需要进入root用户

1.把网卡IP设置成静态(NAT方式)

# 查看网卡IP
ifconfig 
vi /etc/sysconfig/network-scripts/ifcfg-eth0
# 把网卡设置成开机启动
ONBOOT=yes
# 把DHCP改为static
BOOTPROTO=static
IPADDR=192.168.17.129
NETMASK=255.255.255.0
GATEWAY=192.168.17.2
 

2.设置DNS

vi /etc/sysconfig/network-scripts/ifcfg-eth0
#第一个DNS设置成跟网关地址一样
DNS1=192.168.17.2
DNS2=202.96.209.5
 
网络服务重启
service network restart
 

3.修改主机名

  集群内部一般主机名都是格式统一的
  hadoop里面主机名不支持下划线
vi /etc/sysconfig/network
HOSTNAME=bigdata1.com
 

4.关闭防火墙和selinux

默认情况下,防火墙只开启了22号端口
# 关闭防火墙服务
service iptables stop
# 设置成开机不启动
chkconfig iptables off
 
# 关闭selinux
vi /etc/sysconfig/selinux
# 把enforcing改成disabled
SELINUX=disabled
 

5.添加主机名的映射

后期需要时间主机名
vi /etc/hosts
192.168.17.129 bigdata1.com
 

6.创建普通用户

后期所有操作都用该普通用户进行
useradd bigdata
echo 123456 | passwd --stdin bigdata
 

7.安装JDK

su - root
# 用于软件安装目录
mkdir /opt/modules
# 用于软件下载目录   
mkdir /opt/softwares   
chown bigdata:bigdata /opt/modules/
chown bigdata:bigdata /opt/softwares/
# 卸载系统自带的JDK
rpm -qa | grep -i java
rpm -e --nodeps tzdata-java-2012j-1.el6.noarch
rpm -e --nodeps java-1.6.0-openjdk-1.6.0.0-1.50.1.11.5.el6_3.x86_64
rpm -e --nodeps java-1.7.0-openjdk-1.7.0.9-2.3.4.1.el6_3.x86_64
# 安装jdk(无网环境)
tar zxf jdk-7u67-linux-x64.tar.gz -C /opt/modules/
# 安装jdk(有网环境)
yum install -y java-1.8.0-openjdk.x86_64
 
# 配置环境变量
vi /etc/profile
## JAVA_HOME
JAVA_HOME=/opt/modules/jdk1.7.0_67
export PATH=$PATH:$JAVA_HOME/bin
source /etc/profile
 

8.安装hadoop伪分布式    

tar zxf hadoop-2.5.0-cdh5.3.6.tar.gz -C /opt/modules/
 
配置HDFS
  配置运行环境需要修改三个 yarn-env.sh maprec-env.sh hadoop-env.sh文件 
export JAVA_HOME=/opt/modules/jdk1.7.0_67
 
core-site.xml文件
<!--HDFS集群访问入口地址-->
< property >
     < name > fs.defaultFS </ name >
     < value > hdfs://bigdata1.com:8020 </ value >
</ property >
<!--声明存放数据的目录-->
< property >
     < name > hadoop.tmp.dir </ name >
     < value > /opt/modules/hadoop-2.5.0-cdh5.3.6/data </ value >
</ property >    
 
   
hdfs-site.xml文件    
<!--Block的副本数-->
< property >
     < name > dfs.replication </ name >
     < value > 1 </ value >
</ property >
 
slaves文件
    ** 声明哪些服务器是datanode
    ** 每行一个主机名
    
格式化文件系统:
  进入到 hadoop-2.5.0-cdh5.3.6
  bin/hdfs namenode -format
启动服务:
  //启动hdfs(一次启动) 
  sbin/start-dfs.sh
  sbin/hadoop-daemon.sh start namenode
  sbin/hadoop-daemon.sh start datanode
 
jps 是查看
web控制台浏览器:
    http://192.168.17.129:50070/
上传文件测试:
  bin/hdfs dfs -mkdir /input    
  bin/hdfs dfs -put wc.txt /input
  bin/hdfs dfs -cat /input/wc.txt
 
配置Yarn
yarn-env.sh mapred-env.sh文件
export JAVA_HOME=/opt/modules/jdk1.7.0_67
 
yarn-site.xml文件
<!-- NodeManager获取数据的方式是shuffle -->
< property >
     < name > yarn.nodemanager.aux-services </ name >
     < value > mapreduce_shuffle </ value >
</ property >
< property >
     < name > yarn.resourcemanager.hostname </ name >
     < value > bigdata1.com </ value >
</ property >
    
mapred-site.xml文件
<!--mapreduce计算模型运行在yarn平台-->
< property >
     < name > mapreduce.framework.name </ name >
     < value > yarn </ value >
</ property >
 
启动yarn
  sbin/yarn-daemon.sh start resourcemanager
  sbin/yarn-daemon.sh start nodemanager
 
web控制台
    http://192.168.17.129:8088/cluster
 
运行一个mapreduce任务测试:
利用官方自带的jar包,进行文件的单词统计
bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0.jar wordcount /input/ /output
    ** 原文件分隔符是\t
    ** /input 表示输入路径
    ** /output 表示输出路径,必须要不存在
    ** 都是HDFS里面的路径
    
查看结果
bin/hdfs dfs -cat /output/par*
 
配置日志服务器:
yarn-site.xml文件
<!--启用日志聚合功能-->
< property >
     < name > yarn.log-aggregation-enable </ name >
     < value > true </ value >
</ property >
<!--日志保存时间-->
< property >
     < name > yarn.log-aggregation.retain-seconds </ name >
     < value > 86400 </ value >
</ property >
 
mapred-site.xml文件
<!--进程通信-->
< property >
         < name > mapreduce.jobhistory.address </ name >
         < value > bigdata1.com:10020 </ value >
</ property >
<!--客户端访问入口-->
< property >
         < name > mapreduce.jobhistory.webapp.address </ name >
         < value > bigdata1.com:19888 </ value >
</ property >
 
重启yarn服务
  sbin/yarn-daemon.sh stop resourcemanager
  sbin/yarn-daemon.sh stop nodemanager
  sbin/yarn-daemon.sh start resourcemanager
  sbin/yarn-daemon.sh start nodemanager  
 
启动historyserver服务
  sbin/mr-jobhistory-daemon.sh start historyserver   
 
重新执行wordcount,查看日志,需要重新指定输出目录
  bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0.jar wordcount /input/ /output2
注:如果在window下用浏览器访问需要配置windows的hosts
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值