Hadoop安装-CSDN博客

本文链接：https://blog.csdn.net/oyzl68/article/details/8446627

Centos下安装 Hadoop
硬件条件：两台相同机器 master主服务器和 slave从服务器 (两台防火墙都关闭)
修改IP
# vi /etc/sysconfig/network-scripts/ifcfg-eth0
master设置为 192.168.1.66
slave 设置为 192.168.1.67

修改主机名
# vi /etc/sysconfig/network
master设置为 HOSTNAME=master
slave 设置为 HOSTNAME=slave

修改域名(两台同时在文件末尾追加)
# vi /etc/hosts
192.168.1.66 master
192.168.1.67 slave

# service network restart //重启网卡

安装 JDK 所需安装包 jdk-7-linux-i586.rpm
# rpm -ivh jdk-7-linux-i586.rpm
# vi /etc/profile //配置java环境变量
追加：
   export JAVA_HOME=/usr/java/jdk1.7.0
   export CLASSPATH=.:$JAVA_HOME/jre/lib/rt.jar:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
   export PATH=$PATH:$JAVA_HOME/bin
# source /etc/profile //设置生效

安装 OpenSSH 命令：yum install openssh openssh-clients
# ssh-keygen -t rsa -P '' -f /root/.ssh/id_dsa //ssh无密码连接
# cat /root/.ssh/id_dsa.pub >> /root/.ssh/authorized_keys
将master的id_dsa.pub 传给slave，命名为master_id_dsa
在slave 上执行# cat master_id_dsa.pub >> /root/.ssh/authorized_keys

安装 Hadoop 所需安装包 hadoop-1.1.1.tar.gz
# tar zxvf hadoop-1.1.1.tar.gz
# mv 到 /usr/local/hadoop
# vi /usr/local/hadoop/conf/hadoop-env.sh
更新为 export JAVA_HOME=/usr/java/jdk1.7.0

# vi /usr/local/hadoop/conf/core-site.xml
<configuration>标签内添加：
   <property>
       <name>hadoop.tmp.dir</name>
       <value>/home/hadoop-${user.name}</value>
   </property>
   <property>
       <name>fs.default.name</name>
       <value>hdfs://master:9000</value>
   </property>

# vi /usr/local/hadoop/conf/mapred-site.xml
<configuration>标签内添加：
   <property>
      <name>mapred.job.tracker</name>
      <value>master:9001</value>
   </property>

# vi /usr/local/hadoop/conf/hdfs-site.xml
<configuration>标签内添加：
   <property>
      <name>dfs.name.dir</name>
      <value>/home/hadoop/name</value>
   </property>
   <property>
      <name>dfs.data.dir</name>
      <value>/home/hadoop/data</value>
   </property>
   <property>
      <name>dfs.replication</name>
      <value>2</value>
   </property>
dfs.replication是数据需要备份的数量，默认是3，如果此数大于集群的机器数会出错
注意：此处的name、data目录不能预先创建，hadoop格式化时会自动创建。

# vi /usr/local/hadoop/conf/masters //编辑配置文件masters
master

# vi /usr/local/hadoop/conf/slaves //编辑配置文件slaves
slave

把配置好的hadoop文件夹拷贝到其他集群的机器中
# scp -r /usr/local/hadoop root@slave:/usr/local/hadoop

格式化一个新的分布式文件系统
# /usr/local/hadoop/bin/hadoop namenode -format

# /usr/local/hadoop/bin/start-all.sh //启动所有
# /usr/local/hadoop/bin/stop-all.sh //关闭所有
# jps //查看运行进程
2820 Jps
1161 NameNode
1297 SecondaryNameNode
1378 JobTracker

http://192.168.1.66:50070/
http://192.168.1.66:50030/

负载均衡
# start-balancer.sh //可以使DataNode节点上选择策略重新平衡DataNode上的数据块的分布

HDFS常用操作
hadoop dfs -ls 列出HDFS下的文件
hadoop dfs -ls in 列出HDFS下某个文档中的文件
hadoop dfs -put 1.txt test 上传文件到指定目录并且重新命名，只有所有的DataNode都接收完数据才算成功
hadoop dfs -get in getin 从HDFS获取文件并且重新命名为getin，同put一样可操作文件也可操作目录
hadoop dfs -rmr out 删除指定文件从HDFS上
hadoop dfs -cat in/* 查看HDFS上in目录的内容
hadoop dfsadmin -report 查看HDFS的基本统计信息，结果如下
hadoop dfsadmin -safemode leave 退出安全模式
hadoop dfsadmin -safemode enter 进入安全模式

hadoop dfs -put ./gg ling 本地gg目录上传 HDFS 改名为ling
hadoop jar hadoop-examples-1.1.1.jar wordcount ling lout    //统计单词出现次数
hadoop dfs -cat ling/*   //查看

安装 Zookeeper 所需安装包 zookeeper-3.4.5.tar.gz
# tar zxvf zookeeper-3.4.5.tar.gz
# mv 到 /usr/local/zookeeper
# cd /usr/local/zookeeper/conf
# cp zoo_sample.cfg zoo.cfg
# vi zoo.cfg
   修改
   dataDir=/usr/local/zookeeper/data
   clientPort=30200
   //添加以下
   server.1=192.168.1.66:30201:30301
   server.2=192.168.1.67:30202:30302
# yum install nc
# /usr/local/zookeeper/bin/zkServer.sh start //启动
# /usr/local/zookeeper/bin/zkCli.sh -server 192.168.1.66:30200 //验证
# /usr/local/zookeeper/bin/zkServer.sh status //查看状态
JMX enabled by default
Using config: /usr/local/zookeeper/bin/../conf/zoo.cfg
Error contacting service. It is probably not running.

安装 HBase 所需安装包 hbase-0.94.3.tar.gz
# tar zxvf hbase-0.94.3.tar.gz
# mv 到 /usr/local/hbase
# mv /usr/local/hbase/hbase-webapps /usr/local/hbase/webapps
# rm -rf /usr/local/hbase/lib/hadoop-core-1.0.4.jar
# cp /usr/local/hadoop/hadoop-core-1.1.1.jar /usr/local/hbase/lib/
# vi /usr/local/hbase/conf/hbase-env.sh
export JAVA_HOME=/usr/java/jdk1.7.0

# vi /usr/local/hbase/conf/hbase-site.xml
<configuration>
<property>
    <name>hbase.rootdir</name>
    <value>hdfs://master:9000/hbase</value>
    <description>The directory shared by RegionServers.</description>
</property>
<property>
    <name>hbase.cluster.distributed</name>
    <value>true</value>
    <description>指定HBase运行的模式(false: 单机模式或者为分布式模式 true: 全分布模式)</description>
</property>
<property>
    <name>hbase.zookeeper.quorum</name>
    <value>slave</value>
    <description>ZooKeeper集群服务器的位置</description>
</property>
<property>
    <name>hbase.zookeeper.property.clientPort</name>
    <value>30200</value>
</property>
</configuration>

# vi /usr/local/hbase/conf/regionservers
slave

# hadoop dfs -mkdir /hbase //创建目录
经过上面几个骤，基本已经在一台机器上（master）配置好HBase了，这时，需要将上述的全部环境变量配置，也在各个从结点上进行配置，然后将配置好的HBase安装文件拷贝分发到各个从结点上
# scp -r /usr/local/hbase root@slave:/usr/local/hbase
# /usr/local/hbase/bin/start-hbase.sh //启动HBase集群
# jps
3574 Jps
1161 NameNode
3377 HMaster
2876 ZooKeeperMain
1297 SecondaryNameNode
1378 JobTracker
# /usr/local/hbase/bin/hbase shell //验证安装
hbase(main):001:0> status
1 servers, 0 dead, 2.0000 average load
http://192.168.1.66:60010/master-status //查看HMaster运行状态

安装 Flume 所需安装包 apache-flume-1.3.0-bin.tar.gz
# tar zxvf apache-flume-1.3.0-bin.tar.gz
# mv 到 /usr/local/flume
# cp /usr/local/flume/conf/flume-conf.properties.template /usr/local/flume/conf/flume-conf.properties

# /usr/local/flume/bin/flume-ng agent -c conf -f /usr/local/flume/conf/flume-conf.properties >1.log &

安装 CygWin Cygwin_setup.exe
请选择从互联网安装, 在"User URL"处输入http://cygwin.wardking.com/pub/
点击"Add"按钮, 然后选中"http://cygwin.wardking.com/pub/", 点击"下一步"进行安装
建议把Base、Libs、Utils、 net、Security下的都安装了。