Hadoop集群搭建步骤:
1、 安装虚拟机
2、 安装Linux镜像
3、 配置网络
vi /etc/sysconfig/network-scripts/ifcfg-eth0
修改
ONBOOT=yes
BOOTPROTO=dhcp 网络ip自动获取
4、 重启网络服务 service network restart
5、 关闭防火墙 service iptables stop
6、 禁用防火墙 chkconfig iptables off
7、 查询Java相关的软件 rpm –qa|grep java
8、 卸载jdk rpm –e –nodeps 文件名
9、 克隆三台虚拟机node01、node02、node03
10、修改主机名 vi /etc/sysconfig/network -> hostname
修改完主机名后重启 reboot
11、 通过ping命令确认每台服务器和本地的主机能够ping通
添加jdk步骤:
1、 将jdk压缩包传入三台虚拟机
2、 ls -> cd apps -> ls
3、 解压文件 tar –zxvf 文件名
4、 强制删除文件 rm –rf 文件名 (ls查看是否删除成功)
5、 进入文件并配置环境:
vi /etc/profile
添加:export JAVA_HOME=/root/apps/jdk1.7.0_79
export PATH=$PATH:$JAVA_HOME/bin
6、 source /etc/profile
7、 java-version(查看jdk是否安装成功)
取别名并切换虚拟机步骤:
1、 给ip取别名 vi /etc/hosts -> ip(192.168.xxx.xxx) 别名(node01)
2、 ssh 别名 -> yes -> 输入密码 -> 进入
3、 免密操作步骤:
ssh-keygen -> 回车 -> 回车 -> 回车
ssh-copy-id 虚拟机名
保证每个虚拟机之间互相联通
Hadoop配置步骤:
1、 将hadoop压缩包传入三台虚拟机
2、 解压文件 tar –zxvf 文件名
3、 强制删除文件 rm –rf 文件名 (ls查看是否删除成功)
4、 ls -> cd hadoop2.8.5/ -> ls -> cd etc -> ls -> cd hadoop/
5、 vi hadoop-env.sh
export JAVA_HOME=/root/apps/jdk1.7.0_79
6、vi core-site.xml
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://node01:9000/</value>
</property>
</configuration>
7、vi hdfs-site.xml
<configuration>
<property>
<name>dfs.namenode.name.dir</name>
<value>/root/dfs/name</value>
</property>
<property>
<name>dfs.datanode.name.dir</name>
<value>/root/dfs/data</value>
</property>
</configuration>
8、 配置环境
vi /etc/profile
export JAVA_HOME=/root/apps/jdk1.7.0_79
export HADOOP_HOME=/root/apps/hadoop-2.8.5
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
9、 source /etc/profile
10、远程拷贝
scp –r /root/apps/hadoop-2.8.5/ node02:/root/apps/
scp -r /etc/profile node02:/etc/ node03同
11、初始化 namenode:hadoop namenode -format
12、启动 namenode :hadoop-daemon.sh start namenode (node01)
启动 datanode:hadoop-daemon.sh start datanode (node01 node02 node03)
source /etc/profile
13、jps查看进程是否启动成功
14、在浏览器上 http://192.167.13.129:50070/ 运行
上传文件到Hadoop:
hadoop fs –put /root/hadoop-2.8.5.tar.gz /
stop-dfs.sh
start-dfs.sh
jps查看进程
切块大小的参数:dfs.blocksize
副本数量的参数:dfs.replication
上面两个参数要配置在hadoop目录中的hdfs-site.xml中
<property>
<name>dfs.blocksize</name>
<value>64m</value>
</property>
<property>
<name>dfs.replication</name>
<value>2</value>
</property>
1、上传文件到hdfs中
hadoop fs -put /本地文件 /hdfs目录
2、下载文件到客户端本地磁盘
hadoop fs -get /hdfs中的目录 /本地磁盘目录
3、Eclipse中代码实现
在终端中新建文件夹到HDFS中:
hadoop fs -mkdir –p /wordcount/input
hadoop fs –ls /
新建文本
vi 文本名1(a.txt)
vi 文本名2(a.txt)
vi 文本名3(a.txt)
返回根目录 pwd
将文本添加到目录中
hadoop fs –put /root/a.txt /wordcount/input
hadoop fs –put /root/b.txt /wordcount/input
hadoop fs –put /root/c.txt /wordcount/input
在浏览器中查看是否新建成功
在eclipse中完成代码,然后在终端查看统计结果
hadoop fs –ls /
hadoop fs –ls /wordcount
hadoop fs –ls /wordcount/output
hadoop fs –ls /wordcount/output/res.txt 完成统计