对于Hadoop的搭建,需要事先安装Java 与 SSH
1.Java安装
可以下载源码进行安装,也可以直接通过 sudo apt-get install sun-java6-jdk进行安装。
一般来说java的安装路径为/usr/lib/jvm/...
需要修改系统配置文件 在/etc/profile中添加 export JAVA_HOME=/usr/lib/jvm/...
运行 source /etc/profile
2.SSH的安装
sudo apt-get install ssh
ssh-keygen -t dsa -P ' ' -f ~/.ssh/id_dsa
cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys
ssh localhost
3.安装Hadoop
分别修改配置文件Hadoop-env.sh ,core-site.xml ,hdfs-site.xml ,mapred-site.xml
Hadoop-env.sh中添加
export JAVA_HOME=/usr/lib/jvm/java-6-openjdk-amd64
core-site.xml中添加
<property>
<name>fs.default.name</name>
<value>hdfs://localhost:9000</value>
</property>
hdfs-site.xml中添加
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
mapred-site.xml中添加
<property>
<name>mapred.job.tracker</name>
<value>localhost:9001</value>
</property>
source Hadoop-env.sh
格式化文件系统 bin/hadoop hdfs -format
启动hadoop : bin/start-all.sh
如果没成功,可以分开启动,不用全部启动(分别启动yarn,dfs)
4.测试安装的Hadoop
可以使用计数器的案例进行测试
(1)bin/hadoop dfs -ls / 显示dfs中的为文件
(2)bin/hadoop dfs -mkdir /input/ 创建输入文件夹
(3)cat "Hello world bye world" > file01
cat "Hello hadoop bye hadoop" >file02
创建两个测试文件
(4)bin/hdfs dfs -copyFromLocal /usr/local/hadoop/hadoop-2.2.0/file01 /input
bin/hdfs dfs -copyFromLocal /usr/local/hadoop/hadoop-2.2.0/file02 /input
将两个文件拷贝到输入文件夹中
(5)bin/hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-2.2.0.jar wordcount /input/ /Output
统计两个文件中单词数量
(6)bin/hadoop dfs -cat /Output/part-r-00000
查看运行结果
Hello 2
world 2
bey 2
hadoop 2
需要说明的是,运行bin/hadoop dfs -ls /
可能会出现警告:
WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
可以无视,但是产生的原因在于 下载的hadoop版本是由32位系统进行编译的,需要在64位系统上重新编译。
有关于hadoop源码的编译可见网址 http://www.micmiu.com/bigdata/hadoop/hadoop-build-source-2-2-0/