一直以来,对大数据都有无限的向往之情,但又因身边无尽琐事,一直搁浅了一窥其真面目的计划
幸而,在公司面临危险之境,竟有了时间来把它玩上一玩,中间踩了很多坑,现将其一 一记下,以便日后使用,也希望可以帮助想玩玩hadoop的你。
本机系统:win7(64位)+虚拟机(vmare)+linux(ubuntu)
1.在hadoop官网下载 hadoop-2.6.4.tar.gz 的安装包
将其上传至 linux环境 hadoop文件夹内 解压
tar -zxvf hadoop-2.6.4.tar.gz
如图:
进入 hadoop-2.6.4,可以看到以下内容
2.修改hadoop的配置
配置环境变量
vi /etc/environment
将你所安装的hadoop的路径添加入PATH:(注意用:分隔)
/home/software/hadoop/bin:/home/software/hadoop/sbin
cd etc/hadoop
(1) 在hadoop的文件夹里创建一个hadoop_tmp文件夹,作为hadoop的临时文件
修改core-site.xml
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://172.19.12.172:9000</value>
<final>true</final>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/home/software/hadoop/hadoop_tmp</value>
</property>
</configuration>
(2)修改hdfs-site.xml
<configuration>
<property>
<name>dfs.namenode.name.dir</name>
<value>/home/software/hadoop/hadoop-2.6.4/dfs/namenode</value>
<final>true</final>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>/home/software/hadoop/hadoop-2.6.4/dfs/datanode</value>
<final>true</final>
</property>
<property>
<name>dfs.http.address</name>
<value>172.19.12.172:50070</value>
<description>
The address and the base port where the dfs namenode web ui will listen on.
If the port is 0 then the server will start on a free port.
</description>
</property>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.permissions</name>
<value>false</value>
</property>
</configuration>
(3)修改mapred-site.xml.template(有些人的文件名可能为mapred-site.xml)
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<property>
<name>mapred.job.tracker</name>
<value>hdfs://172.19.12.172:9001</value>
</property>
<property>
<name>mapred.system.dir</name>
<value>file:/home/software/hadoop/hadoop-2.6.4/mapred/system</value>
<final>true</final>
</property>
<property>
<name>mapred.local.dir</name>
<value>file:/home/software/hadoop/hadoop-2.6.4/mapred/local</value>
<final>true</final>
</property>
</configuration>
(4)修改yarn-site.xml
<configuration>
<!-- Site specific YARN configuration properties -->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
<description>shuffle service that needs to be set for Map Reduce to run</description>
</property>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>172.19.12.172</value>
<description>hostname of Resource Manager</description>
</property>
<property>
<name>yarn.resourcemanager.webapp.address</name>
<value>172.19.12.172:8088</value>
</property>
</configuration>
以上四个配置文件非常重要,我配置里面配置的当前虚拟机里ubuntu的ip,这是为了在我的win7 下面可以直接访问虚拟机里面的hadoop服务
3.启动hadoop
至此hadoop linux 的安装 就结束了
http://Ip地址:50070
http://Ip地址:8088
可以访问到hadoop的管理界面
以上安装过程 转载 参考 http://www.cnblogs.com/yanglf/p/4020555.html
执行wordcount
(1)将hadoop 启动
hadoop fs -mkdir /input
在HDFS系统中创建input文件目录
sudo sh -c 'echo "hello hadoop" >count.txt'
hadoop fs -put count.txt /input
(3)
hadoop fs -ls /input
查看文件是否正确传入到/input目录下
hadoop fs -cat /input/count.txt查看文件内容
hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.4.jar wordcount /input /output
标红的地方为相对路径
看到这个就成功了
hadoop fs -ls /output
查看输出结果的目录
hadoop fs -cat /output/part-r-00000
查看输出结果
结果就是对count.txt文件中单词进行计数统计了,到这就运行完成了。
此步骤可参考:http://jingyan.baidu.com/article/ce09321b7a2e052bff858fd9.html
eclipse 安装hadoop可参考 https://my.oschina.net/muou/blog/408543#OSC_h2_8
注意:
以上应该可以让一个初学者完成安装,配置及实例运行