在windows下用eclipse编写map-reduce程序后可以直接提交到Hadoop集群上运行。现在进行相关环境的搭建
1、前期准备
- hadoop集群(可以是虚拟机集群)
- hadoop2.7.3源码以及winutils(windows下必备工具) 将其解压到源码的bin目录下,并将hadoop.dl拷贝到system32目录下
设置hadoop环境变量
将hadoop2.7.3的eclipse插件拷贝到eclipse目录下的plugins目录
2、配置eclipse设置集群连接
Window->Show View->Other->MapReduce Tools->Map/Reduce Locations
如图所示进行集群配置 其中Host填写master主机的Ip,DFS端口对应core-site.xml下的fs.default.name的端口 Map/Reduce端口对应对应mapred-site.xml下的jobtracher地址 用户名随意
选择Map/Reduce视图,连接上可以看到hdfs下的文件目录
3、新建Map-Reduce工程并测试
File->New->Project->Map/Reduce Project
填写名字和选择hadoop安装目录
一般会自动导入lib,如果没有导入jar包,则手动导入share目录下common\hdfs\mapreduce\yarn四个目录下的所有lib
新建Mapper
新建Reducer
新建MapReducer Driver
在hdfs中新建in 文件夹 并增加测试文件1.txt,2.txt
右键Run as -> Run configurations 配置输入参数 分别是in out
右键Run On Hadoop查看结果 看出字符统计的结果已经放在out目录中
至此 已经可以在eclipse下开发hadoop相关程序