大家好,今天给大家介绍一下Ubuntu下eclipse开发hadoop应用程序环境配置,目的很简单,为进行研究与学习,部署一个hadoop运行环境,并搭建一个hadoop开发与测试环境。
环境:Vmware 10.0 和Ubuntu10.04
第一步:下载eclipse-SDK-4.2.1-linux-gtk.tar.gz
注意:下载linux下的32位eclipse,不要下载64位的eclipse,不然会无法启动eclipse
第二步:下载最新版本的hadoop插件
重命名:将下载的插件重命名为"hadoop-1.0.2-eclipse-plugin.jar"
将hadoop-1.0.2-eclipse-plugin.jar 复制到eclipse/plugins目录下,重启eclipse。
1、在左边的 project explorer 上头会有一个 DFS locations的标志
2、在 windows -> preferences里面会多一个hadoop map/reduce的选项,选中这个选项,然后右边,把下载的hadoop根目录选中
如果能看到以上两点说明安装成功了。
第三步:配置hadoop路径
Window -> Preferences 选择 “Hadoop Map/Reduce”,点击“Browse...”选择Hadoop文件夹的路径。
这个步骤与运行环境无关,只是在新建工程的时候能将hadoop根目录和lib目录下的所有jar包自动导入。
第四步:添加一个MapReduce环境
插件装完了,启动hadoop,然后就可以建一个hadoop连接了,就相当于eclipse里配置一个 weblogic的连接。
配置Map/Reduce Locations。
在Window-->Show View中打开Map/Reduce Locations。
在Map/Reduce Locations中新建一个Hadoop Location。在这个View中,右键-->New Hadoop Location。在弹出的对话框中你需要配置Location name,如myubuntu,还有Map/Reduce Master和DFS Master。这里面的Host、Port分别为你在mapred-site.xml、core-site.xml中配置的地址及端口。
在eclipse下端,控制台旁边会多一个Tab,叫“Map/Reduce Locations”,在下面空白的地方点右键,选择“New Hadoop location...”,如图所示:
location name: 这个随便填写,我填写的是:hadoop-1.0.2.
Map/Reduce Master 这个框里
Host:就是jobtracker 所在的集群机器,这里写localhost
Hort:就是jobtracker 的port,这里写的是9001
这两个参数就是mapred-site.xml里面mapred.job.tracker里面的ip和port
DFS Master 这个框里
Host:就是namenode所在的集群机器,这里写localhost
Port:就是namenode的port,这里写9000
这两个参数就是core-site.xml里面fs.default.name里面的ip和port
(Use M/R master host,这个复选框如果选上,就默认和Map/Reduce Master这个框里的host一样,如果不选择,就可以自己定义输入,这里jobtracker 和namenode在一个机器上,所以是一样的,就勾选上)
user name:这个是连接hadoop的用户名,我的是hadoop
然后点击finish按钮,此时,这个视图中就有多了一条记录。
配置完后退出。点击DFS Locations-->hadoop-1.0.2如果能显示文件夹(2)说明配置正确,如果显示"拒绝连接",请检查你的配置。
第五步:使用eclipse对HDFS内容进行修改
经过上一步骤,左侧“Project Explorer”中应该会出现配置好的HDFS,点击右键,可以进行新建文件夹、删除文件夹、上传文件、下载文件、删除文件等操作。注意:每一次操作完在eclipse中不能马上显示变化,必须得刷新一下。
在/user/hadoop/input1 目录下新建两个文件file01.txt,file02.txt
file01.txt内容如下:
- hello hadoop
file02.txt内容如下:
- hello world
上传本地文件到hdfs:
- bin/hadoop dfs -put /proj/wordcount/file* input
-
第六步:创建工程
File -> New -> Project 选择“Map/Reduce Project”,然后输入项目名称,创建项目。插件会自动把hadoop根目录和lib目录下的所有jar包导入。
把hadoop/hadoop-1.2.1/src/examples/文件夹下的org文件夹拷贝到项目的src目录下
第七步.运行项目
1.在新建的项目wordcount上,点击WordCount.java,右键-->Run As-->Run Configurations
2.在弹出的Run Configurations对话框中,点Java Application,右键-->New,这时会新建一个application名为WordCount
3.配置运行参数,点Arguments,在Program arguments中输入“你要传给程序的输入文件夹和你要求程序将计算结果保存的文件夹”,如:
- hdfs://localhost:9000/user/hadoop/input1 hdfs://localhost:9000/user/hadoop/output1
这里面的input1就是你刚传上去文件夹。文件夹地址你可以根据自己具体情况填写。
4.点击Run,运行程序。
运行过程肯可能如下:
12/10/18 22:53:38 INFO jvm.JvmMetrics: Initializing JVM Metrics with processName=JobTracker, sessionId=
12/10/18 22:53:38 WARN mapred.JobClient: Use GenericOptionsParser for parsing the arguments. Applications should implement Tool for the same.
12/10/18 22:53:38 WARN mapred.JobClient: No job jar file set. User classes may not be found. See JobConf(Class) or JobConf#setJar(String).
12/10/18 22:53:38 INFO mapred.FileInputFormat: Total input paths to process : 2
12/10/18 22:53:39 INFO mapred.JobClient: Running job: job_local_0001
12/10/18 22:53:39 INFO mapred.FileInputFormat: Total input paths to process : 2
12/10/18 22:53:39 INFO mapred.MapTask: numReduceTasks: 1
12/10/18 22:53:39 INFO mapred.MapTask: io.sort.mb = 100
12/10/18 22:53:39 INFO mapred.MapTask: data buffer = 79691776/99614720
12/10/18 22:53:39 INFO mapred.MapTask: record buffer = 262144/327680
12/10/18 22:53:39 INFO mapred.MapTask: Starting flush of map output
12/10/18 22:53:39 INFO mapred.MapTask: Finished spill 0
12/10/18 22:53:39 INFO mapred.TaskRunner: Task:attempt_local_0001_m_000000_0 is done. And is in the process of commiting
12/10/18 22:53:39 INFO mapred.LocalJobRunner: hdfs://localhost:9100/user/tanglg1987/input/file01.txt:0+12
12/10/18 22:53:39 INFO mapred.TaskRunner: Task 'attempt_local_0001_m_000000_0' done.
12/10/18 22:53:39 INFO mapred.MapTask: numReduceTasks: 1
12/10/18 22:53:39 INFO mapred.MapTask: io.sort.mb = 100
12/10/18 22:53:39 INFO mapred.MapTask: data buffer = 79691776/99614720
12/10/18 22:53:39 INFO mapred.MapTask: record buffer = 262144/327680
12/10/18 22:53:39 INFO mapred.MapTask: Starting flush of map output
12/10/18 22:53:39 INFO mapred.MapTask: Finished spill 0
12/10/18 22:53:39 INFO mapred.TaskRunner: Task:attempt_local_0001_m_000001_0 is done. And is in the process of commiting
12/10/18 22:53:39 INFO mapred.LocalJobRunner: hdfs://localhost:9100/user/tanglg1987/input/file02.txt:0+13
12/10/18 22:53:39 INFO mapred.TaskRunner: Task 'attempt_local_0001_m_000001_0' done.
12/10/18 22:53:39 INFO mapred.LocalJobRunner:
12/10/18 22:53:39 INFO mapred.Merger: Merging 2 sorted segments
12/10/18 22:53:39 INFO mapred.Merger: Down to the last merge-pass, with 2 segments left of total size: 69 bytes
12/10/18 22:53:39 INFO mapred.LocalJobRunner:
12/10/18 22:53:39 INFO mapred.TaskRunner: Task:attempt_local_0001_r_000000_0 is done. And is in the process of commiting
12/10/18 22:53:39 INFO mapred.LocalJobRunner:
12/10/18 22:53:39 INFO mapred.TaskRunner: Task attempt_local_0001_r_000000_0 is allowed to commit now
12/10/18 22:53:39 INFO mapred.FileOutputCommitter: Saved output of task 'attempt_local_0001_r_000000_0' to hdfs://localhost:9100/user/tanglg1987/output
12/10/18 22:53:39 INFO mapred.LocalJobRunner: reduce > reduce
12/10/18 22:53:39 INFO mapred.TaskRunner: Task 'attempt_local_0001_r_000000_0' done.
12/10/18 22:53:40 INFO mapred.JobClient: map 100% reduce 100%
12/10/18 22:53:40 INFO mapred.JobClient: Job complete: job_local_0001
12/10/18 22:53:40 INFO mapred.JobClient: Counters: 15
12/10/18 22:53:40 INFO mapred.JobClient: FileSystemCounters
12/10/18 22:53:40 INFO mapred.JobClient: FILE_BYTES_READ=49601
12/10/18 22:53:40 INFO mapred.JobClient: HDFS_BYTES_READ=62
12/10/18 22:53:40 INFO mapred.JobClient: FILE_BYTES_WRITTEN=100852
12/10/18 22:53:40 INFO mapred.JobClient: HDFS_BYTES_WRITTEN=25
12/10/18 22:53:40 INFO mapred.JobClient: Map-Reduce Framework
12/10/18 22:53:40 INFO mapred.JobClient: Reduce input groups=3
12/10/18 22:53:40 INFO mapred.JobClient: Combine output records=4
12/10/18 22:53:40 INFO mapred.JobClient: Map input records=2
12/10/18 22:53:40 INFO mapred.JobClient: Reduce shuffle bytes=0
12/10/18 22:53:40 INFO mapred.JobClient: Reduce output records=3
12/10/18 22:53:40 INFO mapred.JobClient: Spilled Records=8
12/10/18 22:53:40 INFO mapred.JobClient: Map output bytes=57
12/10/18 22:53:40 INFO mapred.JobClient: Map input bytes=25
12/10/18 22:53:40 INFO mapred.JobClient: Combine input records=4
12/10/18 22:53:40 INFO mapred.JobClient: Map output records=4
12/10/18 22:53:40 INFO mapred.JobClient: Reduce input records=4
查看运行结果:
在输出目录中,可以看见WordCount程序的输出文件。除此之外,还可以看见一个logs文件夹,里面会有运行的日志。