mapreduce 学习过程

1. 大致阅读 mapred_tutorial.pdf
2. 建立一个eclipse 项目,拷贝 wordCount ,编译,执行
bin/hadoop jar mylib/tuthadoop.jar com.***.tut.WordCount input1 output1
3. 缺省的 input ,会读 input1 底下的每个文件的每一行
缺省的output ,会把每一行写入output1 底下的文件
4. easy
5. 阅读 nutch 源码 ,因为 nutch build on hadoop 太多的map reduce example. very good.

http://wiki.apache.org/nutch/Becoming_A_Nutch_Developer, 建议的阅读顺序
In order they are Injector, Generator, Fetcher, ParseSegment, CrawlDb, LinkDb, Indexer, DeleteDuplicates.

http://banditjava.iteye.com/blog/244262
Nutch开源搜索引擎的crawl日志分析及工作目录说明。

http://www.hadoop.org.cn/mapreduce/nutch-mapreduce/

阅读 Injector ,Generator 等类。 呵呵。

6. 不能确定下一步是否需要部署 nutch
http://wiki.apache.org/nutch/NutchHadoopTutorial
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值