mapreduce 学习过程

最新推荐文章于 2024-07-13 15:49:55 发布

stephen80

最新推荐文章于 2024-07-13 15:49:55 发布

阅读量58

点赞数

分类专栏： search engine 文章标签： Mapreduce Hadoop Eclipse 搜索引擎 Apache

本文链接：https://blog.csdn.net/stephen80/article/details/83294898

版权

search engine 专栏收录该内容

11 篇文章 0 订阅

订阅专栏

1. 大致阅读 mapred_tutorial.pdf
2. 建立一个eclipse 项目，拷贝 wordCount ，编译，执行
bin/hadoop jar mylib/tuthadoop.jar com.***.tut.WordCount input1 output1
3. 缺省的 input ，会读 input1 底下的每个文件的每一行
缺省的output ,会把每一行写入output1 底下的文件
4. easy
5. 阅读 nutch 源码，因为 nutch build on hadoop 太多的map reduce example. very good.

http://wiki.apache.org/nutch/Becoming_A_Nutch_Developer, 建议的阅读顺序
In order they are Injector, Generator, Fetcher, ParseSegment, CrawlDb, LinkDb, Indexer, DeleteDuplicates.

http://banditjava.iteye.com/blog/244262
Nutch开源搜索引擎的crawl日志分析及工作目录说明。

http://www.hadoop.org.cn/mapreduce/nutch-mapreduce/

阅读 Injector ，Generator 等类。呵呵。

6. 不能确定下一步是否需要部署 nutch
http://wiki.apache.org/nutch/NutchHadoopTutorial

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

stephen80

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
mapreduce 学习过程

1. 大致阅读 mapred_tutorial.pdf2. 建立一个eclipse 项目，拷贝 wordCount ，编译，执行 bin/hadoop jar mylib/tuthadoop.jar com.***.tut.WordCount input1 output13. 缺省的 input ，会读 input1 底下的每个文件的每一行缺省的output ,会把每...
复制链接

扫一扫