![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
nutch
雨落
学习云计算、web开发、分布式数据库、android开发!
展开
-
Nutch总结
Nutch一些常用的命令:抓取 bin/nutch crawl urls -dir -depth -topN -threads >& / .log steps in 1.读取urls目录下的站点添加到 crawldb里 bin/nutch inject /crawldb urls 2.创建一个segments,存放到 目录下 bin/nutc原创 2011-12-29 11:26:45 · 1321 阅读 · 1 评论 -
Nutch 1.4使用
网上关于nutch1.4的文章真是太少了,没有参考只好自己摸索了。首先到apache下载nutch1.4,1.2以下的版本我是找不到了,本来还想做对比呢。如果谁有的话麻烦给发一个。邮箱anbo724@gmail.com一、本地版本的nutch1.4使用,这里就不准备介绍了,因为我完全按照http://wiki.apache.org/nutch/NutchTutorial 就可以配置出来,这原创 2011-12-29 10:57:27 · 5087 阅读 · 7 评论 -
Apache Nutch 1.3 学习笔记一
转自:http://www.cnblogs.com/ibook360/archive/2011/10/22/2221461.html1. Nutch是什么?Nutch是一个开源的网页抓取工具,主要用于收集网页数据,然后对其进行分析,建立索引,以提供相应的接口来对其网页数据进行查询的一套工具。其底层使用了Hadoop来做分布式计算与存储,索引使用了Solr分布式索引框转载 2011-12-29 14:50:01 · 561 阅读 · 0 评论