上一篇文章有说明nutch的按照和编译过程,本篇日志主要讲解nutch抓取的过程。
1.抓取的条件
在urls目录下面建立一个文本文件url.txt,将需要抓取的连接写入,如:
http://blog.tianya.cn
2.执行抓取命令
在runtime/local目录下面执行如下命令:
nohup bin/nutch crawl urls -dir data -depth 3 -threads 100 &
3.抓取的过程
运行抓取命令之后,会生成2个目录和1个文件: