1 下载nutch 1.5
2 安装ant apt-get install ant
3 解压nutch1.5并进入解压目录
4 切换成root用户,不然编译会没反应,然后运行命令ant
5 将build目录编译得到的apache-nutch-1.5.jar 和apache-nutch-1.5.job拷贝到lib目录下面,然后将lib目录和plugins两个目录都拷贝到上一层目录
6 将src里面的bin文件夹拷本到上一层目录
7 接下来就是配置了 到 解压包的目录下有一个目录 Conf 下面有一个文件nutch-site.xml 里加入如下
<property>
<name>http.agent.name</name>
<value>My Nutch Spider</value>
</property
这个配置的目的就是为自己的网络爬虫设置名字
8 用命令创建文件夹urls 在文件夹下 创建一个txt文件 seed.txt 或者你自己命名的在txt文件里你可以加入http://www.sina.com.cn/或者其他你想要抓取的网站链接
9 修改 regex-urlfilter.txt文件 同样在conf目录里 把 +. 替换成+^http://([a-z0-9]*\.)*sina.com.cn/
10 执行bin/nutch crawl urls -dir crawl -depth 3 -topN 5 命令 执行完后你会看到
crawl/crawldb
crawl/linkdb
crawl/segments
被创建
至此,nutch已经跑了起来,下一步就是将结果搭建tomcat或者Solr