nutch1.5编译过程

1      下载nutch 1.5

2       安装ant   apt-get install ant

3        解压nutch1.5并进入解压目录

4        切换成root用户,不然编译会没反应,然后运行命令ant

5        将build目录编译得到的apache-nutch-1.5.jar 和apache-nutch-1.5.job拷贝到lib目录下面,然后将lib目录和plugins两个目录都拷贝到上一层目录

6   将src里面的bin文件夹拷本到上一层目录

   接下来就是配置了 到 解压包的目录下有一个目录 Conf 下面有一个文件nutch-site.xml 里加入如下 
<property>
<name>http.agent.name</name>
<value>My Nutch Spider</value>
</property
这个配置的目的就是为自己的网络爬虫设置名字

8      用命令创建文件夹urls  在文件夹下 创建一个txt文件 seed.txt 或者你自己命名的在txt文件里你可以加入http://www.sina.com.cn/或者其他你想要抓取的网站链接 
9      修改 regex-urlfilter.txt文件 同样在conf目录里 把 +. 替换成+^http://([a-z0-9]*\.)*sina.com.cn/
10    执行bin/nutch crawl urls -dir crawl -depth 3 -topN 5 命令 执行完后你会看到
        crawl/crawldb
        crawl/linkdb
        crawl/segments
        被创建 

至此,nutch已经跑了起来,下一步就是将结果搭建tomcat或者Solr

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值