在UBUNTU安装NUTCH(十个简单的步骤)

下面十个步骤能安装Nutch, 并且能爬行你的网站, 创建你自己网站的Web DB。

如果你有任何问题, 请给我邮件:mail.swapnilk@gmail.com


步骤 1:

从这里下载最新的程序:

http://www.apache.org/dyn/closer.cgi/nutch/


步骤  2:

创建文件夹:


sudo mkdir /usr/local/nutchsudo mkdir /usr/local/nutch/frameworksudo mkdir /usr/local/nutch/dist

步骤  3:

拷贝程序到下面这个目录:

sudo cp apache-nutch-1.4-bin.tar.gz /usr/local/nutch/dist/

步骤 4:

解压

sudo tar -xvzf apache-nutch-1.4-bin.tar.gz -C /usr/local/nutch/framework/


步骤  5:
修改权限, 使其可以执行
sudo chmod +x /usr/local/nutch/framework/apache-nutch-1.4-bin/runtime/local/bin/nutch

步骤  6:
创建种子文件
sudo mkdir -p /usr/local/nutch/framework/apache-nutch-1.4-bin/runtime/local/bin/urlssudo gedit /usr/local/nutch/framework/apache-nutch-1.4-bin/runtime/local/bin/urls/nutch


加入下面这行到
nutch.txt

http://www.inkebook.com/

步骤  7:
编辑文件加入 Agent


sudo gedit /usr/local/nutch/framework/apache-nutch-1.4-bin/runtime/local/conf/nutch-site.xml


加入下面这个配置
http.agent.nameMy Spider
步骤 8:
编辑正则表达式文件
sudo gedit /usr/local/nutch/framework/apache-nutch-1.4-bin/runtime/local/conf/regex-urlfilter.txt

替换

# accept anything else
+.

成这样
# accept anything else#+.

然后再加入这行
+^http://([a-z0-9]*\.)* www.inkebook.com/

步骤  9:
设置 JDK 及设置环境变量 JAVA_HOME
sudo add-apt-repository ppa:ferramroberto/javasudo apt-get updatesudo apt-get install sun-java6-jdksudo apt-get install sun-java6-jdk sun-java6-jre sun-java6-plugin sun-java6-fontsexport JAVA_HOME=/usr

步骤  10:
开始爬行网站!
/usr/local/nutch/framework/apache-nutch-1.4-bin/runtime/local/bin/nutch crawl urls -dir crawl -depth 10 -topN 1000

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值