nutch 安装配置

  之前接触过一些爬虫的东西,主要是编写脚本,爬取网页上想要的信息。最近了解了一个开源搜索引擎,这几天主要配置。遇到了一些问题。下面介绍一下安装的流程:

1、安装cygwin,主要用于window下提供linux的环境。具体安装过程可以参考http://hi.baidu.com/www100/item/b79723f239cf9449932af29f。注意选择需要的工具包。

2、cygwin中安装ssh,最好配置为不需要密码即可登陆。

3、下载hadoop1.2.1,安装jdk,配置好环境变量。注意路径下有空格的时候,配置的时候要注意。可以参考http://blog.csdn.net/liu_jason/article/details/7706781

但是配置完成后,运行wordcount,发现如下错误:

4、安装nutch2.2.1

需要下载ant进行编译,编译后。可以执行runtime/local/bin。也遇到了一些错误,经过查询依次解决。但是执行实例后,什么都没抓到。

这个问题最终解决了,我主要是将nutch抓到的数据存储到数据库就看到结果了。

其中nutch配置mysql主要参考的博客 http://blog.sina.com.cn/s/blog_3c9872d00101p4f0.html

最终显示

数据库保存了数据

希望有遇到相同问题的,多多指教!

 

转载于:https://www.cnblogs.com/fengjiaoan/p/3347740.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值