Nutch研究系列1——安装(收藏)

原著未明,仅做收藏,谅解

最近着手开始研究 Nutch,以前在 Linux上曾经对 Nutch鼓捣过一段时间,但当时纯粹是出于一种好奇和玩乐的心态,并没有对其进行过深入的探讨和研究。随着自己的论文方向锁死在搜索引擎爬虫,在此之前又一直关注于搜索算法理论和数学模型等的学习上,现在是到了静下心来在实现技术上花点功夫的时候了。

其实一开始,我的目标曾经是 Larbin(详细介绍请 Google),但是最终转向了 Nutch,主要考虑到两个方面的问题:一是 Larbin的功能有点单薄,只有抓取功能的实现,接下来的索引等工作都需要自己来完成,而我目前主要的目的在于主题抓取,其余的部分我不想过于涉足,只想有一个实验平台就好。如果用 Larbin的话就需要花费相当的时间在抓取以外的部分;用 Nutch的话就比较方便了,其功能比较齐全,直接可以搭建起来进行搜索引擎的运行,这样我就可以集中精力对其抓取的部分进行分析和研究,作出我自己需要的改进。另一方面就是考虑到编程语言的问题, Larbin是基于 c++的, Nutch则是基于 java的,对我而言, java的能力要远高于 c++,选择 java对我有利。不过相对的, c++的速度我就享受不到了,虽然有点担心,但是目前对于我只是研究来说,好像还不需要太多的担心。

至于操作系统,最好当然是 Linux,但是目前我却是在 windows上进行测试。因为我现在是在我个人的 pc上进行学习,一边要运行它,另一边我还得做很多其它的工作,等过些时候导师的服务器到了,到时候再配置到那上面去吧。

说了这么多废话,言归正传,安装测试 Nutch。有过 Linux的安装经验,在 windows上面难度其实不大,但是还是碰到了几个问题,让我晕得厉害。详细的安装指南请参考朱春雷: Nutchwindows中安装之细解Nutch使用之锋芒初试。这两篇文章写的很不错,很值得向人推荐,其中所需资源的下载链接速度也是很快的, 1G多的 cygwin半个小时就 down下来了。

唯一需要注意的是,文章默认为你是一个 java入门级的人,所以对 jdktomcat的安装配置都没有进行详细介绍,一些小的操作也是一笔带过,请大家小心。

我在安装过程中碰到了一个不算问题的郁闷事,那就是我下载的最新版本 Nutchtar.gz压缩包在解压缩的时候总是报错,说是 "tar存档文件出现错误 ",一开始我以为是 flashget多线程下载损坏文件了,后来我怀疑 winrar有问题,后来折腾了五六遍也不知道是怎么回事。说是下载坏了,重下载也不行,说是 winrar不行, winzip也不行,真是郁闷。后来终于等到 cygwin下载完了,得了,直接安装上去用 Linux命令 tar xvzf file.tar.gz 解压缩吧。果然就成功了, Nutch真是欺负 windows啊,哈哈。

安装完了,接下来的进一步研究且待后续分解:)
 
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值