java nutch 爬虫_Java分布式爬虫Nutch教程——导入Nutch工程,执行完整爬取

这篇教程详细介绍了如何在Linux环境下配置和运行Java Nutch分布式爬虫。首先,你需要安装JDK 1.7、Apache Ant,并下载Nutch源码。接着,使用Intellij IDEA导入Nutch工程,修改ivysettings.xml以加速依赖下载。然后,通过ant命令转换项目并导入IDE。在运行过程中,需要手动配置Nutch的配置文件nutch-default.xml以指定插件路径。教程中还演示了如何处理运行错误,如URLNormalizer找不到的问题。最后,展示了如何执行Inject任务,读取SequenceFile,以及如何进行完整爬取的步骤。整个过程包括了注入种子URL、爬取、解析和索引等步骤。
摘要由CSDN通过智能技术生成

在使用本教程之前,需要满足条件:

1)有一台Linux或Linux虚拟机

2)安装JDK(推荐1.7)

3)安装Apache Ant

下载Nutch源码:

安装IDE:

推荐使用Intellij或者Netbeans,如果用eclipse也可以,不推荐。

Intellij官方下载地址:http://www.jetbrains.com/idea/download/

转换:

Nutch源码是用ant进行构建的,需要转换成eclipse工程才可以导入IDE正确使用,Intellij和Netbeans都可以支持ecilpse工程。

解压下载的apache-nutch-1.9-src.zip,得到文件夹apache-nutch-1.9。

在执行转换之前,我们先修改一下ivy中的一个源,将它改为开源中国的镜像,否则转换的过程会非常缓慢。(ant源码中并没有附带依赖jar包,ivy负责从网上自动下载jar包)。

修改apache-nutch-1.9文件夹中的ivy/ivysettings.xml:

de9f3ef95dffcd3f7e0eeac3a6c5f9f5.png

找到:

76cfca5e761cacd2067d540bef2a78eb.png

将value修改为http://maven.oschina.net/content/groups/public/ ,修改后:

2b590d0a2e686c8de3aae0fa80113901.png

保存并退出,保证当前目录为apache-nutch-1.9,执行命令:

ant eclipse-verbose

然后耐心等待,这个过程ant会根据ivy从中心仓库下载各种依赖jar包,可能要十几分钟。

1bfae0353d82fd87c6ce51ef0049b422.png

-verbose参数加上之后可以看到ant过程的详细信息。

10分钟左右,转换成功:

6fdc1d9f6c174212d846392eb2667110.png

打开Intellij, File -> Import Project ->选择apache-nutch-1.9文件夹,确定后选择Import project from external model(Eclipse)

08debcdfb68f5fac5419af397ecea6c2.png

一直点击next到结束。成功将项目导入Intellij:

9dfb17a62c006364265a38ba631f54d9.png

源码导入工程后,并不能执行完整的爬取。Nutch将爬取的流程切分成很多阶段,每个阶段分别封装在一个类的main函数中。在外面通过Linux Shell调用这些main函数,来完整爬取的流程。我们在后续教程中会对流程调度做一个详细的说明。

下面我们来运行Nutch中最简单的流程:Inject。我们知道爬虫在初始阶段,是需要人工给出一个或多个url,作为起始点(广度遍历树的树根)。Inject的作用,就是把用户写在文件里的种子(一行一个url,是TextInputFormat),插入到爬虫的URL管理文件(crawldb,是SequenceFile)中。

从src文件夹中找到org.apache.nutch.crawl.Injector类:

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值