网络爬虫heritrix

前段时间看了下关于网络爬虫的知识,其中的heritrix是爬虫的优秀代表。heritrix是java的一个开源的可扩展的"爬虫"框架。它可以对互联网上的相应网页进行抓取存档。而搜索引擎丰富数据库的建立,正是利用网络爬虫的抓取。而且heritrix对构建垂直搜索引擎提供了可靠的大量数据。
heritrix的运行有两种。一是可以在cmd环境下配置好jar包的路径和环境变量,二是在Eclipse下配置。第一种自己没有实现,下面介绍下heritrix在MyEclipse中的配置,自己参照了网上的许多资料。
1.首先,下载Heritrix-1.12.1。在Browse Heritrix: Internet Archive Web Crawler Files on SourceForge.net 可以下载。需要下载两个包heritrix-1.12.1-src.zip和heritrix-1.12.1.zip。
2.MyEclipse中建立java工程。包解压到E盘。

(1) 将目录E:\Heritrix\heritrix-1.12.1-src\heritrix- 1.12.1\src\java\下面的三个目录:org、com、st一起拷贝到新建工程Heritrix-1.12.1目录下面(绝对路径为D: \eclipse-SDK-3.2.1-win32\workspace\Heritrix-1.12.1)。

(2) 将目录E:\Heritrix\heritrix-1.12.1-src\heritrix- 1.12.1\src\conf\下面的:三个目录(包括:modules、profiles、selftest),以及四个文件(包括:heritrix.properties、jmxremote.password.template、heritrix.cacerts、 jndi.properties)一起拷贝到新建的工程Heritrix-1.12.1目录下面(绝对路径为D:\eclipse-SDK-3.2.1- win32\workspace\Heritrix-1.12.1)。

(3) 将目录E:\Heritrix\heritrix-1.12.1-src\heritrix- 1.12.1\src\resources\下面的三个文件(包括:arcMetaheaderBody.xsl、warcinfobody.xsl、 README.txt,其中README.txt没有用处是显而易见的)拷贝到新建的工程Heritrix-1.12.1目录下面(绝对路径为 D:\eclipse-SDK-3.2.1-win32\workspace\Heritrix-1.12.1)。

(4) 将目录E:\Heritrix\heritrix-1.12.1\heritrix- 1.12.1\下面的webapps目录拷贝到新建工程Heritrix-1.12.1目录下面(绝对路径为D:\eclipse-SDK-3.2.1- win32\workspace\Heritrix-1.12.1),这里,webapps目录下面有两个WAR包(即admin.war和 selftest.war)。
3.添加相应的jar包后,修改下配置文件。配置用户名和密码。在heritrix.properties文件中。
heritrix.cmdline.admin =
heritrix.cmdline.port = 8080
4.这时,可以在包中运行org.archive.crawler中的heritrix.java,打开网页输入用户名和密码后,成功运行就可以在窗口中运行heritrix的webUI界面了。如图
00:55:24.687 WARN!! Delete existing temp dir C:\DOCUME~1\Owner\LOCALS~1\Temp\Jetty_127_0_0_1_8085__ for WebApplicationContext[/,jar:file:/D:/MyEclipse8.0%20workspace/heritrix/webapps/admin.war!/]
00:55:25.093 EVENT Started WebApplicationContext[/,Heritrix Console]
00:55:25.375 EVENT Started SocketListener on 127.0.0.1:8085
00:55:25.375 EVENT Started org.mortbay.jetty.Server@b988a6
Heritrix version: 1.12.1

[img]http://dl.iteye.com/upload/attachment/220329/1af6b3f4-2045-3ede-96ef-ca03d6cc6c66.jpg[/img]


5.运行后,可以参照help中的说明自己设置相应的抓取参数。我们还可以扩展其中的部分组件来抓取自己相应的网页。
注意;在MyEclipse配置过程中注意,可能出现编译错误的。在相应的java工程文件中的properties中的javacompiler来更改下设置。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值