在myeclipse配置heritrix1.14.3

[b][/b]最近要做个站内搜索,准备使用heritrix爬行数据,上午照着网上的例子,先使用了个1.14.1版本的,结果发现在module中没add按钮,导致没法改变writer,最后使用1.14.3版本,几经折腾,终于搞成功了。
[b]第一部分,配置heritrix[/b]1,从http://sourceforge.net/网站上搜索heritrix,找到1.14.3版本,下载heritrix-1.14.3-src.zip和heritrix-1.14.3.zip,进行解压。
2在myeclipse中创建一个新的java工程heritrix,单击完成。
3,将heritrix-1.14.3-src下src/java目录中org、com和st目录拷到myeclipse项目工程下src目录下
4,将heritrix-1.14.3-src下src目录下conf和resourses文件夹复制到项目工程(heritrix)的根目录下
5,将heritrix-1.14.3(第二个解压包)下的webapps拷到项目工程的根目录下
6,将heritrix-1.14.3-src下lib目录拷到项目工程根目录下(可以不拷,只要构建classpath路径就行),把里面的所有jar都添加到classpath路径下
7,将heritrix-1.14.3-src下src/conf下的profiles拷到项目工程根目录下
8,修改项目工程下conf下的heritrix.properties文件,具体修改如下(红色标记部分):
[color=red]heritrix.version = 1.14.3[/color]

# Location of the heritrix jobs directory.
heritrix.jobsdir = jobs

# Default commandline startup values.
# Below values are used if unspecified on the command line.
[color=red]heritrix.cmdline.admin = admin:admin[/color]
[color=red]heritrix.cmdline.port = 8080[/color]
heritrix.cmdline.run = false
heritrix.cmdline.nowui = false
heritrix.cmdline.order =
heritrix.cmdline.jmxserver = false
heritrix.cmdline.jmxserver.port = 8081

其中heritrix.version版本号,heritrix.cmdline.admin登录用户名和密码,heritrix.cmdline.port 服务端口号
9,在项目/src/org.archive.crawler包下Heritrix.java上点击右键选运行方式->运行配置->classpath->点击右边的ADVANCED->ADD FOLDERS->选择根目录下的conf->RUN 即可
启动成功,控制台打印
04:49:08.203 EVENT Starting Jetty/4.2.23
04:49:08.796 EVENT Started WebApplicationContext[/,Heritrix Console]
04:49:09.140 EVENT Started SocketListener on 127.0.0.1:8080
04:49:09.140 EVENT Started org.mortbay.jetty.Server@1f6f0bf
Heritrix version: 1.14.3

运行http://localhost:8080,出现登录页面,输入admin,admin登录成功,标明配置成功。
[b]第二部分 建立Job[/b]
登录成功后,进入WEB控制台操作页面,[img]http://dl.iteye.com/upload/picture/pic/65673/eb60dc2f-d40d-32de-9a40-d84e89318d2d.jpg[/img],
点击jobs,进入[img]http://dl.iteye.com/upload/picture/pic/65671/07609212-1c7f-34e7-ad4d-a37811a7d8b9.jpg [/img],选择With defaults 项,进入
[img]http://dl.iteye.com/upload/picture/pic/65669/4555ce7d-21fd-3990-9097-51582f4b9be9.jpg [/img],填写相关信息,其中seeds必须是以/结尾
点击Module,主要设置[img]http://dl.iteye.com/upload/picture/pic/65667/82c38571-954f-3e76-9ddd-a8bca96bc1c8.jpg[/img],中remove 掉原有的,add新选择的,然后点击settings,修改[img]http://dl.iteye.com/upload/picture/pic/65677/4a0e13af-f57c-319e-8d5a-b47ba3bcce45.jpg [/img],点击submit job,配置完成,可在Console中启动heritrix,则开始抓取
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值