在ECLIPSE下配置Heritrix1.14.3(绝对可行,成功配置了)

最近想做一个在线商品分析和搜索平台,主要是把一些网站的物品信息检索到本地目录,然后实现商品的对比,让用户更好的购物。 

看了一些 书和资料,发现HERITRIX不错,可以实现商品信息的搜集工作,于是就在网上查了一些资料进行配置,发现很多的配置方法,但都不行,主要原因就是不够详细,用了一种配置方法,还得查一些资料,进行修改,挺麻烦的,不过我昨晚到一点才睡,终于配置成功了,所以今天和大家分享一下,免的大家走弯路。 
首先下载HERITRIX1.14.4ZIP和SRC-ZIP分别解压为ZIP和SRC文件,首先到Heritrix的官方网下载Heritrix1.14.3 
1、下载heritrix-1.14.1-src.zip和heritrix-1.14.1.zip两个压缩包,并解压,以后分别简称SRC包和ZIP包; 
2、在Eclipse下新建Java项目,取名Heritrix;(如我打开Eclipse的工作区在D:\eclipse\search下,当我建了项目Heritrix后,我就可以找到D:\eclipse\search\Heritrix文件夹.其中包含两个工程属性文件.classpath 和.project。有的人建了后还有两个文件目录bin和src,本人的没有,如果有的话删除掉两个文件目录bin和src。) 
3、复制SRC包下面src/java文件夹下org、com、st三个文件夹到项目根目录(即D:\eclipse\search\Heritrix); 
4、复制SRC包下src下resources文件夹到项目根目录;复制conf到项目根目录。 
5、复制SRC包下lib文件夹到项目根目录; 
6、复制ZIP包下webapps文件夹到项目根目录; 

做好了以上,在Eclipse中Heritrix项目右击刷新一下,就可以看到刚才所复制的包了。 
7、在Eclipse中修改项目conf下heritrix.properties文件( 
修改内容至少两个两个地方: 
       @VERSION@ 改为 1.14.3 
      heritrix.cmdline.admin = 改为 heritrix.cmdline.admin = admin:xxm (这里是用户名与密码,可任读者设定.) 
      heritrix.cmdline.port = 改为 heritrix.cmdline.port = 8080 (注默认是8080的如果你已占用了这个端口号的话,要设另一个才行,因为我之前安装了tomcat,所以这里改为8090) 

配置Heritrix.properties,主要配置四项:如下红色部分所示 

############################################################################## 

# Properties with prefixes 'heritrix.', 'org.archive.', or 'system.' prefix 
# get copied into System.properties on startup so available via 
# System.getProperties. (For 'system.' properties, that prefix is stripped. 
# (See Heritrix.loadProperties()). 

# Version is filled in by the maven.xml pregoal. It copies here the project 
# currentVersion property. 
heritrix.version =  1.14.3 

# Location of the heritrix jobs directory. 
heritrix.jobsdir = jobs 

# Default commandline startup values. 
# Below values are used if unspecified on the command line. 
heritrix.cmdline.admin =  admin:admin 
heritrix.cmdline.port =  8088 
heritrix.cmdline.run =  false 
heritrix.cmdline.nowui =  false 
heritrix.cmdline.order = 
heritrix.cmdline.jmxserver =  false 
heritrix.cmdline.jmxserver.port =  8081 

############################################################################## 

改好了以上的,别忘了保存一下哦. 
8、在项目Heritrix上右键选择构建路径->配置构建路径->库选项卡->添加Jar,将lib目录下的所有.jar文件选中,点击完成! 
9、在项目/src/org.archive.crawler包下Heritrix.java上点击右键选运行方式->运行配置->classpath->点击右边的ADVANCED->ADD FOLDER->选择根目录下的conf->RUN 即可 
控制台出现一下信息说明已成功. 

12:18:12.703 EVENT Starting Jetty/4.2.23 
12:18:12.937 EVENT Started WebApplicationContext[/,Heritrix Console] 
12:18:13.062 EVENT Started SocketListener on 127.0.0.1:8090 
12:18:13.062 EVENT Started org.mortbay.jetty.Server@179c285 
Heritrix version: 1.14.3 
这时你可以打开浏览器,输入http://localhost:8090或http://localhost:8080 

然后输入你的刚才设的用户名和密码就可以登录Heritrix 

总结:本人按别人的方法做时,发现了错在了源类包的路径不对.即在Eclipse中类的源代码中发现包的位置显示了错,于是按照类中源代码的的的包路径重新调整了各包的位置,于是就对了,读者如果出现这样问题可以自己查看一下做合当的调整. 
关于出现Access restriction 的问题 
查帮助发现 
在preference->java->complier->errors/warning->deprecated and restricted API 

把 Forbidden reference 的Error改成warning 即可 

同时,大约是只要把这几个必须有的包都复制到了,就可以了。 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值