heritrix环境配置着实令人头疼,网上好多关于heritrix配置的说明,但,远看越迷茫。忙了好多时间终于解决了,现详细介绍一下。
准备工作
1、下载Heritrix-1.14.4.zip和Heritrix-1.14.4_src.zip两个包。
分别解压,两个解压后的如下图:
a.解压后的heitrix1.14.4.zip b.解压后的heritrix1.14.4_src.zip
向项目中添加需要的文件
(1) 将目录heritrix-1.14.4-src/heritrix-1.14.4/src/java/下面的三个目录:org、com、st一起拷贝到新建工程根目录下面
(2) 将目录heritrix-1.14.4-src/heritrix-1.14.4/src/conf/下面的:三个目录(包括:modules、profiles、selftest),以及四个文件(包括:heritrix.properties、jmxremote.password.template、heritrix.cacerts、jndi.properties)一起拷贝到新建的工程根目录下面。
(3) 将目录heritrix-1.14.4-src/heritrix-1.14.4/src/resources/下面的三个文件(包括: arcMetaheaderBody.xsl、warcinfobody.xsl、README.txt,其中README.txt没有用处)拷贝到新建的工程Heritrix-1.14.4目录下面。
(4) 将目录heritrix-1.14.4/heritrix-1.14.4/下面的webapps目录拷贝到新建工程根目录下面(这里,webapps目录下面有两个WAR包(即admin.war和selftest.war)。
(5)、在Myeclipse中创建Java Project,删除其中src目录,在该项目workplace中找到.classpath文件,在编辑器中打开它,在里面添加下面的代码:
<classpathentry kind="src" path=""/>
引入heritrix需要的第三方包
右击工程根目录,找到Built Path/Configure Built Path,你会看到下图,点击add library 之后双击User Library新建一个Library,将上面a图中lib中的包引入到这个Library中,之后回到下图展示的界面点击OK,就会发现原来工程中的小红插插不见了,找到org.archive.crawler.Heritrix.java 右击run as java Application就可以了。
如上就说明配置成功了!