Heritrix简单又全面的入门

最新推荐文章于 2023-02-25 19:30:34 发布

hanshuai123

最新推荐文章于 2023-02-25 19:30:34 发布

阅读量210

点赞数

分类专栏： Heritrix爬虫文章标签： Myeclipse JSP Eclipse JDK Tomcat

本文链接：https://blog.csdn.net/hanshuai123/article/details/83531136

版权

Heritrix爬虫专栏收录该内容

1 篇文章 0 订阅

订阅专栏

最近开始接触Heritrix，听书说，配置很麻烦，一开始我也无从下手，上网找了下，很多都是超级无敌烦又多，不过我得感谢yeniu040209这位仁兄的资料，再加上我的一些经验，把我的入门配置与大家分享下：
1）下载heritrix-1.14.3.zip和heritrix-1.14.3-src.zip
2）解压，并在eclipse或者myEclipse中配置heritrix工程,不过要建java工程
3）jdk1.5及以上，compliance level 1.5及以上
4）文件配置如下，将heritrix-1.14.3下的src/conf和src/webapps目录放到工程目录下面
5）修改conf目录下面的heritrix.properties文件，两个地方：
@VERSION@ 改为 1.14.3（下载的版本号）
heritrix.cmdline.admin = 改为 heritrix.cmdline.admin = admin:xxm(自己喜欢，但账号和密码一定要用:隔开）
heritrix.cmdline.port = 改为 heritrix.cmdline.port = 8080（自己喜欢，选择一个没有冲突的）
6）将conf目录下面的modules目录放到src/java目录下面
7）将heritrix-1.14.3-src\heritrix-1.14.3\src\java下的org和st两个文件夹放入工程的src目录下
7）运行该工程src下的org.archive.crawler.heritrix.java文件即可运行heritrix
如果运行出现如下：02:33:29.765 EVENT Starting Jetty/4.2.23
02:33:29.921 EVENT Started WebApplicationContext[/,Heritrix Console]
02:33:30.000 EVENT Started SocketListener on 127.0.0.1:8090
02:33:30.000 EVENT Started org.mortbay.jetty.Server@bf32c
Heritrix version: @1.14.3@，这表示成功。。。。。。。。。。。。。。。。。。。。在这我还要补充一下。。。。。。。。。。。。如果有人在运行WebUI时出现Bad version number in .class file。。。可以第一步先看看你在myeclipse里的tomcat的里的jdk用的是不是你本机的jdk还是myeclipse自带的,把自带的改为java里自带的那个，我就是这样解决的。
2 .在运行http://127.0.0.1:8080/ 时遇到以下错误，在页面中：
HTTP ERROR: 500 Unable+to+compile+class+for+JSP%0A%0AAn+error+occurred+at+line%3A+% 2D1+in+the+jsp+file%3A+null%0A%0AGenerated+servlet+error%3A%0A++++%5Bjavac% 5D+Compiling+1+source+file%0A%0A%0A

你检查一下wegapps目录下面有没有 admin.war,selftest.war

这两个文件, 需要将admin.war,selftest.war 复制到其下面.
。。哈哈

hanshuai123

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Heritrix简单又全面的入门

最近开始接触Heritrix，听书说，配置很麻烦，一开始我也无从下手，上网找了下，很多都是超级无敌烦又多，不过我得感谢yeniu040209这位仁兄的资料，再加上我的一些经验，把我的入门配置与大家分享下： 1）下载heritrix-1.14.3.zip和heritrix-1.14.3-src.zip 2）解压，并在eclipse或者myEclipse中配置heritrix工程...
复制链接

扫一扫