heritrix3 java_heritrix 3.2.0 详解 1 -- 环境搭建

泳培帮Go游泳

于 2021-03-04 04:00:08 发布

阅读量351

点赞数

文章标签： heritrix3 java

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_35862131/article/details/114995873

版权

heritrix作为一个比较经典的开源爬虫，写这篇文章目的是因为，3.X之后的heritrix的介绍以及配置的文章比较少了。

heritrix 3.x 以后使用maven 2配置jar包引用，但是总是有好多包没法从maven库下载。所以，这里讲的环境搭建直接使用了编译好的工程来做，heritrix-3.2.0-dist.tar.gz以及源码压缩包heritrix-3.2.0-src.tar.gz

具体方法如下：

新建java工程(非maven)

将heritrix-3.2.0-dist.tar.gz解压放到工程目录

添加源代码引用，使用heritrix-3.2.0-src.zip：

尝试启动heritrix，heritrix内核使用jetty所以不需要依附tomcat或者其他web容器。

入口类是这个org.archive.crawler.Heritrix

启动成功：

Oracle Corporation Java(TM) SE Runtime Environment 1.7.0_55-b13

Using ad-hoc HTTPS certificate with fingerprint...

SHA1:7C:99:FC:BC:62:13:DD:F3:B8:24:2F:EF:B7:60:0E:E2:AF:A1:13:8E

Verify in browser before accepting exception.

2014-07-11 01:54:31.408 警告 thread-1 org.archive.crawler.framework.Engine.findJobConfigs() invalid job directory: .\jobs\.gitignore where job expected from: .\jobs\.gitignore

2014-07-11 01:54:31.550:INFO::Logging to STDERR via org.mortbay.log.StdErrLog

2014-07-11 01:54:31.552:INFO::jetty-6.1.26

2014-07-11 01:54:31.753:INFO::Started SslSocketConnector@localhost:9095

engine listening at port 9095

operator login set per command-line

NOTE: We recommend a longer, stronger password, especially if your web

interface will be internet-accessible.

Heritrix version: 3.2.0

请求： https://localhost:9095/

现在可以正常使用了。

泳培帮Go游泳

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
heritrix3 java_heritrix 3.2.0 详解 1 -- 环境搭建

heritrix作为一个比较经典的开源爬虫，写这篇文章目的是因为，3.X之后的heritrix的介绍以及配置的文章比较少了。heritrix 3.x 以后使用maven 2配置jar包引用，但是总是有好多包没法从maven库下载。所以，这里讲的环境搭建直接使用了编译好的工程来做，heritrix-3.2.0-dist.tar.gz以及源码压缩包heritrix-3.2.0-src.tar.gz具体...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。