Heritrix-1.14.0安装

原创 2012年04月19日 21:37:31

1. 下载heritrix-1.14.0

     从官网http://crawler.archive.org/downloads.html上下载heritrix-1.14.0.zip和heritrix-1.14.0-src.zip,并分别加压上述两个文件为heritrix-1.14.0和heritrix-1.14.0-src

2. 安装配置heritrix-1.14.0

 

     1) 在eclipse中新建java project,命名为 Heritrix

     2) 向工程中添加文件

              将文件heritrix-1.14.0-src/src/java/下面的三个目录:org、com、st一起拷贝到Heritrix下面。

              将文件heritrix-1.14.0-src/src/conf/下面的三个目录(包括:modules、profiles、selftest),以及四个文件(包括:heritrix.properties、jmxremote.password.template、heritrix.cacerts、jndi.properties)一起拷贝到Heritrix下面。

              将文件heritrix-1.14.0-src/src/resources/下面的三个文件(包括:arcMetaheaderBody.xsl、README.txt,其中README.txt没有用处是显而易见的)拷贝到Heritrix下。

              将文件heritrix-1.14.0/下面的webapps目录拷贝到Heritrix目录下面,这里,webapps目录下面有两个WAR包(即admin.war和selftest.war)。

              将heritrix-1.14.0/下的lib文件夹拷贝到Heritrix下。

     3) 添加外部jar包

              右键选择 Build Path,选择 Add Library,新建一个用户自定义库 heritrix-1.14,.0,将heritrix-1.14.0-src/lib中所有jar包加入该库中。

     4) 修改heritrix.properties属性文件

               在 Heritrix/src/下打开 hreritrix.properties,修改如下几项:

                      heritrix.version = 1.14.0                                                      Heritrix 版本号

                      heritrix.jobsdir = jobs                                                           Heritrix执行抓取任务时内容存放目录,Heritrix/jobs

                      heritrix.cmdline.admin = admin:admin                            登录时的用户名和密码
                      heritrix.cmdline.port = 9090                                                运行后台程序时,监听的WebUI使用的端口号

     5) 启动Heritrix后台程序

               在 Heritrix/src/ 下打开包 org.archive.crawler,打开 Heritrix.java,运行

      6) 登录WebUI

                浏览器地址栏中输入 http://localhost:9090,输入用户名和密码

                选择jobs选项,抓取页为 http://www.szpku.edu.cn/

                设置处理器:

                        1. frontier           

                                  org.archive.crawler.frontier.BdbFrontier 

                        2. scope

                                  org.archive.crawler.scope.BroadScope

                        3. Prefetcher

                                   org.archive.crawler.prefetch.Preselector
                                   org.archive.crawler.prefetch.PreconditionEnforcer

                        4. Fetcher

                                    org.archive.crawler.fetcher.FetchDNS
                                    org.archive.crawler.fetcher.FetchHTTP

                        5. Extractor

                                    org.archive.crawler.extractor.ExtractorHTTP
                                    org.archive.crawler.extractor.ExtractorHTML

                         6. Writer

                                    org.archive.crawler.writer.MirrorWriterProcessor

                         7. PostProcessor

                                    org.archive.crawler.postprocessor.CrawlStateUpdater
                                    org.archive.crawler.postprocessor.LinksScoper
                                    org.archive.crawler.postprocessor.FrontierScheduler

                   在Modules中选择org.archive.crawler.deciderules.DecidingScope,然后在Submodule的rules中选择org.archive.crawler.deciderules.MatchesListRegExpDecideRule,在setting中的regexp-list中,增加五个正则表达式,.*szpku.*  .*pnbs.pku.*   .*stl.pku.*   .*pkusz.*   .*szcie.pku.*。

                   submodule中,添加org.archive.crawler.deciderules.MatchesFilePatternDecideRule,限制抓取的文件类型,排除以下文件:            

                           Images: .bmp, .gif, .jp(e)g, .png, .tif(f)

                          Audio: .mid, mp2, .mp3, .mp4, .wav

                          Video: .avi, .mov, .mpeg, .ram, .rm, .smil, .wmv

                          Miscellaneous: .doc, .pdf, .ppt, .swf

 

 

heritrix-1.14.0-src

  • 2008年06月08日 22:25
  • 9.91MB
  • 下载

heritrix1.14.0jar包

  • 2015年12月08日 21:07
  • 21.03MB
  • 下载

Heritrix1.14.4安装配置和使用

暑假将学习搜索引擎方面的技术,所以希望写下一系列的文章来记录学习的过程,这是第一篇,文章详细讲述了在myecli8.5上配置heritrix1.14.4和初次创建Job爬取页面的过程,相信对初学her...
  • kath_y
  • kath_y
  • 2013年07月20日 19:19
  • 1878

heritrix-1.14.0

  • 2008年06月08日 22:20
  • 20.71MB
  • 下载

Heritrix1.4.4安装配置使用手册

  • 2014年09月13日 17:35
  • 469KB
  • 下载

开源爬虫: Heritrix 1.14.4 安装/使用

开源爬虫: Heritrix 1.14.4 安装/使用 Heritrix 是一个由 java 开发的、开源的网络爬虫,用户可以使用它来从网上抓取想要的资源。其最出色之处在于它良好的可扩展性,方便用...
  • Duke147
  • Duke147
  • 2014年12月08日 10:42
  • 603

Heritrix安装详细过程

  • 2012年03月25日 16:44
  • 1.26MB
  • 下载

Heritrix安装和配置流程

  • 2015年01月25日 21:27
  • 126KB
  • 下载

heritrix 下载、安装、配置

找了很多资料,很多方法都会报错,看了这个个方法,才最终解决,就应用了这个方法,并附上自己的理解。 一、下载:   到 网站搜索heritrix, 然后分别下载下来heritrix-1....
  • systql
  • systql
  • 2014年03月21日 22:17
  • 813

heritrix爬虫安装部署

  • 2016年10月16日 18:51
  • 677KB
  • 下载
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:Heritrix-1.14.0安装
举报原因:
原因补充:

(最多只允许输入30个字)