[源码和文档分享]基于Heritrix和Lucene实现的典故搜索引擎

最新推荐文章于 2023-02-25 19:30:34 发布

chenju1968

最新推荐文章于 2023-02-25 19:30:34 发布

阅读量75

点赞数

原文链接：https://my.oschina.net/u/4188102/blog/3092438

版权

这个学期通过对《搜索引擎》课程的学习以及自己动手实际编写了一个“典故搜索引擎”。使我对搜索引擎有了一个更深的认识，特别是在做搜索引擎过程中对于各个搜索引擎技术的解决，既使我深入了解了搜索引擎的细节技术，也使我对这些技术的实现有了充分的掌握。下面是我在做“典故搜索引擎”过程的总结。

1.搜索引擎概念

要想做一个搜索引擎，我们就必须知道什么是搜索引擎。

搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息，在对信息进行组织和处理后，为用户提供检索服务，将用户检索相关的信息展示给用户的系统。

参考文档和完整的文档和源码下载地址：

https://www.write-bug.com/article/2415.html

转载于:https://my.oschina.net/u/4188102/blog/3092438

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

chenju1968

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

搜索引擎-heritrix

weng6966的博客

09-23

163

有哪位哥们知道为什么我用Heritrix抓取页面(在一个网站中),却只有一个线程工作. package com.lantao.bookuu.frontierschedule; import org.archive.crawler.datamodel.CandidateURI; import org.archive.crawler.framework.CrawlController; i...

基于Heritrix+Lucene的搜索引擎构建（3）——页面信息内容抽取

weixin_30945039的博客

01-06

搜索引擎无非是提供对Web内容的方便检索，以至于能够便捷的获取浏览到相关的页面。因此，在通过Heritrix等网络蜘蛛获取Web资源以后，首要的任务就是抽取Web页面的内容。基于java的页面抽取工具有很多，例如，抽取HTML页面的有HtmlParser、Jsoup等，至于Word、Excel等文件的内容，也有相应的工具。关于HtmlParser、Jsoup等页面内容抽取可以参考相关文...

参与评论您还未登录，请先登录后发表或查看评论

基于Heritrix+Lucene的搜索引擎构建（4）——索引建立

weixin_30918415的博客

01-07

所谓索引建立，就是对一堆文档的内容建立一个索引表，当然是传说中的倒排索引。倒排索引：倒排索引源于实际应用中需要根据属性的值来查找记录。这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录来确定属性值，而是由属性值来确定记录的位置，因而称为倒排索引(inverted index)。带有倒排索引的文件我们称为倒排索引文件，简称倒排文件(inverted file)。...

Heritrix简介

lsh2366254的博客

07-18

416

Heritrix简介爬虫概念，spider 像蜘蛛网一样的，从一个提供的种子URL地址开始，抓取当前URL的所有对外链接，往外发散。应该有URL去重复功能（去重复与增量抓取相互矛盾）、抓取层次限制功能。 Heritrix是什么？一个开源的纯java的网络爬虫框架。遵循网站 robots（某些网站上有一些资源在时间上受下载或访问限制）协议。 Heritrix优点？ Heritrix...

精选_基于Heritrix和Lucene实现的典故搜索引擎_源码打包

03-12

《基于Heritrix和Lucene实现的典故搜索引擎》在信息技术日新月异的今天，搜索引擎已经成为我们获取信息、解决问题的重要工具。本项目聚焦于一个特定领域——典故搜索，通过结合Heritrix和Lucene这两款强大的开源...

开发自己的搜索引擎 lucene + heritrix

11-17

总结来说，开发一个基于Lucene和Heritrix的搜索引擎是一个涉及多种技术和步骤的复杂过程。理解Lucene和Heritrix的工作原理和使用方法，以及如何将两者结合构建有效的搜索引擎，对于完成这项工作至关重要。同时，针对...

Heritrix与Lucene典故搜索引擎开发与源码打包

资源摘要信息:"精选_基于Heritrix和Lucene实现的典故搜索引擎_源码打包" Heritrix和Lucene是搜索引擎开发中常用到的两个关键组件。Heritrix是由Internet Archive开发的开源网页爬虫项目，它能够从互联网上抓取网页...

基于Lucene和Heritrix的职位垂直搜索引擎的设计与实现

10-04

《基于Lucene和Heritrix的职位垂直搜索引擎的设计与实现》是一篇深入探讨搜索引擎技术在特定领域的应用的优秀研究生毕业论文。这篇论文的核心是利用开源工具Lucene和Heritrix来构建一个针对职位信息的垂直搜索引擎，...

Lucene与Heritrix构建的搜索引擎研究及实现

"基于Lucene和Heritrix构建搜索引擎的研究和示例实现" 本文是一篇关于搜索引擎构建的硕士学位论文，由作者刘运佳在周明天教授的指导下完成。论文重点探讨了如何利用开源全文检索框架Lucene和网络爬虫工具Heritrix来...

Heritrix部署直接能运行的项目

11-23

Heritrix是IA的开放源代码，可扩展的，基于整个Web的，归档网络爬虫工程 Heritrix工程始于2003年初，IA的目的是开发一个特殊的爬虫，对网上的资源进行归档，建立网络数字图书馆，在过去的6年里，IA已经建立了400TB的数据。 IA期望他们的crawler包含以下几种：宽带爬虫：能够以更高的带宽去站点爬。主题爬虫：集中于被选择的问题。持续爬虫：不仅仅爬更当前的网页还负责爬日后更新的网页。实验爬虫：对爬虫技术进行实验，以决定该爬什么，以及对不同协议的爬虫爬行结果进行分析的。 Heritrix的主页是http://crawler.archive.org Heritrix是一个爬虫框架，可加如入一些可互换的组件。它的执行是递归进行的，主要有以下几步： 1。在预定的URI中选择一个。 2。获取URI 3。分析，归档结果 4。选择已经发现的感兴趣的URI。加入预定队列。 5。标记已经处理过的URI Heritrix主要有三大部件：范围部件，边界部件，处理器链范围部件：主要按照规则决定将哪个URI入队。边界部件：跟踪哪个预定的URI将被收集，和已经被收集的URI，选择下一个URI，剔除已经处理过的URI。处理器链：包含若干处理器获取URI，分析结果，将它们传回给边界部件 Heritrix的其余部件有： WEB管理控制台：大多数都是单机的WEB应用，内嵌JAVA HTTP 服务器。操作者可以通过选择Crawler命令来操作控制台。 Crawler命令处理部件：包含足够的信息创建要爬的URI。 Servercache（处理器缓存）：存放服务器的持久信息，能够被爬行部件随时查到，包括IP地址，历史记录，机器人策略。处理器链：预取链：主要是做一些准备工作，例如，对处理进行延迟和重新处理，否决随后的操作。提取链：主要是获得资源，进行DNS转换，填写请求和响应表单抽取链：当提取完成时，抽取感兴趣的HTML，JavaScript，通常那里有新的也适合的URI，此时URI仅仅被发现，不会被评估写链：存储爬行结果，返回内容和抽取特性，过滤完存储。提交链：做最后的维护，例如，测试那些不在范围内的，提交给边界部件 Heritrix 1.0.0包含以下关键特性： 1.用单个爬虫在多个独立的站点一直不断的进行递归的爬。 2。从一个提供的种子进行爬，收集站点内的精确URI，和精确主机。 3。主要是用广度优先算法进行处理。 4。主要部件都是高效的可扩展的 5。良好的配置，包括： a。可设置输出日志，归档文件和临时文件的位置 b。可设置下载的最大字节，最大数量的下载文档，和最大的下载时间。 c。可设置工作线程数量。 d。可设置所利用的带宽的上界。 e。可在设置之后一定时间重新选择。 f。包含一些可设置的过滤机制，表达方式，URI路径深度选择等等。 Heritrix的局限： 1。单实例的爬虫，之间不能进行合作。 2。在有限的机器资源的情况下，却要复杂的操作。 3。只有官方支持，仅仅在Linux上进行了测试。 4。每个爬虫是单独进行工作的，没有对更新进行修订。 5 。在硬件和系统失败时，恢复能力很差。 6。很少的时间用来优化性能。

开发自己的搜索引擎--Lucene+Heritrix.zip

06-25

开发自己的搜索引擎--Lucene+Heritrix

Heritrix—开发自己的搜索引擎

10-29

开发自己的搜索引擎，Heritrix是一种网页抓取的有效工具

爬虫工具Heritrix初体验

lovecontry

07-13

309

需要找一个工具去爬取某个网站，简单调研后剩下了两个候选：Heritrix和Nutch。最后听说Heritrix可定制的地方比较多，更加灵活。恰好这是我需要的。遂决定采用Heritrix，初步尝试后发现效果不错。具体的好处在于：配置简单，有良好的web界面，不需要写一行代码。安装我用的版本是heritrix-1.14.4。1．下载heritrix-1.14.4.tar.gz，并解压（假设解压后...

Heritrix爬虫方案

最新发布

minmax329的博客

02-25

730

进入运行参数设置页面后，有很多可以设定的参数，对于需要了解详情的设置，请点击设置框左边的“？使用Heritrix来抓取网页必然会存在一些不需要的数据或者URL，需要用正则表达式来过滤到你不想要的东西,抓取和过滤的原理是一样的,就是具有共性的头和尾,把中间部分抓出来，正则表达式在抓取中应用比较多,也可以称之为一种规则,你抓取内容要按照一定的规则来抓取,无用的你还得按照一定的规则过滤。等的前面的内容，而只是简单指向本网站下的某个网页，那么在加入到URI中的时候，要记得加上头使得它是一个完整的网页的URL。

heritrix设计详解(一) 总述

iteye_17257的博客

11-17

161

[b][color=red]原创文章:转载请注明出处[/color][/b] 读了一段时间的源码，结合网上的文档和自己的理解来详解下heritrix的体系结构，总体来说hertitrix是一个设计优良的框架，扩展性极强，除了无法实现分布式之外，其他部件都可以被扩展。 [b]体系结构[/b] CrawlController（下载控制器）:整个下载过程的总的控制者,整个抓取工作的起点,决...

【爬虫】Heritrix 3.2安装和运行实例

widiot的博客

05-13

5161

Heritrix安装本地环境系统：Ubuntu 16.04 Heritrix版本：3.2.0 JDK版本：1.7（Heritrix 3.2不支持Java8）下载解压下载方式如下在CSDN上查找可以直接通过命令行使用的Heritrix 3.2版本，然后解压到工作目录，通过执行二进制文件运行也可以在GitHub下载release版本，然后通过IDE直接编译运行如果能访...

Heritrix的介绍与使用

wszsj的博客

11-10

696

强大的网络爬虫框架--Heritrix：基于多线程的高效率的网络爬虫框架。第一部分：介绍Heritrix的基本使用（首先需要从Heritrix的官网上下载相应的项目） 1.导入jar包需要注意在项目根目录下添加lib文件夹，然后将相关联的jar包添加进去 2.拷贝源代码 src-java con/org/st运行Heritrix所必需的核心代码，拷贝到项目MyHeritr

heritrix1.14.4配置-没有add和change按钮的问题

我要飞的更高

11-22

2089

今天搞了下heritrix1.14.4在eclipse下的配置，根据http://www.360doc.com/content/10/0913/18/2793979_53385587.shtml教程，一步步操作非常顺利，但是就是最后一个问题： 3、在eclipse中可以启动heritrix，但在jobs->modules.jsp页面中没有添加（“Add”）按扭，且出现以下异常。