![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Nutch
文章平均质量分 75
dongpf
Stay hungery, Stay foolish
/***/Good artists copy, great artists steal
展开
-
Nutch主流程代码阅读笔记整理(一)
<br />Nutch 的Crawler和Searcher两部分被尽是分开,其主要目的是为了使两个部分可以布地配置在硬件平台上,例如Crawler和Searcher分别被放置在两个主机上,这样可以极大的提高灵活性和性能。<br /> <br />一、总体流程介绍<br /> <br />爬行过程在Introduction to Nutch, Part 1 Crawling 里已有详细说明,或许直接看Crawl类来理解爬行的过程。<br />这里有一幅更直观的图:<br /> <br /><br /> <br原创 2010-06-24 19:15:00 · 1814 阅读 · 0 评论 -
Nutch主流程代码阅读笔记整理(二)
<br /><br />三、主要类和方法分析<br /> org.apache.nutch.crawl.Injector:<br />1,注入url.txt<br />2,url标准化<br />3,拦截url,进行正则校验(regex-urlfilter.txt)<br />4,对符URL标准的url进行map对构造,在构造过程中给CrawlDatum初始化得分,分数可影响url host的搜索排序,和采集优先级!<br />5,reduce只做一件事,判断url是不是在crawldb中已经存在,如果存原创 2010-06-24 19:17:00 · 1514 阅读 · 0 评论 -
Nutch主流程代码阅读笔记整理(三)
<br /><br />四、Nutch 每条索引记录的字段说明<br /><br />url: 作为唯一标标识值,由BasicIndexingFilter类产生。 <br /><br />segment: 由Indexer类产生。Nutch抓回来的页面内容放在segments目录,lucene只会索引,不会store原文内容,因此在查询时要以 segment与url作为外键,由FetchedSegments类根据hitsDetail从segments目录获得content。 <br /><br />boos原创 2010-06-24 19:18:00 · 1446 阅读 · 1 评论 -
Nutch插件机制详解(二)
<br />三、插件定义方法 如下:<br />Xml代码 <plugin id="urlfilter-suffix" 插件ID name="Suffix URL Filter" 插件名称 version="1.0.0" 插件版本 provider-name="nutch.org"> 插件提供者的ID <runtime> <library name="urlfilter-suffix.jar"> 依赖的JAR包原创 2010-06-24 01:03:00 · 1596 阅读 · 0 评论 -
Eclipse中编译nutch-1.0配置详解
<br /><br />nutch-1.0如果不修改代码,导入进去是有两处错误的,下面是自己配置成功地方法。 配置cygwin的环境变量,这一步很重要,如果没有配置的话,后面就会出现"Failed to get the current user's information" 或者 'Login failed: Cannot run program "bash"'的错误。 新建一个工程,随便取个名字,选择"Create project from existing sourc原创 2010-06-24 00:01:00 · 2429 阅读 · 1 评论 -
Nutch插件机制详解(一)
Nutch系统架构的一个亮点就是插件,借鉴这个架构我们可以设计出自己的灵活的系统架构,下面就来解析Nutch的插件系统是怎么回事。原创 2010-06-24 00:55:00 · 1391 阅读 · 0 评论 -
Nutch插件机制详解(三)
Nutch 是一个非常出色的开源搜索框架,它的插件架构更加是它的一个技术亮点,通过此架构,可以保证 Nutch 方便的被灵活的扩展而不用修改原来的代码,通过配置文件可以简单方便的控制加载或者不加载哪些插件,而且这些 都不需要额外的容器支持。这些都是我们在系统架构设计的时候可以学习和参考的有益经验。原创 2010-06-24 01:06:00 · 1856 阅读 · 0 评论 -
Nutch安装配置详细指南(Windows环境)
一、搜索引擎的原理简介 1.一个抓网络页面程序 把www中的各网站的内容抓到本地 2.一个文件解析工具 把抓下来的html、doc等源文件处理为更精确的格式文本 3.一个全文检索、分词、数据挖掘,解析文本,把数据抓到结构化数据库中 可以采取工具软件,未必要自己写。数据库可以是文件数据库。 4.开发一个搜索页面,从数据库里查询关键字 对查询关键字,进行一些逻辑处理。然后返回名称和url到页面。 二、Lucene和Nutch简介原创 2010-06-23 23:58:00 · 8147 阅读 · 3 评论 -
Nutch常用命令详解
<br />Nutch采用了一种命令的方式进行工作,其命令可以是对局域网方式的单一命令也可以是对整个Web进行爬取的分步命令。主要的命令如下:<br /> <br />1. Crawl<br />Crawl是“org.apache.nutch.crawl.Crawl”的别称,它是一个完整的爬取和索引过程命令。<br />使用方法:<br />Shell代码<br />$ bin/nutch crawl <urlDir> [-dir d] [-threads n] [-depth i] [-topN] <b原创 2010-06-24 19:20:00 · 1517 阅读 · 0 评论