搜索引擎
iteye_20816
这个作者很懒,什么都没留下…
展开
-
nutch研究记录4(中文分词)
中文分词配置好后,需要对源代码进行一些修改,否则在爬虫和搜索时候不能正确分词。中文分词器回头一起补充上。我的nutch版本1.0。(修改打包,放到lib包中,记得将跟目录上的nutch.job删掉。) 爬虫 :org.apache.nutch.indexer.lucene.LuceneWriter 需要对write方法进行一些修改,以中文分词为主。nutch默认加载en分词器。 publ...2009-10-29 20:45:09 · 104 阅读 · 0 评论 -
natch常用的几个类
抓取目录分析 一共生成5个文件夹,分别是: l crawldb目录存放下载的URL,以及下载的日期,用来页面更新检查时间. l linkdb目录存放URL的互联关系,是下载完成后分析得到的. l segments:存放抓取的页面,下面子目录的个数于获取的页面层数有关系,通常每一层页面会独立存放一个子目录,子目录名称为时间,便于管理.比如我这只...原创 2009-06-29 23:07:13 · 169 阅读 · 0 评论 -
Nutch搜索引擎系统架构
下面分析一下Nutch搜索引擎系统的特点。 一、系统架构 总体上Nutch可以分为2个部分:抓取部分和搜索部分。抓取程序抓取页面并把抓取回来的数据做成反向索引,搜索程序则对反向索引搜索回答用户的请求。抓 取程序和搜索程序的接口是索引,两者都使用索引中的字段。抓取程序和搜索程序可以分别位于不同的机器上。下面详细介绍一下抓取部分。 抓取部分: 抓取程序是被Nutch...原创 2009-06-30 16:45:31 · 248 阅读 · 0 评论 -
Nutch Crawler工作流程及文件格式详细分析
Crawler和Searcher两部分被尽是分开,其主要目的是为了使两个部分可以布地配置在硬件平台上,例如Crawler和Searcher分别被放置在两个主机上,这样可以极大的提高灵活性和性能。 一、总体介绍: 1、先注入种子urls到crawldb 2、循环: * generate 从crawldb中生成一个url的子集用于抓取 * fetch 抓取上一小的url生成一...原创 2009-06-30 17:59:25 · 116 阅读 · 0 评论 -
nutch研究记录1(爬虫配置)
工作在windows下完成。java、tomcat和eclipse、Cygwin安装就不多说,其他软件的安装方法网上到处是google搜索一下。记录一下在配置过程中碰到的几个问题和几个比较容易忘记的步骤,日后需要时候也可以翻翻。 nutch分为爬虫和搜索器 1. 爬虫配置。 a) Nutch下载解压后(E:\java\CoreJava\IndexSearchAbo...2009-07-05 23:59:48 · 98 阅读 · 0 评论 -
nutch研究记录2(搜索器配置)
2. 搜索器配置。 a) 将nutch-1.0.war部署到tomcat上,第一次部署tomcat会报错,没关系,因为还没进行配置,我们目的在于解压出nutch-1.0,呵呵。 b) 打开搜索器目录(我们称为web nutch),配置WEB-INF/classes/nutch-site.xml, <property> <name...2009-07-06 00:18:17 · 81 阅读 · 0 评论 -
nutch研究记录3(增量爬行)
注意,tomcat和nutch路径需要修改成自己的 # nutch更目录 NUTCH_HOME=/cygdrive/e/java/CoreJava/IndexSearchAbout/nutch-1.0 # tomcat目录 CATALINA_HOME=/cygdrive/d/JavaTools/apache-tomcat-6.0.14 还有批量将crawled/替换为你的索引存储目...2009-07-06 00:22:56 · 141 阅读 · 0 评论 -
nutch主流程代码阅读心得。
之前对nutch进行些分析,打算在基础上进行一些应用,不过最近忙着,也没弄出个所以然,先把阅读心得贴出来,里边可能有不少理解上的错误,仅供参考用,万一突然有人转载了,请保留blog出处 。也希望能认识跟多对此话题感兴趣的朋友。 主要类分析:一、org.apache.nutch.crawl.Injector: 1,注入url.txt 2,url标准化 3,...原创 2010-01-14 19:01:19 · 190 阅读 · 0 评论