nutch
太阳当空照
内向的人呐。。。
展开
-
webhavest+nutch1.2抓数据,建索引流程
crawldb目录下面存放下载的URL,以及下载的日期,用来页面更新检查时间linkdb目录存放URL的关联关系,是下载完成后分析时创建的segments目录存储抓取的页面,下面子目录的个数与获取页面的层数有关系 里面有6个子目录 content,下载页面的内容 crawl_fetch,下载URL的状态内容 crawl_generate,待下载的原创 2011-06-07 18:02:00 · 1166 阅读 · 0 评论 -
nutch1.2 fetcher类解析
建索引这段,一直在fetcher这里消耗的时间最多,webhavest抓数据nutch解析数据建索引500条不重复数据大概需要40-50分钟,光fetch就耗了30分钟左右,所以提高建索引速度,fetch优化是必须的,在优化前,先得知己知彼 fetcher的类结构 内部类原创 2011-07-07 11:57:32 · 811 阅读 · 0 评论 -
nutch 插件
现在我涉及到3个插件 1 在建索引的时候添加自定义字段。。实现IndexingFilter接口 2 用户搜索的时候多字段条件搜索。。实现queryFilter接口 3 搜索结果聚合分类,用的是carrot2插件。。实现OnlineClusterer接口原创 2011-05-11 12:13:00 · 820 阅读 · 0 评论