Index and Search
hongrenldd
这个作者很懒,什么都没留下…
展开
-
Java爬虫框架(一)--架构设计
一、 架构图 那里搜网络爬虫框架主要针对电子商务网站进行数据爬取,分析,存储,索引。 爬虫:爬虫负责爬取,解析,处理电子商务网站的网页的内容 数据库:存储商品信息 索引:商品的全文搜索索引 Task队列:需要爬取的网页列表 Visited表:已经爬取过的网页列表 爬虫监控平台:web平台可以启动,停止爬虫,管理爬虫,task队列,visited表。 ...2011-08-18 06:43:59 · 415 阅读 · 0 评论 -
Java爬虫框架(二)--模块设计之一
一、 模块 1. Scheduler Scheduler负责启动爬虫,停止爬虫,监控爬虫的状态。 Scheduler在调度爬虫时,借助于Quartz,设置爬虫在某个时刻启动。同一个名字的爬虫是stateful的。 Task:初始化任务。 Trigger: 触发器,描述何时触发爬虫。 开放Scheduler远程API,可以通过爬虫配置管理平台管理...2011-08-18 06:57:38 · 215 阅读 · 0 评论 -
Java爬虫框架(三)--模块设计之二
6. Filter Filter可以对解析好的新Task,进行过滤。 7. Handler Handler对解析好的内容进行进一步处理,异步化处理和爬取解析。处理主要是将爬取的数据入库和索引。 一、 Task队列 Task队列,存放还没有被处理的新任务。 二、 Visited表 Visited...2011-08-18 07:02:47 · 127 阅读 · 0 评论 -
Lucene sort
Lucene sort: 1.索引顺序 2.相关度 3.sort field 4.custom sort (comparator) 5.function query(score函数) 6.boost(norm) 7.custom collector。 他们各有所长,有的耗cpu时间,有的耗索引大小。 ...2012-06-24 15:43:07 · 124 阅读 · 0 评论