数据收集项目总结

1.使用lucence + Heritrix对指定网址进行爬取并建立全局索引

2.首先初始化自定义StartupConfig.xml这是配置爬虫网站的模版文件,包含站点以及正则表达式解析规则(xmlBeans对其解析)

3.使用apache.commons.cli.Option提供友好的运行参数提示,并根据用户参数进行模式选择

4.按照spring quartz定时机制运行完整流程; 立即运行一次完整流程;立即运行一次爬虫流程;立即运行一次索引流程

5.只需要分析完整流程:

首先接收站点名字;从StartupConfig.xml中找到匹配的站点从而取出需要解析的url;

增量爬取,从目标目录取出恢复文件至工作目录,并删除目标目录文件

自定义Extractor

自定义Writer

并配置于conf/modules/Processor.options

Processor.options

*.heritrix.extend.CsrcExtractor|CsrcExtractor
*.heritrix.extend.CsrcWriter|CsrcWriter

竖化线后面名字与order.xml 一一对应

<newObject name="CsrcWriter" class="*.heritrix.extend.CsrcWriter">

6.luncence 

KeywordManager.java 通过配置文件属性选择:从数据库读出keyword;还是从文件中读出keyword

TagManager.java 调用KeywordManager.java

IndexQuery 调用TagManager.java 根据关键字创建查询条件并返回前100条匹配的信息document

AbstractIndex 调用IndexQuery  根新 AbstractIndex 中的lucencedoc

LuceneProcessor 嗲用AbstractIndex 处理返回的lucencedoc

即建立临时索引,然后按关键字更新索引,删除临时目录

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值