农业垂直搜索引擎二》系统总设计

该博客介绍了农业垂直搜索引擎的体系结构,包括爬虫机器人模块、数据更新模块、索引与检索模块、搜索与更新模块以及Web客户端模块。系统采用Heritrix进行爬取,利用Lucene和Solr进行索引和检索,强调了各模块的功能和数据处理流程。
摘要由CSDN通过智能技术生成

3 系统设计

3.1 农业垂直搜素引擎体系结构

 由于垂直搜索引擎只对主题进行索引,所以在网络爬虫部分需要做普通搜索引擎所没有的URL过滤。另外在提取信息与普通的搜索引擎不同,这里需要对html页面进行解析,并只提取指定的文章标题,时间和正文。

 

图3-1  农业垂直搜索引擎体系架构图

 

由图3-1可知,本系统包含的模块有:爬虫机器人模块,文本处理模块,数据搜索与更新模块,索引与检索模块,搜索模块和web

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值