3 系统设计
3.1 农业垂直搜素引擎体系结构
由于垂直搜索引擎只对主题进行索引,所以在网络爬虫部分需要做普通搜索引擎所没有的URL过滤。另外在提取信息与普通的搜索引擎不同,这里需要对html页面进行解析,并只提取指定的文章标题,时间和正文。
图3-1 农业垂直搜索引擎体系架构图
由图3-1可知,本系统包含的模块有:爬虫机器人模块,文本处理模块,数据搜索与更新模块,索引与检索模块,搜索模块和web
由于垂直搜索引擎只对主题进行索引,所以在网络爬虫部分需要做普通搜索引擎所没有的URL过滤。另外在提取信息与普通的搜索引擎不同,这里需要对html页面进行解析,并只提取指定的文章标题,时间和正文。
图3-1 农业垂直搜索引擎体系架构图
由图3-1可知,本系统包含的模块有:爬虫机器人模块,文本处理模块,数据搜索与更新模块,索引与检索模块,搜索模块和web