数据获取以及处理系统 --- 技术规格说明书

详细技术说明

1.  系统架构概述:

系统主要由两个部分组成: 爬虫数据获取系统以及数据处理系统

爬虫数据处理就是一个依据源节点网页开展广义优先搜索,定向的查找关键词并且找到文件然后储存在本地,同时将相关信息存入数据库。

数据处理系统是依靠数据库存储信息对于文件进行关键词提取整理筛选然后存入目标数据库。

2. 细节描述:

2.1. 整体框架:

  程序主体服务器由Java实现,Java方面需要实现的内容包含爬虫脚本的控制,各类文件处理模块的组装控制等。
  在其下面具体包含Crawler, pdfReader, docReader, htmlReader, bridge等组件(有待后续更新)

2.2. 组件描述

2.2.1 Crawler

  输入为源地址,关键词

  输出为文件集合,用java实现,主要用来实现初始数据的集合的收集

2.2.2 pdfReader

  输入为文件路径

  输出为从文件中提取的关键信息:关键字、作者、编写时间等

2.2.3 docReader

  输入为文件路径

  输出为从文件中提取的关键信息:关键字、作者、编写时间等

2.2.4 htmlReader

  输入为网页链接

  输出为从网页中提取的关键信息:关键字、时间等

2.2.5 bridge

  不需要输入

  自动将所有文件处理模块得到的信息存储到最终目标位置,例如solr里面

转载于:https://www.cnblogs.com/longweilingshi/p/6003829.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值