数据获取以及处理系统 --- 技术规格说明书

最新推荐文章于 2024-07-22 06:34:25 发布

weixin_34329187

最新推荐文章于 2024-07-22 06:34:25 发布

阅读量116

点赞数

文章标签：爬虫 java 数据库

原文链接：http://www.cnblogs.com/longweilingshi/p/6003829.html

版权

详细技术说明

1. 系统架构概述：

系统主要由两个部分组成: 爬虫数据获取系统以及数据处理系统

爬虫数据处理就是一个依据源节点网页开展广义优先搜索，定向的查找关键词并且找到文件然后储存在本地，同时将相关信息存入数据库。

数据处理系统是依靠数据库存储信息对于文件进行关键词提取整理筛选然后存入目标数据库。

2. 细节描述：

2.1. 整体框架：

　　程序主体服务器由Java实现，Java方面需要实现的内容包含爬虫脚本的控制，各类文件处理模块的组装控制等。
　　在其下面具体包含Crawler, pdfReader, docReader, htmlReader, bridge等组件(有待后续更新)

2.2. 组件描述

2.2.1 Crawler

　　输入为源地址，关键词

　　输出为文件集合，用java实现，主要用来实现初始数据的集合的收集

2.2.2 pdfReader

　　输入为文件路径

　　输出为从文件中提取的关键信息：关键字、作者、编写时间等

2.2.3 docReader

　　输入为文件路径

　　输出为从文件中提取的关键信息：关键字、作者、编写时间等

2.2.4 htmlReader

　　输入为网页链接

　　输出为从网页中提取的关键信息：关键字、时间等

2.2.5 bridge

　　不需要输入

　　自动将所有文件处理模块得到的信息存储到最终目标位置，例如solr里面

转载于:https://www.cnblogs.com/longweilingshi/p/6003829.html

weixin_34329187

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
数据获取以及处理系统 --- 技术规格说明书

详细技术说明1. 系统架构概述：系统主要由两个部分组成: 爬虫数据获取系统以及数据处理系统爬虫数据处理就是一个依据源节点网页开展广义优先搜索，定向的查找关键词并且找到文件然后储存在本地，同时将相关信息存入数据库。数据处理系统是依靠数据库存储信息对于文件进行关键词提取整理筛选然后存入目标数据库。2. 细节描述：2.1. 整体框架：　　程序主体服务器由Java实现，Jav...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。