文章来源:视采网站采集器
视采网站采集器技术方案
1概述
1.1目的
本文分析系统需求,说明系统结构和解决方案。
本文适合技术人员阅读和参考。
1.2需求概述
网站、企业、营销人员都有对信息的需求,不同的信息领域,不同信息使用者,信息的获取方法和获取途径大不相同。采集系统需要满足多样化的采集应用,以及适应未来的需求增长。
1.3系统需求
1.3.1多样化的采集目标
信息分布在各种信息存储系统中,各种存储系统有着各自的交互机制,需要采集系统提供多种并可扩展的连接模块。
1.3.2多样化的数据格式
信息以多种形式存在,如网页、word文档、pdf等。这些不同的格式数据需要采用不同的采集机制。
1.3.3分布式海量数据
由于网络通信的延时和网络带宽的限制,并发多线程通信能够有效地减低延时和抢夺资源。
1.3.4数据横向和纵向采集
需要系统自动采集数据的下一页;自动采集数据的关联附件;自动根据当前采集结果采集下一数据。
1.3.5用户操作简单、快捷
多样且复杂的数据格式增加用户的作业难度,用户希望所见及所得,及时提供相应的操作提示信息。
1.4交互目标
1.4.1采集目标
采集目标为以下几种:
- web系统
- 文件系统
- 数据库系统
- 其它文本数据源
2.4.2发布目标
发布目标为以下几种:
- 文件系统
- 数据库系统
- 其它文本数据存储系统或接收设备
2系统设计
2.1运行体系
采集系统基本组件包含输入子系统,混存器、输出子系统。数据通过多个过滤器多深度的提取下,被保存在缓存器中。示意图如下:
2.2系统结构
输出子系统、输入子系统、过滤器以插件的方式结合到系统中。过滤器容器通过插件管理器引用插件模块,驱动系统的执行。
2.2.1过滤器容器
容器创建当前类型的过滤器实例并传递当前的输入输出句柄和全局缓存区句柄。容器控制过滤器的并发数。当所有的过滤器生命结束时,容器将触发输出子系统的执行。
容器通过规则文件和目标地址生成插件关键字,根据关键字查找插件管理器获得当前的过滤器插件和当前的输入输出插件的工厂句柄。