视采网站采集器技术方案

 文章来源:视采网站采集器

视采网站采集器技术方案

1概述

1.1目的

本文分析系统需求,说明系统结构和解决方案。

本文适合技术人员阅读和参考。

1.2需求概述

网站、企业、营销人员都有对信息的需求,不同的信息领域,不同信息使用者,信息的获取方法和获取途径大不相同。采集系统需要满足多样化的采集应用,以及适应未来的需求增长。

1.3系统需求

1.3.1多样化的采集目标

信息分布在各种信息存储系统中,各种存储系统有着各自的交互机制,需要采集系统提供多种并可扩展的连接模块。

1.3.2多样化的数据格式

信息以多种形式存在,如网页、word文档、pdf等。这些不同的格式数据需要采用不同的采集机制。

1.3.3分布式海量数据

由于网络通信的延时和网络带宽的限制,并发多线程通信能够有效地减低延时和抢夺资源。

1.3.4数据横向和纵向采集

需要系统自动采集数据的下一页;自动采集数据的关联附件;自动根据当前采集结果采集下一数据。

1.3.5用户操作简单、快捷

多样且复杂的数据格式增加用户的作业难度,用户希望所见及所得,及时提供相应的操作提示信息。

1.4交互目标

1.4.1采集目标

采集目标为以下几种:

  1. web系统
  2. 文件系统
  3. 数据库系统
  4. 其它文本数据源

2.4.2发布目标

发布目标为以下几种:

  1. 文件系统
  2. 数据库系统
  3. 其它文本数据存储系统或接收设备

2系统设计

2.1运行体系

采集系统基本组件包含输入子系统,混存器、输出子系统。数据通过多个过滤器多深度的提取下,被保存在缓存器中。示意图如下:

2.2系统结构

输出子系统、输入子系统、过滤器以插件的方式结合到系统中。过滤器容器通过插件管理器引用插件模块,驱动系统的执行。

2.2.1过滤器容器

容器创建当前类型的过滤器实例并传递当前的输入输出句柄和全局缓存区句柄。容器控制过滤器的并发数。当所有的过滤器生命结束时,容器将触发输出子系统的执行。

容器通过规则文件和目标地址生成插件关键字,根据关键字查找插件管理器获得当前的过滤器插件和当前的输入输出插件的工厂句柄。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值