视采网站采集器技术方案

dojava

于 2009-01-23 11:37:00 发布

阅读量1.5k

点赞数

分类专栏： 7§网站采集器文章标签： ftp服务器多线程数据库 jdbc http服务器存储系统

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/dojava/article/details/3851316

版权

视采网站采集器旨在满足多样化采集应用，包括多线程采集、分布式数据处理、多格式数据支持等。系统采用插件化设计，支持ftp、http服务器、数据库等多种输入输出，具备数据过滤、替换、重复过滤等功能，便于用户操作和定制。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章来源：视采网站采集器

视采网站采集器技术方案

pdf格式下载

1概述

1.1目的

本文分析系统需求，说明系统结构和解决方案。

本文适合技术人员阅读和参考。

1.2需求概述

网站、企业、营销人员都有对信息的需求，不同的信息领域，不同信息使用者，信息的获取方法和获取途径大不相同。采集系统需要满足多样化的采集应用，以及适应未来的需求增长。

1.3系统需求

1.3.1多样化的采集目标

信息分布在各种信息存储系统中，各种存储系统有着各自的交互机制，需要采集系统提供多种并可扩展的连接模块。

1.3.2多样化的数据格式

信息以多种形式存在，如网页、word文档、pdf等。这些不同的格式数据需要采用不同的采集机制。

1.3.3分布式海量数据

由于网络通信的延时和网络带宽的限制，并发多线程通信能够有效地减低延时和抢夺资源。

1.3.4数据横向和纵向采集

需要系统自动采集数据的下一页；自动采集数据的关联附件；自动根据当前采集结果采集下一数据。

1.3.5用户操作简单、快捷

多样且复杂的数据格式增加用户的作业难度，用户希望所见及所得，及时提供相应的操作提示信息。

1.4交互目标

1.4.1采集目标

采集目标为以下几种：

web系统
文件系统
数据库系统
其它文本数据源

2.4.2发布目标

发布目标为以下几种：

文件系统
数据库系统
其它文本数据存储系统或接收设备

2系统设计

2.1运行体系

采集系统基本组件包含输入子系统，混存器、输出子系统。数据通过多个过滤器多深度的提取下，被保存在缓存器中。示意图如下：

2.2系统结构

输出子系统、输入子系统、过滤器以插件的方式结合到系统中。过滤器容器通过插件管理器引用插件模块，驱动系统的执行。

2.2.1过滤器容器

容器创建当前类型的过滤器实例并传递当前的输入输出句柄和全局缓存区句柄。容器控制过滤器的并发数。当所有的过滤器生命结束时，容器将触发输出子系统的执行。

容器通过规则文件和目标地址生成插件关键字，根据关键字查找插件管理器获得当前的过滤器插件和当前的输入输出插件的工厂句柄。

最低0.47元/天解锁文章

博客等级

码龄21年

47
原创

0
点赞

2
收藏

6
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

上一篇：: 视采网站采集器产品白皮书

下一篇：: 视采网站采集器用户操作手册

最新评论

视采网站采集器用户操作手册
hpu10423: 看手册，功能很不错。
具有自动数据校验功能的struts标签
snowinter006: 麻烦给我也传一份。。谢谢 snowinter006@163.com
一个让人不得不转的故事-《通宵达旦工资只有3200 博客网架构师艰难浪迹于北京》
nearblog: 黑下博客网,教训下方方. 只有自己的老婆才会跟自己一辈子,而不是其他,珍惜...
网站采集器内核成功实现喽！！
yejianhui425: www.java51.com不能访问真的开源的话,能不能就在你网站上发布一个原代码包要不然这样的话 " 开源，注定了她属于全人类，并且永远永远的忠诚于抚育她的精英们。她是我们每个人的爱的结晶，展示我们自我的才华。开源也付给openWEBant一个特殊的意义，它的成功，也代表着中国开源的成功，它，也成为一种纽带，把中国的有志青年、爱心大使，紧紧的聚集在一起，展示我们中华英才的智慧和力量。用我们全身的力气喊出：“团结就是力量，奉献就是美德！！”" " 别人有疑义的,因为国人...... 我的邮件是yejianhui425@126.com QQ=58363272

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。