KSpider网络信息资源采集系统

清华同方KSpider网络信息资源采集系统是一套功能强大的网络信息资源开发利用与整合系统,可用于定制跟踪和监控互联网实时信息,建立可再利用的信息服务系统。KSpider能够从各种网络信息源,包括网页、BLOG、论坛等采集用户感兴趣的特定信息,经自动分类处理后,以多种形式提供给最终用户使用。

KSpider能够快速及时地捕获用户所需的热点新闻、市场情报、行业信息、政策法规、学术文献等网络信息内容,可广泛用于垂直搜索引擎、网络敏感信息监控、情报收集、舆情分析、行情跟踪等方面。


体系结构


KSpider系统由应用服务器、网络蜘蛛、智能代理、发布系统四个子系统组成。此系统可分布部署、可群集,各子系统可以运行在多台服务器上,也可以运行在一台服务器上,依据性能要求和数据量来决定。体系结构如下图所示:


应用服务器是系统的核心部分,是使网络蜘蛛、智能代理、发布系统相互协调、同步工作的调度程序,负责各种任务的分配、子系统间的消息转发及各子系统的调度。

网络蜘蛛从用户设定的网站抓取数据,形成数据包(数据表)发送给智能代理,由智能代理对所抓取的数据进行分析过滤,按站点、频道、关键词、或其他分类模型对数据进行自动分类,保存在本地数据库,并通过发布系统按选定的风格发布出来,方便用户使用。


系统特点


先进的智能代理

基于先进浅层语义分析技术,集成多种智能信息处理算法,能从信息海洋中准确、及时地筛选出用户感兴趣的信息,并自动分类;支持用户自定义分类体系,为用户提供了多种方式定制感兴趣的主题。

拥有自学习功能,可以根据用户反馈信息,及时地自学习完善知识体系,提高自身的智能性。

强大的信息采集能力

高效的信息采集技术完成网络数据获取,能快速、全面、准确的从Internet上获取数据,并可对采集的数据进行结构化处理。可以多线程并行采集,实时动态监控特定目标;灵活地定制采集策略,可以全面采集,也可以针对特定的监控网站进行采集。对于采集规模较大的应用,采用集群式网络蜘蛛抓取,从而满足抓取速度上的需求。

体系结构灵活

网络蜘蛛群集,智能代理群集,应用服务器智能调度,各子系统可以随时断开随时连接到系统中来,不影响整个系统的运行。

基于KBase的海量非结构化数据存储和全文检索能力

支持海量非结构化数据的存储管理,拥有成熟的全文检索技术,检索速度达500G/S,处于业界领先水平。支持智能相似检索技术,检索速度可达百万级文献量毫秒级响应,性能远高于同类产品,处于国际领先水平。支持群集。

强大的发布系统

系统支持了多种发布风格,包括: CNKI专题库风格、信息资源门户风格、搜索引擎风格等。支持动态摘要和敏感摘要,并提供标红、网页快照、相关网页自动关联等实用功能。

稳定可靠的系统性能

采用分布式的群集系统、高效的搜索算法以及灵活的体系结构,保证整个系统的高稳定性和易用性。

可采集多种文档信息

除了对各种动静态网页信息的采集外,系统还可以采集多种文档信息,包括txt、doc、rtf、xml、ppt、pdf、chm、caj等。满足用户的多种采集需求。

满足用户的各种个性化检索需求

支持用户自定义符合自己行业、企业特殊需求的个性化分词词典,只需要简单的输入自定的各种专业词汇,系统便会按照用户的定制精确检索,大幅提高检索效率和查全查准率。充分满足用户的各种个性化检索需求。

支持主流的中文编码标准

包括GBK(汉字内码扩展规范)、GB2312(简体)、BIG5(繁体)、Unicode,并且能够在不同的编码之间转换。

良好的可拓展性

采集数据使用KBase系统进行管理,系统具备强大的中文检索和智能信息处理能力。可以方便地接入CNKI网格资源共享平台,与中国期刊全文数据库、中国优秀博硕士论文数据库、中国重要报纸全文数据库、中国重要会议论文全文数据库、中国年鉴数据库等CNKI资源以及其他数据资源实现统一检索和深度整合。