文章来源:视采网站采集器
DM视采网站采集器简介
DM视采网站采集器是一款可视化的数据挖掘软件,它可用于网站采集,论坛采集,dedecms采集,动易采集,新云采集,论坛发帖,论坛顶贴,博客采集等。系统特点
-
结构化采集系统对半结构化数据进行语义分析,根据语义规则智能提取复杂多变的数据。
-
所见即所得用户在可视化的目标界面上指定所要采集的内容,并预览结果。
-
插件支持系统拥有丰富的插件功能,支持各类目标的采集和各类系统的发布。
-
多线程采集系统多任务并发,多线程采集。支持线程的并发控制和状态监视。
-
全局发布系统提供上下文关联的全局关联变量,发布模块可以联合不同层次的单元数据。
大事记
-
2003年开发论文管理系统,后因工作变迁,未果。
-
2005年5月开发技术型个人网站,蹦出网站采集这个概念,而后全力转为网站采集软件的开发。
-
2005年11月开发出第一款网站采集器。
-
2006年5月构思开源社区,寻求发展信息采集技术,建立开源网站www.java51.com。
-
2006年12月《信息采集系统需求分析》、《信息采集系统技术方案》、《HTML可视化抽取算法设计》、《采集系统产品白皮书》编写完成,并公开于网络。
-
2007年9月视采采集系统、DMCMS内容管理系统开发成功。
-
2008年12月视采采集系统做了大量的重构动作,加强了xml数据的处理能力,系统采用了可插拔的插件体系。