DM视采网站采集器简介
DM视采网站采集器是一款可视化的数据挖掘软件,它可用于网站采集,论坛采集,dedecms采集,动易采集,新云采集,论坛发帖,论坛顶贴,博客采集等。
系统特点
-
结构化采集
系统对半结构化数据进行语义分析,根据语义规则智能提取复杂多变的数据。 -
所见即所得
用户在可视化的目标界面上指定所要采集的内容,并预览结果。 -
插件支持
系统拥有丰富的插件功能,支持各类目标的采集和各类系统的发布。 -
多线程采集
系统多任务并发,多线程采集。支持线程的并发控制和状态监视。 -
全局发布
系统提供上下文关联的全局关联变量,发布模块可以联合不同层次的单元数据。
大事记
-
2003年
开发论文管理系统,后因工作变迁,未果。 -
2005年5月
开发技术型个人网站,蹦出网站采集这个概念,而后全力转为网站采集软件的开发。 -
2005年11月
开发出第一款网站采集器。 -
2006年5月
构思开源社区,寻求发展信息采集技术,建立开源网站www.java51.com。 -
2006年12月
《信息采集系统需求分析》、《信息采集系统技术方案》、《HTML可视化抽取算法设计》、《采集系统产品白皮书》编写完成,并公开于网络。 -
2007年9月
视采采集系统、DMCMS内容管理系统开发成功。 -
2008年12月
视采采集系统做了大量的重构动作,加强了xml数据的处理能力,系统采用了可插拔的插件体系。