数据挖掘工具及其选择

一、数据挖掘工具
----在数据挖掘技术日益发展的同时,许多数据挖掘的商业软件工具也逐渐问世。数据挖掘工具主要有两类:特定领域的


数据挖掘工具和通用的数据挖掘工具。
----特定领域的数据挖掘工具针对某个特定领域的问题提供解决方案。在设计算法的时候,充分考虑到数据、需求的特殊性,并作了优化。对任何领域,都可以开发特定的数据挖掘工具。例如,IBM公司的AdvancedScout系统针对NBA的数据,帮助教练优化战术组合;加州理工学院喷气推进实验室与天文科学家合作开发的SKICAT系统,帮助天文学家发现遥远的类星体;芬兰赫尔辛基大学计算机科学系开发的TASA,帮助预测网络通信中的警报。
----特定领域的数据挖掘工具针对性比较强,只能用于一种应用;也正因为针对性强,往往采用特殊的算法,可以处理特殊的数据,实现特殊的目的,发现的知识可靠度也比较高。
----通用的数据挖掘工具不区分具体数据的含义,采用通用的挖掘算法,处理常见的数据类型,一般提供六种模式。例如,IBM公司Almaden研究中心开发的QUEST系统,SGI公司开发的MineSet系统,加拿大SimonFraser大学开发的DBMiner系统。通用的数据挖掘工具可以做多种模式的挖掘,挖掘什么、用什么来挖掘都由用户根据自己的应用来选择。


----下面简单介绍几种数据挖掘工具:
----1.QUEST
----QUEST是IBM公司Almaden研究中心开发的一个多任务数据挖掘系统,目的是为新一代决策支持系统的应用开发提供高效的数据开采基本构件。系统具有如下特点:
提供了专门在大型数据库上进行各种开采的功能:关联规则发现、序列模式发现、时间序列聚类、决策树分类、递增式主动开采等。各种开采算法具有近似线性(O(n))计算复杂度,可适用于任意大小的数据库。
算法具有找全性,即能将所有满足指定类型的模式全部寻找出来。为各种发现功能设计了相应的并行算法。
----2.MineSet
----MineSet是由SGI公司和美国Standford大学联合开发的多任务数据挖掘系统。MineSet集成多种数据挖掘算法和可视化工具,帮助用户直观地、实时地发掘、理解大量数据背后的知识。MineSet2.6有如下特点:
MineSet以先进的可视化显示方法闻名于世。MineSet2.6中使用了6种可视化工具来表现数据和知识。对同一个挖掘结果可以用不同的可视化工具以各种形式表示,用户也可以按照个人的喜好调整最终效果,以便更好地理解。MineSet2.6中的可视化工具有SplatVisualize、ScatterVisualize、MapVisualize、TreeVisualize、RecordViewer、StatisticsVisualize、ClusterVisualizer,其中RecordViewer是二维表,StatisticsVisualize是二维统计图,其余都是三维图形,用户可以任意放大、旋转、移动图形,从不同的角度观看。提供多种数据挖掘模式。包括分类器、回归模式、关联规则、聚类归、判断列重要度。支持多种关系数据库。可以直接从Oracle、Informix、Sybase的表读取数据,也可以通过SQL命令执行查询。多种数据转换功能。在进行挖掘前,MineSet可以去除不必要的数据项,统计、集合、分组数据,转换数据类型,构造表达式由已有数据项生成新的数据项,对数据采样等。操作简单。支持国际字符。可以直接发布到Web。
----3.DBMiner
----DBMiner是加拿大SimonFraser大学开发的一个多任务数据挖掘系统,它的前身是DBLearn。该系统设计的目的是把关系数据库和数据开采集成在一起,以面向属性的多级概念为基础发现各种知识。DBMiner系统具有如下特色:能完成多种知识的发现:泛化规则、特性规则、关联规则、分类规则、演化知识、偏离知识等。综合了多种数据开采技术:面向属性的归纳、统计分析、逐级深化发现多级规则、元规则引导发现等方法。提出了一种交互式的类SQL语言——数据开采查询语言DMQL。能与关系数据库平滑集成。
实现了基于客户/服务器体系结构的Unix和PC(Windows/NT)版本的系统。


二、数据挖掘工具的选择
----如何选择满足自己需要的数据挖掘工具呢?评价一个数
据挖掘工具,需要从以下几个方面来考虑:
----1.可产生的模式种类的多少
----指本专题第一篇文章提到的六种模式。
----2.解决复杂问题的能力
----数据量的增大,对模式精细度、准确度要求的增高都会导致问题复杂性的增大。数据挖掘系统可以提供下列方法解决复杂问题:多种模式多种类别模式的结合使用有助于发现有用的模式,降低问题复杂性。例如,首先用聚类的方法把数据分组,然后再在各个组上挖掘预测性的模式,将会比单纯在整个数据集上进行操作更有效、准确度更高。多种算法很多模式,特别是与分类有关的模式,可以有不同的算法来实现,各有各的优缺点,适用于不同的需求和环境。数据挖掘系统提供多种途径产生同种模式,将更有能力解决复杂问题。验证方法在评估模式时,有多种可能的验证方法。比较成熟的方法像N层交叉验证或Bootstrapping等可以控制,以达到最大的准确度。数据选择和转换模式通常被大量的数据项隐藏。有些数据是冗余的,有些数据是完全无关的。而这些数据项的存在会影响到有价值的模式的发现。数据挖掘系统的一个很重要功能就是能够处理数据复杂性,提供工具,选择正确的数据项和转换数据值。可视化可视化工具提供直观、简洁的机制表示大量的信息。这有助于定位重要的数据,评价模式的质量,从而减少建模的复杂性。扩展性为了更有效地提高处理大量数据的效率,数据挖掘系统的扩展性十分重要。需要了解的是:数据挖掘系统能否充分利用硬件资源?是否支持并行计算?算法本身设计为并行的或利用了DBMS的并行性能?支持哪种并行计算机,SMP服务器还是MPP服务器?当处理器的数量增加时,计算规模是否相应增长?是否支持数据并行存储?
----为单处理器的计算机编写的数据挖掘算法不会在并行计算机上自动以更快的速度运行。为充分发挥并行计算的优点,需要编写支持并行计算的算法。


----3.易操作性
----易操作性是一个重要的因素。有的工具有图形化界面,引导用户半自动化地执行任务,有的使用脚本语言。有些工具还提供数据挖掘的API,可以嵌入到像C、VisualBasic、PowerBuilder这样的编程语言中。

----模式可以运用到已存在或新增加的数据上。有的工具有图形化的界面,有的允许通过使用C这样的程序语言或SQL中的规则集,把模式导出到程序或数据库中。


----4.数据存取能力
----好的数据挖掘工具可以使用SQL语句直接从DBMS中读取数据。这样可以简化数据准备工作,并且可以充分利用数据库的优点(比如平行读取)。没有一种工具可以支持大量的DBMS,但可以通过通用的接口连接大多数流行的DBMS。Microsoft的ODBC就是一个这样的接口。


----5.与其他产品的接口
----有很多别的工具可以帮助用户理解数据,理解结果。这些工具可以是传统的查询工具、可视化工具、OLAP工具。数据挖掘工具是否能提供与这些工具集成的简易途径?
----因为数据挖掘工具需要考虑的因素很多,很难按照原则给工具排一个优劣次序。最重要的还是用户的需要,根据特定的需求加以选择。数据挖掘工具可以给很多产业带来收益。国外的许多行业如通信、信用卡公司、银行和股票交易所、保险公司、广告公司、商店等已经大量利用数据挖掘工具来协助其业务活动,国内在这方面的应用还处于起步阶段,对数据挖掘技术和工具的研究人员以及开发商来说,我国是一个有巨大潜力的市场。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值