数据挖掘工具初探之SPSS Clementine篇
摘要 : 近年来 , 数据挖掘技术越来越多的投入工程统计和商业运筹 , 国外各大数据开发公司陆续推出了一些先进的挖掘工具 , 其中 spss 公司的 Clementine 软件以其简单的操作 , 强大的算法库和完善的操作流程成为了市场占有率最高的通用数据挖掘软件。本文通过对其界面、算法、操作流程的介绍,具体实例解析以及与同类软件的比较测评来解析该数据挖掘软件。Abstract: In recent years, more and more data mining technology input the engineering statistics and business operations research, major foreign company rolled out a number of advanced mining tools, including the software Clementine of SPSS has the largest market share of the general-purpose data mining software for its simple operation, powerful algorithms library and completeness operation processes. In this paper, I will introduce its interfaces, algorithms, operation processes, specific examples of analysis and comparison with the similar software to resolve this data mining software.
Key words:数据挖掘 数据挖掘工具 Clementine
1. 前言
1.1 关于数据挖掘
数据挖掘有很多种定义与解释,例如“识别出巨量数据中有效的、新颖的、潜在有
用的、最终可理解的模式的非平凡过程 1。” 大体上看,数据挖掘可以视为机器学习和数据库的交叉,它主要利用机器学习界提供的技术来分析海量数据,利用数据库界提供的技术来管理海量数据。2
在我看来,数据挖掘的意义却不限于此,尽管数据挖掘技术的诞生源于对数据库管理的优化和改进,但时至今日数据挖掘技术已成为了一门独立学科,过多的依赖数据库存储信息,以数据库已有数据为研究主体,尝试寻找算法挖掘其中的数据关系严重影响了数据挖掘技术的发展和创新。尽管有了数据仓库的存在可以分析整理出已有数据中的敏感数据为数据挖掘所用,但数据挖掘技术却仍然没有完全舒展开拳脚,释放出其巨大的能量,可怜的数据适用率(即可用于数据挖掘的数据占数据库总数据的比率)导致了数据挖掘预测准确率与实用性的下降。所以,我心中的数据挖掘技术的未来(一种幼稚的想法)是以挖掘算法为主体,专门搜集和记录满足算法需求的数据构建特有的数据库为其服务,这是一个从面向过程到面向对象的转变。
1.2 数据挖掘工具的重要性
如果通过传统的编程实现数据挖掘,不但费时费力,其性能也无法做到完整和稳定。而数据挖掘商业工具的诞生,不但创造出了又一个巨大的市场,而且随着各公司产品功能的补充完善和使用简易性的提高,更多的没有计算机专业知识背景的人也可以享受数据挖掘的强大分析能力和预测能力。
直接采用商业数据挖掘工具来帮助项目实施,也是一个很好的选择。它既节省了大量的开发费用,又可以节约维护和升级的开销3,所以了解和掌握主流数据挖掘工具的适用范围、使用方法和特色创新便显得尤为重要。本文正是基于此原因对目前使用率最高的数据挖掘工具SPSS Clementine进行初步的探索和测评。
2. Clementine简介
2.1 Clementine的背景知识
Clmentine 翻译成中文是克莱门氏小柑橘,它是ISL(Integral Solutions Limited)公司开发的数据挖掘工具平台。1999年SPSS公司收购了ISL公司,对Clementine产品进行重新整合和开发,现在Clementine已经成为SPSS公司的又一亮点。在Gartner的客户数据挖掘工具评估中,仅有两家厂商被列为领导者:SAS和SPSS。SAS获得了最高ability to execute评分,代表着SAS在市场执行、推广、认知方面有最佳表现;而SPSS获得了最高的completeness of vision,表明SPSS在视觉界面和技术创新方面遥遥领先。
作为一款将高级建模技术与易用性相结合的数据挖掘工具,Clementine 可帮助您发现并预测数据中有趣且有价值的关系。可以将 Clementine 用于决策支持活动,如:
n „ 创建客户档案并确定客户生命周期价值。
n „ 发现和预测组织内的欺诈行为。
n „ 确定和预测网站数据中有价值的序列。
n „ 预测未来的销售和增长趋势。
n „ 勾勒直接邮递回应和信用风险。
n „ 进行客户流失预测、分类和细分。
n „ 自动处理大批量数据并发现其中的有用模式。
这些只是使用 Clementine 从数据中提取有价值信息的众多方式的一部分。只要有数
据,且数据中正好包含所需信息,Clementine 基本上都能帮您找到问题的答案。3
2.2 Clementine界面
2.2.1 主界面
在安装好后会自动启用服务,一般的数据挖掘人员通过客户端完成所有工作下面,就是clementine客户端的界面:
2.2.2 各分区介绍
流工作区 流工作区是 Clementine 窗口的最大区域,也是构建和操纵数据流的场所。
在 Clementine 中,可以在同一流工作区或通过打开新的流工作区一次处理多个流。会