和上篇一样,不解释…………:)
K. Parsaye 把决策支持空间从应用层次上分成4个子空间[8]: 数据空间 (Data Space)、聚合 (OLA P) 空间 (Aggregation Space)、影响空间 ( Influence Space) 和变化空间(Variation Space)
数据空间处理基于关键字(Key-Based) 的决策查询, 比如回答“产品123的价格是多少?”这类数据浏览式的查询. 数据空间中最典型的是联机事务处理(OLTP)系统.
对数据空间中数据元素进行聚合运算 (如 Sum , Average ,Max , Min 等) 形成的空间就是聚合空间. 目前常见的提法有联机分析处理(OLAP) 和多维空间(Multidimensional Spaces). 聚合空间处理诸如“某一商场在某月某种商品的销售额是多少?”这种关系到聚合运算的决策查询.
以上两个空间都是处理数值的计算, 而影响空间处理逻辑性质的决策支持, 比如回答“是什么因素影响在纽约的销售情况?”这样的问题. 这个空间能够提供比其它空间丰富得多的有用信息. 这些信息就是通过数据挖掘而得到的.
变化空间负责回答某种变化的过程和速率问题, 例如“在过去3个月中的‘销售额增长’是怎样变化的?”
也就是说通过OLAP和多维空间可以直接得到决策者需要的明确的信息,即上文中提出的聚合空间,数据挖掘处理的事隐藏在大量数据之后的关系,趋势,通常包含以下几种:概念、规则、规律、模式、约束、可视化。
数据挖掘操作包括数据准备,数据开采,结果表达与解释;数据准备阶段是将待挖掘数据整理成适合挖掘工具的数据形式;数据开采是通过工具挖掘数据中信息,得出概念、规则、规律、模式、约束、可视化信息等;结果表达与解释是用提取出来的信息满足用户的决策目的。
最常用的数据挖掘技术包括:
(1) 人工神经网络: 它从结构上模仿生物神经网络, 是一种通过训练来学习的非线性预测模型.可以完成分类、聚类、特征采掘等多种数据采掘任务;
(2) 决策树: 用树形结构来表示决策集合. 这些决策集合通过对数据集的分类产生规则. 典型的决策树方法有分类回归树(CART), 典型的应用是分类规则的采掘;
(3) 遗传算法: 是一种新的优化技术, 基于生物进化的概念设计了一系列的过程来达到优化的目的. 这些过程有基因组合、交叉、变异和自然选择. 为了应用遗传算法, 需要把数据采掘任务表达为一种搜索问题而发挥遗传算法的优化搜索能力;
(4) 最近邻技术: 这种技术通过 K 个最与之相近的历史记录的组合来辨别新的记录. 有时也称这种技术为 K-最近邻方法. 这种技术可以用作聚类、偏差分析等采掘任务;
(5) 规则归纳: 通过统计方法归纳、提取有价值的 If-Then 规则. 规则归纳的技术在数据采掘中被广泛使用,例如关联规则的采掘;
(6) 可视化: 采用直观的图形方式将信息模式、数据的关联或趋势呈现给决策者, 决策者可以通过可视化技术交互式地分析数据关系.