目录
第一章:绪论
商务智能:能够为企业带来战略上决策上的指导意见,重要技术是数据挖掘及分析技术。
数据挖掘:一般而言,企业并不缺乏数据,而是无法完全利用所拥有的数据,并将其变为有用的信息。
数据仓库:功能强大,记录过去的数据,无法达到“预测”的需要,需要通过数据挖掘得到较为有利的决策结论。
第二章:数据仓库
能够适时地提供高级主管最需要的决策支持信息,“在适当的时间将正确的信息传递给适当或需要的人”
特点:
1、面向主题(数据建立的着重点在于以重要的主体组建为核心)
2、整合性(各应用系统的数据需经过整合才可执行相关分析)
3、长期性(为了进行趋势分析,数据仓库要保留多年的历史数据)
4、稳定性(数据仓库不允许用户更新,只有内部相关人员会定期修改数据结构)
数据仓库的整体架构:
数据源->整体数据仓库->部门性数据仓库->查询工具->终端用户
建立数据仓库的基本过程:
*设计
*整合:包括数据解释(Data Extraction)、数据转换(Data Transformation)、数据清理(Data Cleaning)、数据加载(Data Load)
*管理
*可视化:数据挖掘、OLAP工具等用以呈现分析过的数据形式
*调度:管理工具
第三章:数据挖掘
数据挖掘:在数据库中,利用各种分析方法与技术,将过去所累积的大量繁杂的历史数据进行分析、归纳和整合
数据挖掘的功能:
1、分类classification:按照分析对象的属性分门别类加以定义,建立类组。使用的技巧有:决策树(decision tree)、记忆基础推理(memory-based reasoning)
2、估计estimation:根据既有连续性数值的相关属性数据,以获知某一属性未知值。使用的技巧:统计方法的相关分析、回归分析及神经网络方法
3、预测prediction:根据对象属性的过去观察值来估计该属性未来值。使用的技巧:回归分析、时间数列分析及神经网络方法
4、关联分组affinity grouping:从所有对象决定那些相关对象应该放在一起。CRM上此功能用来确认交叉销售(cross-selling)等,设计出吸引人的产品类别
5、聚类clustering:将异质总体中区分为特征相近的同质类组,即将组与组之间的差异辨识出来,并对个别组内的相似样本进行挑选。使用的技巧:系统聚类法、动态聚类法
数据挖掘的步骤:
1、理解数据与数据所代表的含义(Data Understanding)
2、获取相关知识与技术(Domain Knowledge Acquisition)
3、整合与检查数据(Integration and Checking)
4、去除错误或不一致的数据(Data Cleaning)
5、建模与假设(Model and Hypothesis Development)
6、数据挖掘运行(Running)
7、测试与验证所挖掘的数据(Testing and Verification)
8、解释与使用数据(Interpretation and Use)
数据挖掘建模的标准CRISP-DM:
跨行业数据挖掘的标准化过程(Cross-Industry Standard Process for Data Mining)
在CRISP-DM规划中,数据挖掘过程中每个必要的步骤都被标准化。CRISP-DM模型强调完整的数据挖掘过程,从方法学的角度强调实施数据挖掘项目的方法和步骤,并独立于每种具体数据挖掘算法和数据挖掘系统。具体分为六个阶段(phase)和四个层次(level)。
CRISP-DM的六个阶段:
1、定义商业问题(Business Definition)
2、数据理解(Data Understanding):包括建立数据库与分析数据。数据库建立后,再进行数据分析,找出影响未来决策最大的数据。
3、数据预处理(Data Preparation):建立模型之前的最后一步数据准备工作。
4、建立模型(Modeling):分析已经筛选和净化的数据,采用各种定性和定量的技术方法,对既有数据建构模式和模型,解决企业问题。
5、评价和解释(Evaluation):在建立了模型后对建立模型的结果加以解释,并对使用这一模型所带来的商业效果加以评价。
6、实施(Deployment):一种是提供给分析人员做参考;另一种是把模型应用到不同的数据集上。
CRISP-DM的四个层次:
1、阶段
2、泛化任务
3、具体任务
4、操作实例
数据挖掘软件分类
一般分析用的软件包:SQL Server 2005 、SAS Enterprise Miner、SPSS Clementine 、Oracle Darwin、 IBM Intelligent Miner、SGI MineSet
SQL Server数据平台包括以下工具:
*关系型数据库
*复制服务:数据复制可用于数据分发、处理移动数据应用、系统高可用、企业报表解决方案的后备数据可延展存储等
*通知服务:用于开发、部署可延展应用程序的先进的通知服务
*整合服务:可以支持数据仓储和企业范围内数据整合的抽取、转换和装载能力
*分析服务:在线分析处理功能OLAP
*报表服务:全面的报表及解决方案
*管理工具:SQL Server包含的整合性管理型工具可用于高级数据库管理
*开发工具
第四章:数据挖掘中的主要方法
回归分析
回归分析主要用于了解自变量和因变量之间的数量关系,即寻找两个或两个以上的变量之间互相变化的关系,并由此来解释变量间的相关性。然而在考虑自变量的选取时,必须要注意所选出的自变量与因变量是否存在着因果关系。
1、简单线性回归分析
最简单的回归包括一个因变量Y和一个自变量X,它们的关系是直线,其中是误差。X和Y之间的关系叫做线性模型,其中β是回归模型的参数,又叫做回归系数。
2、多元回归分析
在研究变量间关系上,影响Y的自变量往往不止一个,该式子中各自变量皆为一次幂式,称为多元线性回归模型。其中为截距,为回归系数。
3、岭回归分析
当自变量间存在多重共线性关系时,显然不适合放入同一模型。当自变量间存在高度多重共线性时,可能导致回归系数方差增加,即使某一自变量确实与因变量显著相关,也不能被有限样本数据检验出来。为避免建立一个不理想的回归模型,需要在建立模型时,测定自变量间多重共线性。例如可以在同一模型中,删除冗余和其他自变量高度相关的自变量,也可以利用岭回归来降低回归系数估计值的变异。
多重共线性是由于自变量间存在相关性造成的。假设回归模型中有M个自变量,如果只利用相关分析则只能测定两个自变量间的相关程度,因此需要利用某一自变量与其他m-1个自变量的多元回归判定系数来判断多重共线性程度。若第i个自变量与其他m-1个自变量的估计回归模型为:其中,为第i个多元回归模型的截距项,为第i个多元回归模型的回归系数。
此模型得到的回归判定系数为:
因此可以定义出一个称为方差膨胀因子VIF(Variance Inflation Factor)来作为测度多重共线性的指数:
当=0时(第i个自变量和其他m-1个自变量间无相关),则VIF=1;
当=1时(第i个自变量和其他m-1个自变量趋近于完全相关),则VIF=∞,
所以VIF具有测度多重共线性的能力。
因为VIF反应了标准化回归系数与标准化模型均方差间的比例大小,因此能测度出自变量间多重共线性而导致变异膨胀的能力。m个自变量可以计算出m个VIF值,其中若是最大的VIF值超过10,则认为自变量存在着高度多重共线性。当自变量数目过多时,可以对M个VIF值求取平均数:
若VIF均值明显大于1,则认为多重共线性存在。
VIF值的计算可以利用自变量的相关系数矩阵求得:
其中,rXX为自变量的相关系数矩阵,k为岭回归系数,I为单位矩阵。当K=0时,VIF值是上式的矩阵对角线元素,并可以计算出VIF均值来判断自变量之间存在的多重共线性程度。在判断出自变量存在着高度多重共线性时,可以利用上式,调整不同的K值(0<k<1),来求得在不同k值的VIF均值,并找出VIF均值最接近1的k值来作为线性转换量Z的k值。
4、Logistic回归分析
回归分析是利用一系列现有的数值来预测一个连续数值的可能值。若将范围扩大也可以利用Logistic回归来预测类别变量。Logistic回归的关系表示为:
其中是x1,..xk的线性函数。若上式中线性函数部分推广为一个非线性函数g(xi),则相应模型就成为非线性的Logistic回归模型。
关联规则
关联规则可以用于大量数据中发现变量间的关联性。
聚类分析
聚类分析是一种分类的方法,目的是将相似的事物归类。聚类分析主要是用于检验某种相互依存关系,如顾客群体特性的相似或差异关系,通过将顾客特性进一步分割成若干类别而达到市场细化的目的。
假定研究对象均用所谓“点”来表示,在聚类分析中,一般的规则是将“距离”较近的点或是“相似系数”较大的点归为同一类,将距离较远或是相似系数较小的点归为不同的类别。
若用X和Y表示s空间中的两个点,如果是对变量聚类,则X和Y分别表示两个变量,其维数s就是样本量n;如果对样本做聚类,则X和Y分别表示两个个体,维数s就是聚类变量的个数。
常用的距离指标为欧氏距离
常用的相似系数指标为余弦系数
皮尔森相关系数其中Z表示分别对X和Y做标准正态变换
常用的聚类分析方法分为两大类,层次聚类法和非层次聚类法。