【读书笔记】商务智能与数据挖掘Mircrosoft SQL Server应用(谢邦昌主编)

目录

第一章:绪论

第二章:数据仓库

第三章:数据挖掘

第四章:数据挖掘中的主要方法


第一章:绪论

商务智能:能够为企业带来战略上决策上的指导意见,重要技术是数据挖掘及分析技术。

数据挖掘:一般而言,企业并不缺乏数据,而是无法完全利用所拥有的数据,并将其变为有用的信息。

数据仓库:功能强大,记录过去的数据,无法达到“预测”的需要,需要通过数据挖掘得到较为有利的决策结论。

第二章:数据仓库

能够适时地提供高级主管最需要的决策支持信息,“在适当的时间将正确的信息传递给适当或需要的人”

特点:

1、面向主题(数据建立的着重点在于以重要的主体组建为核心

2、整合性(各应用系统的数据需经过整合才可执行相关分析

3、长期性(为了进行趋势分析,数据仓库要保留多年的历史数据

4、稳定性(数据仓库不允许用户更新,只有内部相关人员会定期修改数据结构)

数据仓库的整体架构:

数据源->整体数据仓库->部门性数据仓库->查询工具->终端用户

建立数据仓库的基本过程:

*设计

*整合:包括数据解释(Data Extraction)、数据转换(Data Transformation)、数据清理(Data Cleaning)、数据加载(Data Load)

*管理

*可视化:数据挖掘、OLAP工具等用以呈现分析过的数据形式

*调度:管理工具

第三章:数据挖掘

数据挖掘:在数据库中,利用各种分析方法与技术,将过去所累积的大量繁杂的历史数据进行分析、归纳和整合

数据挖掘的功能:

1、分类classification:按照分析对象的属性分门别类加以定义,建立类组。使用的技巧有:决策树(decision tree)、记忆基础推理(memory-based reasoning)

2、估计estimation:根据既有连续性数值的相关属性数据,以获知某一属性未知值。使用的技巧:统计方法的相关分析、回归分析及神经网络方法

3、预测prediction:根据对象属性的过去观察值来估计该属性未来值。使用的技巧:回归分析、时间数列分析及神经网络方法

4、关联分组affinity grouping:从所有对象决定那些相关对象应该放在一起。CRM上此功能用来确认交叉销售(cross-selling)等,设计出吸引人的产品类别

5、聚类clustering:将异质总体中区分为特征相近的同质类组,即将组与组之间的差异辨识出来,并对个别组内的相似样本进行挑选。使用的技巧:系统聚类法、动态聚类法

数据挖掘的步骤:

1、理解数据与数据所代表的含义(Data Understanding)

2、获取相关知识与技术(Domain Knowledge Acquisition)

3、整合与检查数据(Integration and Checking)

4、去除错误或不一致的数据(Data Cleaning)

5、建模与假设(Model and Hypothesis Development)

6、数据挖掘运行(Running)

7、测试与验证所挖掘的数据(Testing and Verification)

8、解释与使用数据(Interpretation and Use)

数据挖掘建模的标准CRISP-DM:

跨行业数据挖掘的标准化过程(Cross-Industry Standard Process for Data Mining)

在CRISP-DM规划中,数据挖掘过程中每个必要的步骤都被标准化。CRISP-DM模型强调完整的数据挖掘过程,从方法学的角度强调实施数据挖掘项目的方法和步骤,并独立于每种具体数据挖掘算法和数据挖掘系统。具体分为六个阶段(phase)和四个层次(level)。

CRISP-DM的六个阶段:

1、定义商业问题(Business Definition)

2、数据理解(Data Understanding):包括建立数据库与分析数据。数据库建立后,再进行数据分析,找出影响未来决策最大的数据。

3、数据预处理(Data Preparation):建立模型之前的最后一步数据准备工作。

4、建立模型(Modeling):分析已经筛选和净化的数据,采用各种定性和定量的技术方法,对既有数据建构模式和模型,解决企业问题。

5、评价和解释(Evaluation):在建立了模型后对建立模型的结果加以解释,并对使用这一模型所带来的商业效果加以评价。

6、实施(Deployment):一种是提供给分析人员做参考;另一种是把模型应用到不同的数据集上。

CRISP-DM的四个层次:

1、阶段

2、泛化任务

3、具体任务

4、操作实例

数据挖掘软件分类

一般分析用的软件包:SQL Server 2005 、SAS Enterprise Miner、SPSS Clementine 、Oracle Darwin、 IBM Intelligent Miner、SGI MineSet

SQL Server数据平台包括以下工具:

*关系型数据库

*复制服务:数据复制可用于数据分发、处理移动数据应用、系统高可用、企业报表解决方案的后备数据可延展存储等

*通知服务:用于开发、部署可延展应用程序的先进的通知服务

*整合服务:可以支持数据仓储和企业范围内数据整合的抽取、转换和装载能力

*分析服务:在线分析处理功能OLAP

*报表服务:全面的报表及解决方案

*管理工具:SQL Server包含的整合性管理型工具可用于高级数据库管理

*开发工具

第四章:数据挖掘中的主要方法

回归分析

回归分析主要用于了解自变量和因变量之间的数量关系,即寻找两个或两个以上的变量之间互相变化的关系,并由此来解释变量间的相关性。然而在考虑自变量的选取时,必须要注意所选出的自变量与因变量是否存在着因果关系。

1、简单线性回归分析

Y_{i}=\beta_{0}+\beta_{1}X_{i}+\varepsilon _{i} ,i=1,2,...,n

最简单的回归包括一个因变量Y和一个自变量X,它们的关系是直线,其中\varepsilon是误差。X和Y之间的关系叫做线性模型,其中β是回归模型的参数,又叫做回归系数。

2、多元回归分析

Y_{i}=\beta _{0}+\beta_{1}X_{i1}+\beta_{2}X_{i2}+...+\beta_{k}X_{ik}+\varepsilon _{i}, i=1,2,...,n

在研究变量间关系上,影响Y的自变量往往不止一个,该式子中各自变量皆为一次幂式,称为多元线性回归模型。其中\beta _{0}为截距,\beta _{i}为回归系数。

3、岭回归分析

当自变量间存在多重共线性关系时,显然不适合放入同一模型。当自变量间存在高度多重共线性时,可能导致回归系数方差增加,即使某一自变量确实与因变量显著相关,也不能被有限样本数据检验出来。为避免建立一个不理想的回归模型,需要在建立模型时,测定自变量间多重共线性。例如可以在同一模型中,删除冗余和其他自变量高度相关的自变量,也可以利用岭回归来降低回归系数估计值的变异。

多重共线性是由于自变量间存在相关性造成的。假设回归模型中有M个s_{i}自变量,如果只利用相关分析则只能测定两个自变量间的相关程度,因此需要利用某一自变量与其他m-1个自变量的多元回归判定系数来判断多重共线性程度。若第i个自变量与其他m-1个自变量的估计回归模型为:\widehat{x_{i}}=s_{i}+t_{1}x_{1}+...+t_{i-1}x_{i-1}+t_{i+1}x_{i+1}+...+t_{m}x_{m} ,i=1,2,...,m其中,s_{i}为第i个多元回归模型的截距项,t_{m}为第i个多元回归模型的回归系数。

此模型得到的回归判定系数为:

R_{i}^{2}=\frac{SSR_{i}}{SSTo_{i}}, i=1,2,...,m

因此可以定义出一个称为方差膨胀因子VIF(Variance Inflation Factor)来作为测度多重共线性的指数:

VIF=\frac{1}{1-R_{i}^{2}},i=1,2,...,m

R_{i}^{2}=0时(第i个自变量和其他m-1个自变量间无相关),则VIF=1;

R_{i}^{2}=1时(第i个自变量和其他m-1个自变量趋近于完全相关),则VIF=∞,

所以VIF具有测度多重共线性的能力。

因为VIF反应了标准化回归系数b_{i}与标准化模型均方差MSE_{s}间的比例大小,因此能测度出自变量间多重共线性而导致b_{i}变异膨胀的能力。m个自变量可以计算出m个VIF值,其中若是最大的VIF值超过10,则认为自变量存在着高度多重共线性。当自变量数目过多时,可以对M个VIF值求取平均数:
\overline{VIF}=\frac{1}{m}\sum_{i=1}^{m}VIF_{i}

若VIF均值明显大于1,则认为多重共线性存在。

VIF值的计算可以利用自变量的相关系数矩阵求得:

(r_{XX}+kI)^{-1}r_{XX}(r_{XX}+kI)^{-1}

其中,rXX为自变量的相关系数矩阵,k为岭回归系数,I为单位矩阵。当K=0时,VIF值是上式的矩阵对角线元素,并可以计算出VIF均值来判断自变量之间存在的多重共线性程度。在判断出自变量存在着高度多重共线性时,可以利用上式,调整不同的K值(0<k<1),来求得在不同k值的VIF均值,并找出VIF均值最接近1的k值来作为线性转换量Z的k值。

4、Logistic回归分析

回归分析是利用一系列现有的数值来预测一个连续数值的可能值。若将范围扩大也可以利用Logistic回归来预测类别变量。Logistic回归的关系表示为:ln[p/(1-p)_{k}]=a_{0}+a_{1}x_{1}+...+a_{k}x_{k}

其中ln[E_{y}/(1-E_{y})]是x1,..xk的线性函数。若上式中线性函数部分推广为一个非线性函数g(xi),则相应模型就成为非线性的Logistic回归模型。

关联规则

关联规则可以用于大量数据中发现变量间的关联性。

聚类分析

聚类分析是一种分类的方法,目的是将相似的事物归类。聚类分析主要是用于检验某种相互依存关系,如顾客群体特性的相似或差异关系,通过将顾客特性进一步分割成若干类别而达到市场细化的目的。

假定研究对象均用所谓“点”来表示,在聚类分析中,一般的规则是将“距离”较近的点或是“相似系数”较大的点归为同一类,将距离较远或是相似系数较小的点归为不同的类别。

若用X和Y表示s空间中的两个点,如果是对变量聚类,则X和Y分别表示两个变量,其维数s就是样本量n;如果对样本做聚类,则X和Y分别表示两个个体,维数s就是聚类变量的个数。

常用的距离指标为欧氏距离D(X,Y)=\sqrt{\sum (X_{i}-Y_{i})^{2}}, i=1,2,...s

常用的相似系数指标为余弦系数S(X,Y)=\frac{\sum X_{i}Y_{i}}{\sqrt{(\sum X_{i}^{2})}\sqrt{(\sum Y_{i}^{2})}},i=1,2,...s

皮尔森相关系数S(X,Y)=\frac{1}{s-1}\sum Z_{xi}Z_{yi},i=1,2,...s其中Z表示分别对X和Y做标准正态变换

常用的聚类分析方法分为两大类,层次聚类法和非层次聚类法。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值