【读书笔记】商务智能与数据挖掘Mircrosoft SQL Server应用（谢邦昌主编）

最新推荐文章于 2024-07-16 00:08:48 发布

guancunjie

最新推荐文章于 2024-07-16 00:08:48 发布

阅读量152

点赞数

分类专栏：读书笔记文章标签：数据挖掘 sql 数据仓库

本文链接：https://blog.csdn.net/guancunjie/article/details/89787307

版权

读书笔记专栏收录该内容

3 篇文章 0 订阅

订阅专栏

第一章：绪论

商务智能：能够为企业带来战略上决策上的指导意见，重要技术是数据挖掘及分析技术。

数据挖掘：一般而言，企业并不缺乏数据，而是无法完全利用所拥有的数据，并将其变为有用的信息。

数据仓库：功能强大，记录过去的数据，无法达到“预测”的需要，需要通过数据挖掘得到较为有利的决策结论。

第二章：数据仓库

能够适时地提供高级主管最需要的决策支持信息，“在适当的时间将正确的信息传递给适当或需要的人”

特点：

1、面向主题（数据建立的着重点在于以重要的主体组建为核心）

2、整合性（各应用系统的数据需经过整合才可执行相关分析）

3、长期性（为了进行趋势分析，数据仓库要保留多年的历史数据）

4、稳定性（数据仓库不允许用户更新，只有内部相关人员会定期修改数据结构）

数据仓库的整体架构：

数据源->整体数据仓库->部门性数据仓库->查询工具->终端用户

建立数据仓库的基本过程：

*设计

*整合：包括数据解释（Data Extraction)、数据转换（Data Transformation)、数据清理（Data Cleaning)、数据加载(Data Load)

*管理

*可视化：数据挖掘、OLAP工具等用以呈现分析过的数据形式

*调度：管理工具

第三章：数据挖掘

数据挖掘：在数据库中，利用各种分析方法与技术，将过去所累积的大量繁杂的历史数据进行分析、归纳和整合

数据挖掘的功能：

1、分类classification：按照分析对象的属性分门别类加以定义，建立类组。使用的技巧有：决策树（decision tree)、记忆基础推理（memory-based reasoning)

2、估计estimation：根据既有连续性数值的相关属性数据，以获知某一属性未知值。使用的技巧：统计方法的相关分析、回归分析及神经网络方法

3、预测prediction：根据对象属性的过去观察值来估计该属性未来值。使用的技巧：回归分析、时间数列分析及神经网络方法

4、关联分组affinity grouping：从所有对象决定那些相关对象应该放在一起。CRM上此功能用来确认交叉销售（cross-selling）等，设计出吸引人的产品类别

5、聚类clustering：将异质总体中区分为特征相近的同质类组，即将组与组之间的差异辨识出来，并对个别组内的相似样本进行挑选。使用的技巧：系统聚类法、动态聚类法

数据挖掘的步骤：

1、理解数据与数据所代表的含义（Data Understanding)

2、获取相关知识与技术（Domain Knowledge Acquisition)

3、整合与检查数据（Integration and Checking)

4、去除错误或不一致的数据（Data Cleaning)

5、建模与假设（Model and Hypothesis Development)

6、数据挖掘运行（Running)

7、测试与验证所挖掘的数据（Testing and Verification)

8、解释与使用数据（Interpretation and Use)

数据挖掘建模的标准CRISP-DM：

跨行业数据挖掘的标准化过程（Cross-Industry Standard Process for Data Mining）

在CRISP-DM规划中，数据挖掘过程中每个必要的步骤都被标准化。CRISP-DM模型强调完整的数据挖掘过程，从方法学的角度强调实施数据挖掘项目的方法和步骤，并独立于每种具体数据挖掘算法和数据挖掘系统。具体分为六个阶段（phase)和四个层次（level）。

CRISP-DM的六个阶段：

1、定义商业问题（Business Definition)

2、数据理解（Data Understanding):包括建立数据库与分析数据。数据库建立后，再进行数据分析，找出影响未来决策最大的数据。

3、数据预处理（Data Preparation)：建立模型之前的最后一步数据准备工作。

4、建立模型（Modeling）：分析已经筛选和净化的数据，采用各种定性和定量的技术方法，对既有数据建构模式和模型，解决企业问题。

5、评价和解释（Evaluation）：在建立了模型后对建立模型的结果加以解释，并对使用这一模型所带来的商业效果加以评价。

6、实施（Deployment)：一种是提供给分析人员做参考；另一种是把模型应用到不同的数据集上。

CRISP-DM的四个层次：

1、阶段

2、泛化任务

3、具体任务

4、操作实例

数据挖掘软件分类

一般分析用的软件包：SQL Server 2005 、SAS Enterprise Miner、SPSS Clementine 、Oracle Darwin、 IBM Intelligent Miner、SGI MineSet

SQL Server数据平台包括以下工具：

*关系型数据库

*复制服务：数据复制可用于数据分发、处理移动数据应用、系统高可用、企业报表解决方案的后备数据可延展存储等

*通知服务：用于开发、部署可延展应用程序的先进的通知服务

*整合服务：可以支持数据仓储和企业范围内数据整合的抽取、转换和装载能力

*分析服务：在线分析处理功能OLAP

*报表服务：全面的报表及解决方案

*管理工具：SQL Server包含的整合性管理型工具可用于高级数据库管理

*开发工具

第四章：数据挖掘中的主要方法

回归分析

回归分析主要用于了解自变量和因变量之间的数量关系，即寻找两个或两个以上的变量之间互相变化的关系，并由此来解释变量间的相关性。然而在考虑自变量的选取时，必须要注意所选出的自变量与因变量是否存在着因果关系。

1、简单线性回归分析

$Y_{i}=\beta_{0}+\beta_{1}X_{i}+\varepsilon _{i} ,i=1,2,...,n$

最简单的回归包括一个因变量Y和一个自变量X，它们的关系是直线，其中 $\varepsilon$ 是误差。X和Y之间的关系叫做线性模型，其中β是回归模型的参数，又叫做回归系数。

2、多元回归分析

$Y_{i}=\beta _{0}+\beta_{1}X_{i1}+\beta_{2}X_{i2}+...+\beta_{k}X_{ik}+\varepsilon _{i}, i=1,2,...,n$

在研究变量间关系上，影响Y的自变量往往不止一个，该式子中各自变量皆为一次幂式，称为多元线性回归模型。其中 $\beta _{0}$ 为截距， $\beta _{i}$ 为回归系数。

3、岭回归分析

当自变量间存在多重共线性关系时，显然不适合放入同一模型。当自变量间存在高度多重共线性时，可能导致回归系数方差增加，即使某一自变量确实与因变量显著相关，也不能被有限样本数据检验出来。为避免建立一个不理想的回归模型，需要在建立模型时，测定自变量间多重共线性。例如可以在同一模型中，删除冗余和其他自变量高度相关的自变量，也可以利用岭回归来降低回归系数估计值的变异。

多重共线性是由于自变量间存在相关性造成的。假设回归模型中有M个 $s_{i}$ 自变量，如果只利用相关分析则只能测定两个自变量间的相关程度，因此需要利用某一自变量与其他m-1个自变量的多元回归判定系数来判断多重共线性程度。若第i个自变量与其他m-1个自变量的估计回归模型为： $\widehat{x_{i}}=s_{i}+t_{1}x_{1}+...+t_{i-1}x_{i-1}+t_{i+1}x_{i+1}+...+t_{m}x_{m} ,i=1,2,...,m$ 其中， $s_{i}$ 为第i个多元回归模型的截距项， $t_{m}$ 为第i个多元回归模型的回归系数。

此模型得到的回归判定系数为：

$R_{i}^{2}=\frac{SSR_{i}}{SSTo_{i}}, i=1,2,...,m$

因此可以定义出一个称为方差膨胀因子VIF（Variance Inflation Factor)来作为测度多重共线性的指数：

$VIF=\frac{1}{1-R_{i}^{2}},i=1,2,...,m$

当 $R_{i}^{2}$ =0时（第i个自变量和其他m-1个自变量间无相关），则VIF=1；

当 $R_{i}^{2}$ =1时（第i个自变量和其他m-1个自变量趋近于完全相关），则VIF=∞，

所以VIF具有测度多重共线性的能力。

因为VIF反应了标准化回归系数 $b_{i}$ 与标准化模型均方差 $MSE_{s}$ 间的比例大小，因此能测度出自变量间多重共线性而导致 $b_{i}$ 变异膨胀的能力。m个自变量可以计算出m个VIF值，其中若是最大的VIF值超过10，则认为自变量存在着高度多重共线性。当自变量数目过多时，可以对M个VIF值求取平均数：
$\overline{VIF}=\frac{1}{m}\sum_{i=1}^{m}VIF_{i}$

若VIF均值明显大于1，则认为多重共线性存在。

VIF值的计算可以利用自变量的相关系数矩阵求得：

$(r_{XX}+kI)^{-1}r_{XX}(r_{XX}+kI)^{-1}$

其中，rXX为自变量的相关系数矩阵，k为岭回归系数，I为单位矩阵。当K=0时，VIF值是上式的矩阵对角线元素，并可以计算出VIF均值来判断自变量之间存在的多重共线性程度。在判断出自变量存在着高度多重共线性时，可以利用上式，调整不同的K值（0<k<1)，来求得在不同k值的VIF均值，并找出VIF均值最接近1的k值来作为线性转换量Z的k值。

4、Logistic回归分析

回归分析是利用一系列现有的数值来预测一个连续数值的可能值。若将范围扩大也可以利用Logistic回归来预测类别变量。Logistic回归的关系表示为： $ln[p/(1-p)_{k}]=a_{0}+a_{1}x_{1}+...+a_{k}x_{k}$

其中 $ln[E_{y}/(1-E_{y})]$ 是x1,..xk的线性函数。若上式中线性函数部分推广为一个非线性函数g(xi)，则相应模型就成为非线性的Logistic回归模型。

关联规则

关联规则可以用于大量数据中发现变量间的关联性。

聚类分析

聚类分析是一种分类的方法，目的是将相似的事物归类。聚类分析主要是用于检验某种相互依存关系，如顾客群体特性的相似或差异关系，通过将顾客特性进一步分割成若干类别而达到市场细化的目的。

假定研究对象均用所谓“点”来表示，在聚类分析中，一般的规则是将“距离”较近的点或是“相似系数”较大的点归为同一类，将距离较远或是相似系数较小的点归为不同的类别。

若用X和Y表示s空间中的两个点，如果是对变量聚类，则X和Y分别表示两个变量，其维数s就是样本量n；如果对样本做聚类，则X和Y分别表示两个个体，维数s就是聚类变量的个数。

常用的距离指标为欧氏距离 $D(X,Y)=\sqrt{\sum (X_{i}-Y_{i})^{2}}, i=1,2,...s$

常用的相似系数指标为余弦系数 $S(X,Y)=\frac{\sum X_{i}Y_{i}}{\sqrt{(\sum X_{i}^{2})}\sqrt{(\sum Y_{i}^{2})}},i=1,2,...s$

皮尔森相关系数 $S(X,Y)=\frac{1}{s-1}\sum Z_{xi}Z_{yi},i=1,2,...s$ 其中Z表示分别对X和Y做标准正态变换

常用的聚类分析方法分为两大类，层次聚类法和非层次聚类法。

guancunjie

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【读书笔记】商务智能与数据挖掘Mircrosoft SQL Server应用（谢邦昌主编）

目录第一章：绪论第二章：数据仓库第三章：数据挖掘第四章：数据挖掘中的主要方法第一章：绪论商务智能：能够为企业带来战略上决策上的指导意见，重要技术是数据挖掘及分析技术。数据挖掘：一般而言，企业并不缺乏数据，而是无法完全利用所拥有的数据，并将其变为有用的信息。数据仓库：功能强大，记录过去的数据，无法达到“预测”的需要，需要通过数据挖掘得到较为有利的决策结论。...
复制链接

扫一扫