统计类数据挖掘

最新推荐文章于 2022-05-15 15:46:27 发布

liyangbing315

最新推荐文章于 2022-05-15 15:46:27 发布

阅读量3.2k

点赞数 1

分类专栏：数据挖掘文章标签：数据挖掘数据库工具网格 report 算法

本文链接：https://blog.csdn.net/liyangbing315/article/details/5439163

版权

数据挖掘专栏收录该内容

8 篇文章 1 订阅

订阅专栏

统计类数据挖掘技术

统计：借助于数学模型手段，对数据进行那个归纳、推断和预测，寻找数据间的模式。统计研究中的抽样推断方法，相关与回归分析方法，统计推算与预测，统计假设检验等方法。

u 统计类数据挖掘技术：

l 数据的聚集和度量技术

聚集函数，count(),sum(),avg(),max(),min()等，这些函数在数据挖掘中发挥着重要的统计作用。count()用于统计对象的个数，sum()用于统计对象的总值，avg()用于统计对象的平均值，max()用于统计对象的最大值，min()用于统计对象的最小值。

为数据进行中心趋势的度量，可以采用算术平均值，这就是一般数据库中的avg()函数。在大部分的数据立方体的预计算中都保存了count()和sum()函数。此时，算术平均值就可以使用sum()/count()来导出。

如果数据对象的值与某个权重有关，即值得大小需要考虑值的意义，重要性或频率，就不能简单地用算术平均值来度量数据对象的中心趋势，而需要采用加权算术平均值。

在数据对象是倾斜的情况下，数据中心的度量最好采用中位数。如果数据对象已经排好序，当数据对象的个数为奇数时，中位数就是有序数列的中间值，如果数据对象的个数为偶数时，中位数就是中间两个数的平均值。

l 柱状图数据挖掘技术

总结数据的最好方法是提供数据的柱状图。在一个简单的样本数据库中，通过计算数据库中信用评价的不同发生次数，就可以创建信用评价的一个柱状图。对于只有10个记录的简单客户信用数据库，这相当容易做到；对于一个有许多条记录的数据库，例如，对于一个超过100万数据记录的数据库，柱状图将是一个非常有用的方法，可以获得对数据库中数据的更高层次理解。

l 线性回归数据挖掘技术

回归是研究自变量与因变量之间关系的分析方法。其目的在于根据已知自变量来估计和预测因变量的总平均值。在统计中有许多不同类型的回归，但是它们的基本思想都是创建模型能够匹配预测属性中的值，这样做预测时就会犯很少的错误，回归最简单的形式是仅包含

一个预测目标和一个预测属性的见到那线性回归。在经过数据所画的许多曲线中，曲线和数据点距离最小的那条曲线被选泽为预测模型。

线性回归是最简单的回归形式，双变量回归将一个随机变量Y（称做响应变量）看做是另一个随机变量x(称为预测变量)的线性函数，即

其中，假定的方差为常数，和是回归系数，分别表示直线在Y轴的截距和直线的斜率。这些系数可用最小二乘法求解。这使得实际数据与该直线的估计之间误差很小。给定s个样本或形如( ,y1) (x2,y2) …. (xs,ys)的数据点，回归系数和可用公式

其中，是 , ,…, 的平均值，而是 , ,… 的平均值。系数和通常给出在其它情况下复杂回归方程的较好的近似。

l 非线性回归数据挖掘技术

当判定变量间的关系大致是一条直线时，可以拟合成一条直线反映其变动关系。然而很多情况下，变量间的关系城曲线形式，即非线性的，这时就应拟合一条曲线来反映变量间的关系。例如，给定的响应变量和预测变量间的关系可用多项式函数表示。通过对基本模型添加多项式项，多项式回归可以用于建模。通过对变量进行变换，可将非线性模型转换成线性的，然后用最小二乘法求解。

非线性回归主要有以下7种模型。

1. 双曲线模型

2. 二次曲线模型

3. 对数模型

4. 三角函数模型

5. 指数模型

6. 幂函数模型

7. 修正指数增长曲线

根据非线性回归模型线型化的不同性质上述模型一般可细分成如下3种类型。

n 第1类：直接换元法。这类非线性回归模型通过简单的变量换元，可以直接划为线性回归模型，如双曲线模型，二次曲线模型，对数模型和三角函数模型。由于这类模型的因变量没有变形，可以直接采用最小平方法估计回归系数并且进行检验和预测。

n 第2类：间接代换法。这类非线性回归模型经常通过对数变形的代换，间接地化为线性回归模型，如指数模型，幂函数模型。由于这类模型在对数变形代换过程中改变了因变量的形态，使得变形后模型的最小平方估计失去了原模型的残差平方和为最小的意义，从而估计不到原模型的最佳回归系数。造成回归模型和原数列之间的较大偏差。

n 第3类：非线性。这类非线性回归模型属于不可线性化的非线性回归模型，如修正指数增长曲线。

l 聚类数据挖掘技术

聚类(clustering)是将数据对象分组为多个类或簇(cluster)的数据挖掘技术。聚类分析方法作为统计学的分支，在其多年的研究中主要集中在距离的聚类分析上。这些方法已经在许多统计软件包中得到应用，例如，SPSS和SAS统计软件包中均有聚类方法。在数据挖掘中，聚类分析主要集中聚类方法的可伸缩性，对聚类复杂形状和类型的数据有效性，高维聚类分析技术以及针对大型数据库中混合数值和分类数据的聚类方法上。

聚类分析原理

在进行聚类分析时，必须用到n维“空间”。该空间用来定义聚类中必须解决的计量距离问题。例如，某房产开发商对其客户数据进行聚类分析时发现，如果按照数据中的“年龄”和“收入”两个字段值进行聚类处理，客户群可以分成三个主要的类别：类别1是中低收入但是已经退休的老年人、类别2是较高收入的中年人，类别3是高收入的年轻人。除此以外，还有一部分数据散落在这三个类以外；高收入的中年人和低收入的年轻人。

这些散落在外，不能归并到任一类中的数据称为“孤立点”或“奇异点”。“孤立点”的数据与数据库中其他部分数据不同或不一致，在这些“孤立点”数据中就可能隐藏着一些重要的信息。例如在“欺诈分析”中，这些“孤立点”可能意味着有欺诈行为的存在。在市场分析中则可用来分析极低或极高收入客户的消费行为。“孤立点”的确定需要通过“孤立点”与类别中心距离来判断。凡是落入半径范围以内的点都归属于该类。否则就是孤立点。

在n维空间中应用聚类数据挖掘时，需要对数据之间的距离进行测量，这种距离的测量可以采用“欧几里德距离”、“曼哈顿距离”和“明考斯距离”

面前，聚类方法主要有分层聚类，划分聚类，密度聚类，网格聚类和模型聚类

分层聚类

分层聚类主要有创建一个层次的聚类和另外一些部分层次的聚类两种类型。分层聚类技术是从小到大创建一个聚类的层次。分层聚类的好处是它们允许最终用户从许多簇或某些簇中做出选择。聚类的目的就是发现数据库中有用的模式并且概括它。

分层聚类通常被看成一棵树，其中最小的簇合并在一起创建下一个较高层次的簇。这一层次的簇再合并在一起，就创建了再下一层次的簇。

划分聚类

划分聚类方法是给定一个n个对象或元组的数据库构建k个划分的方法。每个划分为一个聚簇，并且k n。该方法将数据划分分为k个组，每个组至少有一个对象，每个对象必须属于而且只能属于一个组（在有的模糊划分技术中对此要求不很严格）。该方法的划分采用给定的k个划分要求，先给出一个初始的划分，再用迭代重定位技术，通过对象在划分之间的移动来改进划分。

为达到划分的全局最优，划分的聚类可能穷举所有可能的划分。但实际操作中，采用比较流行的k-平均算法和k-中心点算法。前者，每个簇用该簇中对象的平均值表示。后者，每个簇用接近聚类中心的一个对象表示。划分的最后认可，要求同一类中对象之间尽可能接近或相关，而不同类之间尽可能远离或不同。

密度聚类

密度聚类的思想基于距离的划分方法，只能发现球状的簇，而不能发现其他形状的簇。密度聚类则只要邻近区域的密度（对象或数据点的数目）超过某个阀值，就继续聚类。也就是说，对给定类中的每个数据点，在一个给定范围的区域中必须至少包含某个数目的点。这样，密度聚类方法就可用于过滤“噪声”孤立点数据，发现任意形状的簇。

网格聚类

网格聚类方法是将对象空间量化为有限数目的单元，形成一个网格结构。所有的聚类都在这个网格结构(即量化的空间)上进行。这种方法的优点是它的处理速度很快，其处理时间独立于数据对象的数目，只与量化空间中每一维的单元数目有关。

模型聚类

基于模型的聚类方法为每个簇假定一个模型，寻找数据对给定模型的最佳拟合。一个基于模型的算法，可能通过构建反映数据点空间分布的密度函数来定位聚类，它也是基于标准的统计数字自动决定聚类的数目，考虑“噪声”数据或孤立点，从而产生健壮的聚类方法。

l 最近邻数据挖掘技术

最近邻数据挖掘工具是数据挖掘技术中最容易理解的技术之一。因为它用与人们思维方式相似的方法进行分析——检测最接近的匹配样本。例如，在预测某些柔嫩的收入时，常需了解他目前出于什么阶层或获得什么学位。因为人们的收入高低往往与其所处的人群、与他的文化程度有关，因此需要检测与其最相邻的人群。

用最近邻方法进行预测的基本概念是相互之间“接近”的对象具有相似的预测值。

如果知道其中的一个对象的预测值后，可以预测其最近的邻居对象。这种最近邻的概念往往和人们能将对象进行合理排序的能力有关。

k近邻方法，如果k个最近邻的预测值是二元的逻辑值，就按照k个记录的多数取值，如果k个最近邻预测值是多元的分类值，就可以取它们的平均值作为未分类记录的预测值

u 统计分析类工具

l 统计类数据挖掘工具与商业业务员

使统计分析工具开始为商业分析人员所采纳和应用。这些商业分析员是其业务领域的专家，但却不是程序员或统计员。他们要从数据仓库中选择恰当的数据，将它抽取出来并且进行分析。商业分析员不可能将其有限的时间和精力投入学习如恶化编写计算机程序、操作数据库，而构造形式化的统计分析方法和策略可能更适合他们的决策分析。

l 统计类数据挖掘工具的功能

可视化的功能

探索功能

统计和操作的功能

数据管理功能

显示功能

挖掘结果描述功能

开发功能

可接收的响应时间

l 统计类数据挖掘工具——SPSS(Statistical Program for Social Sciences)

基本统计分析工具

SPSS的基本统计分析工具由Analyze菜单下的报告分析（Report）和描述性统计分析(Descriptive Statistics)两项功能组成。利用基本统计分析，可以了解所分析数据对象的许多统计学指标，例如均数、方差、标准差、标准误差、最大值、最小值、范围、偏差、峰值以及标准误差等，并且能对数据进行正态分析、独立性检验，分析单变量数据的特性和多变量数据的相互关系。

报告分析通过命令“Analyze”->“Report”,可以启动连机分析处理(OLAP Cubes)、观察值摘要分析(Cases Summary)、行式摘要报告(Report Summaries in Rows)和列式摘要报告(Report Summaries in Columns)等分析。

描述性统计分析可以通过“Analyze”->“Descriptive Statics”,启动频数分析(Frequencies)、描述性统计量(Descriptives)、探索分析(Explore)和多维频数分布列联表(Crosstabs)。

回归分析

在SPSS中可以完成线性回归分析(Linear)、曲线回归分析(Curve Estimation)、二维logistic回归分析(Binary Logistic)、多维logistic回归分析(Multinomial Logistic)、Ordinal回归分析(Ordinal)、概率单位回归分析(Proibit)和非线性回归分析(Nonlinear)等统计分析。这些回归分析在“Analyze”->“Regression”菜单项下启动。

相关分析

在SPSS中的相关分析包括相关分析(Bivariate)、偏相关分析(Partial)和距离分析(Distances)等数据分析功能。相关分析主要通过数据变量之间的密切程度，根据样本资料推断总体是否相关。这些相关分析的启动需要使用命令“Analyze”->”Correlate”

分类分析

SPSS中的分类分析主要有快速样本聚类(K-Means Cluster)、层次聚类(Hierararchical Cluster)和判别分类(Discriminant)。这些分类方法均在命令”Analyze”->”Classify”下。

因子分析

SPSS中的因子分析主要用于研究若干个变量(因素)中每个变量对某些响应的作用。对这些因素的研究可以是单因素也可以是多因素的。在SPSS中用“Analyze”->”Data Reduction”->”Factor”命令进行因子分析。因子分析的目的是用少数几个因子去描述许多指标或因素之间的联系，即将相互关系比较密切的几个变量归纳在同一个类别中，每个类别就成为一个因子，就可以用少数几个因子反映数据中的大部分信息。

非参数分析

u 统计分析类工具的用途

在数据挖掘过程中，有时需要对时序数据库和序列数据库进行数据挖掘。统计类数据挖掘工具可以在时序数据和序列数据的挖掘过程中发挥重要作用，主要是趋势分析，相似性搜索，与时间有关数据的序列模式挖掘和周期性模式的挖掘。

l 趋势分析

发生时序变化的数据通常可能出现长期的趋势变化、循环变化、季节变化以及随机变化的趋向。

趋势变化的数据序列可以反映一般的变化方向，它的时序图是一种较长时间间隔上的数据变化。这种变化反映一种趋势，确定这种趋势的方法可以采用加权平均或最小二乘法。

循环变化数据的趋势线在一个较长的时间内呈现一种摆动变化迹象。这种摆动可能是一种完全周期性的，也可能不是周期性的，即在时间间隔之间循环不按同样的模式演变。

季节变化数据反映每年都重复出现的事件，例如，春节前，各种商品的销售量会有一个较大幅度的增长。这种时序变化是以同一或类似同一模式，在连续几年的有关月份中重复出现。

l 时序分析

时序分析是指在时序数据中应用所谓的相似搜索，找出与给定查询序列最接近的数据序列，主要找出与给定序列相似的所有数据序列的子序列匹配或找出彼此间相似的整体序列匹配，这些相似搜索可以用于对市场数据的分析中。时序的相似搜索需要经过数据变换，将时序数据从时间域转换到频率域，转换方法主要采用傅立叶变换(DFT)和离散小波变换(DWT)，一旦数据完成变换，就可提交系统，由系统根据索引检索出与查询序列保持最小距离的数据序列。

为提高相似搜索效率，在数据转换以后需要建立一些索引，这些索引主要有R-树、R*-树以及后缀树。

l 周期分析

周期分析是针对周期模式的挖掘，即在所时序数据库中找出重复出现的模式。周期模式挖掘可以看成一组分片序列为持续时间序列模式挖掘。例如，在每年春节销售这一事件出现前后的每一天销售等。

周期模式的挖掘问题可以分成挖掘全周期模式、挖掘部分周期模式和挖掘周期关联关则3种。挖掘全周期模式是指在周期中的每一时间点都影响时序上的循环行为，例如一周中的每一天销售量都会对一周中的销售量发挥作用。

挖掘部分周期模式是一种比较松散的全周期模式，这种模式在现实中是常见的，他主要描述部分时间点的时序周期。

挖掘周期关联规则是指周期性出现的事件的关联规则。即在某个周期中，某个事件发生以后，将会导致另一事件的发生。

u 统计分析类工具应用中的问题

l 统计类数据挖掘的预处理问题

空缺值处理：如果数据库中许多元组的一些属性值没有记录只，可以采用以下的方法为该属性添上空缺的值。

ü 忽略元组：该方法应用时，要求元组有多个属性缺少值。

ü 人工填写空缺值：该方法很费时，且当数据量很大、缺少很多值时，该方法可能行不通。

ü 使用一个全局变量来填充空缺值：将空缺的值用同一个常数替换

ü 使用属性的平均值填充空缺值：使用与给定元组属同一类的所有样本的平均值。

ü 使用最可能的值填充空缺值：使用回归、基于推导的使用贝叶斯形式化方法的工具或判定树归纳确定最有可能的值，将其填充到空缺值中。

噪声数据处理：噪声是一个测量变量中的随机错误或偏差。给定一个数值属性的噪声，可以将其平滑或剔除掉噪声。

ü 分箱：分箱方法用来平滑噪声，该方法主要通过考察“邻居”(即周围的值)，平滑存储数据的值，存储值被分布到一些“桶”或箱中。由于分箱方法参考相邻的值，因此它进行局部平滑。箱平均值平滑，箱边界平滑。一般而言，宽度越大，平滑效果越大。

ü 聚类：数据中的孤立点噪声可用聚类检测出来。聚类将类似的值组织成群或“聚类”。直观地看，落在聚类集合之外的值被视为孤立点。孤立点值作为噪声值处理，将其删除或用“聚类”中心代替。

ü 计算机和人工检查结合

可以通过计算机和人工检查相结合的方法来识别孤立点。

ü 回归：可以通过让数据适合一个函数（如回归函数）来平滑噪声数据。线性回归涉及找出适合两个变量的“最佳”直线，使得一个变量能够预测另一个。多线性回归是线性回归的扩展，它涉及多于两个变量。适合多维面数据。使得回归找出适合数据的数学方程式，能够帮助消除噪声。

不一致数据处理

对于有些事务，所记录的数据可能存在不一致性。有些数据不一致可以使用其他材料人工加以更正，

l 统计分析遵循的基本原则

与定性分析相结合的原则

统计分析是一种定量分析，但不是抽象的量，而是具有一定质的量。

连贯和类推原则

这是进行模拟外推分析所要遵循的两条重要原则。连贯性指的是过去和现在的状况将会依某种规律延续到将来。它有两方面的含义：一是时间的连贯性，而是结构的连贯性。类推原则指客观事物的结构和变化都有一定模式。同一性质，同一类型的饰物，其结构变化应该有同一模式。这种模式可由数学模型模拟，将过去的情况类推到将来，类推原则是建立统计模型的理论基础。

统计资料的可靠性和分析公式的适应性原则

必须保证统计资料的准确、可靠和合理。对于同一目的、同一批数据的分析问题来说，可以有不同的分析模型和分析方法，建立最合适的分析公式。

l 统计分析的步骤

确定分析目标：分析对象是什么，解决什么问题，达到什么要求以及分析的时间、范围等。

收集、审核及分析统计资料

确定分析模型、选择分析方法

进行分析

根据选定的模型，用选定的分析方法计算出参数后，就有了据以分析的公式，根据分析公式对数据进行分析。

误差分析

l 统计类数据挖掘的性能问题

许多人认为统计方法是数据挖掘最准确的形式。事实上许多数据挖掘技术都用存在已久的统计技术。一种很流行的决策树方法CHAID用卡方度量；关联算法使用了支持度和置信度；聚类技术使用了K均值算法之类的统计尺度；贝叶斯网使用了1763年就存在的统计技术“贝叶斯概率理论”