1. 数据获取
1.1 数据挖掘的对象
(1)关系型数据库、事务型数据库、面向对象的数据库;
(2)数据仓库/多维数据库;
(3)空间数据(如地图信息)
(4)工程数据(如建筑、集成电路的信息)
(5) 文本和多媒体数据(如文本、图象、音频、视频数据)
(6)时间相关的数据(如历史数据或股票交换数据)
(7)万维网(如半结构化的HTML,结构化的XML以及其他网络信息)
1.2数据挖掘的步骤
(1)数据清理(消除噪音或不一致数据,补缺);
(2)数据集成((多种数据源可以组合在一起);
(3)数据选择(从数据库中提取相关的数据);
(4)数据变换(变换成适合挖掘的形式);
(5)数据挖掘(使用智能方法提取数据模式);
(6)模式评估(识别提供知识的真正有趣模式);
(7)知识表示(可视化和知识表示技术)。
1.3支持数据挖掘的关键技术
(1)数据库/数据仓库/OLAP
(2) 数学/统计(回归分析:多元回归、自回归;判别分析:Bayes判别、Fisher判别、非参数判别;主成分分析、相关性分析;模糊集;粗糙集)
(3)机器学习(聚类分析;关联规则;决策树;范例推理;贝叶斯网络;神经网络;支持向量机;遗传算法)
(4)可视化:将数据、知识和规则转化为图形表现的形式。
1.4数据仓库
(1)数据仓库是一个面向主题的、集成的、随时间变化的、非易失性数据的集合,用于支持管理人员的决策。
(2)数据仓库是一种多个异种数据源在单个站点以统一的模式组织的存储,以支持管理决策。数据仓库技术苞括数据清理、数据集成和联机分析处理( OLAP) 。
(3)数据仓库的逻辑结构是多维数据库。数据仓库的实际物理结构可以是关系数据存储或多维数据方(Cube) 。
(4)数据方是由维度(Dimension)和度量(Measure)定义的一种数据集,度量存放在由维度索引的数据方单元中。维度对应于模式中的属性组,度量对应于与主题相关的事实数据。数据方的物化是指预计算并存储全部或部分单元中的度量。
1.5数据仓库的模型
(1)星形模式: 最常见模型;其中数据仓库包括一个大的、包含大批数据、不含冗余的中心表(事实表)﹔一组小的附属表(维表),每维一个。
(2)雪花模式: 雪花模式是星型模式的变种,其中某些维表是规范化的,因而把数据进一步分解到附加的表中。
(3) 星系模式: 多个事实表共享维表。这种模式可以看作星形模式集,因此称为星系模式,或事实星座。
1.6典型的OLAP操作
(1) OLAP是一种多维数据分析技术。包括汇总、合并和聚集等功能,以及从不同的角度观察信息的能力。
(2上卷: 从某一维度的更高概念层次观察数据方,获得更概要的数据。它通过沿维的概念分层向上或维归约来实现。
(3)下钻: 下钻是上卷的逆操作。它从某一维度的更低概念层次观察数据方,获得更详细的数据。下钻可以通过沿维的概念分向下或引入新的维来实现。
(4)切片和切块: 切片操作在给定的数据方的选择一个维的部分属性,获得一个较小的子数据方。切块操作通过对选择两个或多个维的部分属性,获得一个较小的子数据方
(5)转轴: 是一种改变数据方二维展现形式的操作。它将数据方的二维展现中的某些维度由行改为列,或由列改为行。
2 数据准备
- 现实世界的数据是不完整的(有些感兴趣的属性缺少属性值,或仅包含聚集数据),含噪音的(包含错误,或存在偏离期望的异常值),不一致的(例如,用于商品分类的部门编码存在差异)。
- 需要数据清理、数据集成、数据选择、数据变换等技术对数据进行处理。
2.1 维归约/特征提取
2.1.1决策树归约
(1)决策树归约构造一个类似于流程图的结构:其每个非叶子结点表示一个属性上的测试,每个分枝对应子测试的一个输出;每个叶子结点表示一个决策类。
(2)在每个结点,算法选择“当前对分类最有帮助”的属性,出现在树中的属性形成归约后的属性子集。
2.1.2粗糙集归约
(1)粗糙集理论在数学意义上描述了知识的不确定性,它的特点是把用于分类的知识嵌入集合内,使分类与知识联系在一起。
(2)知识的粒度、不可分辨关系、上近似、下近似、边界等概念见下图。

(3)令Q代表属性的集合。 q ∈ Q q\in Q q∈Q是一个属性,如果IND(Q-q)= IND(Q),则q在S中不是独立的;否则称q在s中是独立的。
(4)若集合满足IND®= IND(Q)且R中的每一个属性都是独立的,则R被称为Q的一个“约简”,记作R=RED(Q)。
(5)约简可以通过删除冗余的(不独立的)属性而获得,约简包含的属性即为“对分类有帮助”的属性。
2.2 数据变换
2.2.1归一化与模糊化
有限区间的归一化:
无限区间的归一化:

2.2.2核函数
(1)核函数的基本思想是将在低维特征向量线性不可分的数据映射到线性可分的高维特征空间中去。
(2)映射可以是显式的,也可以是隐式的。显式映射即找到一个映射关系f,使高维空间的特征向量f (x)可以被直接计算出来。
(3)隐式映射,即引入一个核函数进行整体处理,就避免了对的直接求f(x)的计算困难。核函数即某高维特征空间中向量的内积,是核矩阵中的一个元素。
(4)并不是所有的实值函数f(x)都可以作为空间映射的核函数,只有f(x)是某一特征空间的内积时,即符合Mercer条件,它才能成为核函数。
- 多项式函数
- 高斯(RBF)函数
- 多层感知机函数
- 低维空间向量映射到高维空间向量
2.2.3 数据归一化和标准化
数据归一化是将所有特征都统一到一个大致相同的数值区间内,通常是[0,1]
归一化:对原始数据进行线性变化,使结果映射到[0,1]的范围内,实现对数据的等比例缩放。把有量纲表达式转换到无量纲表达式。

好处:提升模型训练速度
提升模型训练精度
标准化:将原始数据映射到均值为0,标准差为1的分布上。

在分类、聚类算法中,需要使用距离来度量相似性,或者使用PCA进行降维的时候,标准化表现更好。在不涉及距离度量、协方差计算、数据不符合正态分布的时候,可以使用归一化。
(1)如果对输出结果范围有要求,用归一化。
(2)如果数据较为稳定,不存在极端的最大最小值,用归一化。
(3)如果数据存在异常值和较多噪音,用标准化,可以间接通过中心化避免异常值和极端值的影响。
2.3 数据压缩
2.3.1 离散化
-
离散化的用途:
- (1)适应某些仅接受离散值的算法;
- (2)减小数据的尺度。
-
离散化的方法包括几下几种。
-
(1)等距分割;
-
(2)聚类分割;
-
(3)直方图分割;
-
(4)基于嫡的分割;
-
(5) 基于自然属性的分割。
2.3.2 回归
- 回归和对数线性模型可以用来近似给定的数据。
- 在线性回归中,用一条直线来模拟数据的生成规则。
- 多元回归是线性回归的扩展,涉及多个预测变量。
- 在多项式回归中,通过对变量进行变换,可以将非线性模型转换成线性的,然后用最小平方和法求解。
- 利用线性回归可以为连续取值的函数建模。广义线性模型则可以用于对离散取值变量进行回归建模。
- 在广义线性模型中,因变量Y的变化速率是Y均值的一个函数;这一点与线性回归不同。常见的广义线性模型有:对数回归和泊松回归。
- 对数回归模型是利用一些事件发生的概率作为自变量所建立的线性回归模型。
- 泊松回归模型主要是描述数据出现次数的模型,因为它们常常表现为泊松分布。
2.3.3 主成分分析(PCA)
- PCA算法搜索c个最能代表数据的k-维正交向量;这里c≤k。这样,原来的数据投影到一个较小的空间,导致数据压缩。步骤如下:
(1)对输入数据归一化,使得每个属性都落入相同的区间。
(2)PCA计算c个规范正交向量,作为归一化输入数据的基。这些是单位向量,每一个都垂直于另一个:称为主成分。输入数据是主要成分的线性组合。
(3)对主成分按“意义”或强度降序排列,选择部分主成分充当数据的一组新坐标轴。
2.3.4 离散小波变换(DWT)
- 离散小波变换是一种线性信号处理技术。该技术方法可以将一个数据向量转换为另一个数据向量(为小波相关系数);且两个向量具有相向长度
- 可以舍弃转换后的数据向量中的一些小波相关系数。保留所有大于用户指定阈值的小波系数,而将其它小波系数置为0,以帮助提高数据处理的运算效率。
- 这一技术方法可以在保留数据主要特征情况下除去数据中的噪声,因此该方法可以有效地进行数据清洗。
- 给定一组小波相关系数,利用离散小波变换的逆运算还可以近似恢复原来的数据
3 数据预处理
数据挖掘的前提:真实世界中的数据来源复杂、体积巨大,往往难以避免地存在缺失、噪声、不一致等问题。为了提高数据挖掘的质量,产生了数据预处理技术。
数据和特征决定了机器学习的上限,而所选模型和算法只是去逼近这个上限。
通过特征提取,我们能得到未经处理的特征,这时的特征可能有以下问题:
- 不属于同一量纲:即特征的规格不一样,不能够放在一起比较。
- 信息冗余:对于某些定量特征,其包含的有效信息为区间划分,例如学习成绩,假若只关心“及格”或不“及格”,那么需要将定量的考分,转换成“1和“o表示及格和未及格
- 定性特征不能直接使用:某些机器学习算法和模型只能接受定量特征的输入,那么需要将定性特征转换为定量特征。
- 存在缺失值:缺失值需要补充。
- 信息利用率低:不同的机器学习算法和模型对数据中信息的利用是不同的。
- 当数据的维数过高时还会存在所谓的“维数灾难(Curse of dimensionality)”问题,过高的维度不仅增加了计算量,反而可能会降低算法的效果。
常见的数据预处理方法:
●数据清洗
处理数据的某些纪录值缺失,平滑数据中的噪声、发现异常值,改正不一致等。
●数据融合
将不同来源的、异质的数据融合到一起。良好的数据融合可以减少数据中的冗余和不―致性,进而提升后续步骤的精度和速度。
●数据转换
通过平滑聚集,数据概化,规范化等方式将数据转换成适用于数据挖掘的形式。
●数据降维
将高维度数据化为低维度数据,仍保持原数据的大部分信息,使数据挖掘结果与降维前结果相同或几乎相同。
最低0.47元/天 解锁文章

2197

被折叠的 条评论
为什么被折叠?



