数据挖掘笔记-1

最新推荐文章于 2024-01-09 16:03:07 发布

Track48

最新推荐文章于 2024-01-09 16:03:07 发布

阅读量452

点赞数

分类专栏：数据挖掘文章标签：数据挖掘

本文链接：https://blog.csdn.net/TYtrack/article/details/79842526

版权

数据挖掘专栏收录该内容

7 篇文章 0 订阅

订阅专栏

第一章绪论

1.1 什么是数据挖掘

KDD： Knowledge Discovery in Database

数据输入->数据预处理->数据挖掘->后处理->信息获取

数据预处理包括：

特征选择
维归约
规范化
选择数据子集

后处理包括：

模式过滤
可视化
模式表达

1.2 数据挖掘要解决的问题

可深缩：着眼于数据量剧烈增长的问题
高维性：对象拥有数量不少的属性
异种数据和复杂数据：数据来源广泛，且结构复杂
数据的所有权与分布：分布式数据处理
非传统的分析：数据挖掘要求自动产生和评估假设，并且数据挖掘数据集多是时机性样本，而非随机性样本

1.4数据挖掘任务

预测任务：根据某些属性来预测另外一些属性的值。其中，用来做预测的属性被称为说明性属性(explanatory variable)或自变量(independent variable)，被预测的属性被称为目标变量(target variable)或因变量(dependent variable)

描述任务：导入数据中的潜在的模式，如相关、趋势、聚类和异常等。

更详细的说，有如下任务：

预测建模(predictive modeling)：以自变量为因变量建立模型，从而使得因变量的预测值与实际值误差越小越好。其中，针对离散性变量的称为分类(classification)，针对连续性变量的称为回归(regression)
关联分析(association analysis)：用来发现描述数据中强相关的模式
聚类分析(cluster analysis) ：旨在发现紧密相关的对象群，使得同一簇中的对象尽可能相似，不同簇之间的对象则尽可能相异
异常检测(anomaly analysis)：识别其属性值明显不同于其他数据的对象，这样对象被称为异常值(anomaly) 或离群点(outlier)

第二章数据

2.1数据类型

数据集通常可以堪为数据对象的集合。数据对象有时也可称为记录、点、向量、模式等。数据对象由一组刻画对象基本特性的属性描述，属性又可称为变量、特性、字段、特征或者维。

2.1.1度量和属性

属性：对象的性质或特征

测量标度：将数值或符号值与对象的属性相关联的规则（函数）

属性的值往往有如下性质：

相异性
序
加法
乘法

根据这些性质，可将属性分为四种类型：标称，叙述，区间，比率。

标称：标称属性只是用来区别不同对象的，如邮政编码、学号

序数：序数属性可以确定对象的顺序，如治疗效果、矿石硬度

区间：区间属性之间的差有意义，即有测量单位，如日历日期、摄氏度等

比率：比率属性的差与比值都有意义，如绝对温度、质量、长度

属性类型可以通过不改变属性的变换来描述，即允许的变换(permissible transformation)

标称:任何一对一的变换

序数:值的保序变换，NewValue = f(OldValue)，其中f为单调函数

区间:NewValue = a∗OldValue+b，a,b为常数

比率:NewValue = a∗OldValue

另外根据属性的可能取值，可将属性分为离散的(discrete)，连续的(continuous)

对于非对称的属性(asymmetric attribute)，出现非零值才重要，考虑如下数据集：每个对象为一个学生，每个属性记录该学生是否选修了某项大学课程

2.1.2 数据集的类型

一般数据集的三个特性：

维度：数据集中的对象具有的属性数目，数据预处理的一个重要动机是维规约。
稀疏性：如具有非对称特征的数据集，只有非零值才需要处理。
分辨率：如果分辨率太高，分类太细，模式可能看不到，或者掩埋在噪声里，如果分辨率太低，模式可能不出现。

数据集主要分为三类：记录数据，基于图形的数据、有序的数据

记录数据的不同类型：

事物数据或购物篮数据：非关系型数据，例如每个消费者的购物时一条记录，购物车里的所有东西构成数据集
数据矩阵：数据对象看做多维空间中的点，每个维代表描述对象的一个不同属性。
稀疏数据矩阵：文档-词矩阵

基于图形的数据：

带有对象之间联系的数据，如网页链接
具有图形对象的数据，如化学分子

有序数据：

时序数据，又叫时间数据，每个记录包含与之相关联的时间
序列数据：如基因序列
时间序列数据：如气温时间序列，要考虑时间自相关，时间接近的测量值通常非常相似
空间数据：如不同地理位置的信息，考虑空间自相关性

2.2 数据质量

数据挖掘所使用的数据往往是为其他用途收集的，或在收集时没有明确目的的。因而数据的质量往往不高。故数据处理着眼于两方面：(1)数据质量问题的检测与纠正，(2)使用可以容忍低质量数据的算法

2.2.1 测量和数据收集问题

测量误差：测量过程中的问题，如系统误差，随机误差等
噪声：测量误差的随机部分
伪像：数据的确定性失真，如：一组图像在相同的位置出现条纹
精度：（同一量的）重复测量值之间的接近程度
偏倚：测量值与被测量值之间的系统变差
准确度：测量值与实际值之间的接近程度，准确率的一个重要方面是有效数字
离群点：离群点与噪音不同，它往往是合法的值，并且可能是人们关注的重点，如：信用卡欺诈、网络进攻等
遗漏值：解决方法有 a.删除对象和属性 b.估计遗漏值 c. 在分析时忽略遗漏值
不一致的值
重复数据：去重复方法解决

2.2.2 关于应用的问题

时效性
相关性：常见问题有抽样偏倚2
关于数据的背景知识

2.3 数据预处理

数据预处理是为了改善数据挖掘的效果，减少分析时间，降低成本和提高质量。常用技术可以分为两类：(1)选择分析所需要的数据对象, (2)创建/改变属性

2.3.1 聚集

聚集(aggregation) 将两个或多个对象合并成单个对象。考虑如下数据集：一个记录一年中不同日期在不同地区的商店的日销售情况，可以用一个商店事务替换掉该商店的所有事务。

2.3.2 抽样

在数据挖掘中，抽样是因为处理所有数据的费用太高，借助抽样压缩样本量，优化数据挖掘算法的性能。有效抽样的原理：如果样本是有代表性的，则使用样本与使用整个数据集的效果几乎一样。常见抽样方法有简单随机抽样，包括有放回抽样、无放回抽样；分层抽样；渐进抽样3。

2.3.3 维归约

当数据集中包含大量特征（属性）时，维归约就愈加显现其好处。其主要的作用是，如果维度较低，许多数据挖掘算法的效果会更好，可以避免维灾难4；并且使得模型更易理解。维归约的常用方法是使用线性代数技术，将数据从多维空间投影到低维空间，主要技术有主成分分析(Principal Component Analysis, PCA) 和奇异值分解(Singual Value Decomposition, SVD)。

2.3.4 特征子集选择

通过选择属性集中的部分属性的方法，达到降低维度的目的。当存在冗余特征或不相关特征时，往往并不会损失太多信息，从而也是一种有效的降维方法。由集合论可知， n个属性有2^n−1个非空子集，故而穷举属性子集的方法是计算不可行的，实际中往往采用如下方法：

嵌入方法(embedded approach)：特征选择作为数据挖掘的一部分存在

过滤方法(filter approach)：使用某种独立于数据挖掘的方法，在数据挖掘算法运行之前进行特征选择

包装方法(wrapper approach)：将目标数据挖掘算法作为黑盒，使用类似穷举的方法，但通常并不枚举所有子集

特征子集选择由四部分组成：子集度量评估、控制新的特征子集产生的搜索策略、停止搜索判断和验证过程。过滤方法和包装方法不同在与子集评估度量。另外，除了上述三种特征子集选择的方法，还可以通过特征加权来保留或删除特征。

2.3.5 特征创建

常常可以用原有的属性创建新的属性集，更有效地捕获数据集中的重要信息。与之相关的方法有：

特征提取(feature extraction)：如由相片提取人脸的特征点
映射数据到新的空间：如将时间域的变量变换到频率域，参见傅里叶变换
特征构造：由原始属性提取出易于数据挖掘的属性，如根据密度分辨木头金块

2.3.6 离散化和二元化

某些数据挖掘算法只适用于分类属性，此时就需要用到离散化(discretization)或二元化(binarization)

2.3.7 变量变换

变量变换(variable transformation) 是指用于变量的所有值的变换，包括：简单函数变换，标准化(standardization) 或规范化(normalization)

第三章.探索数据

数据集
汇总统计

频率与众数百分位数位置度量：均值和中位数散步度量：极差和方法多元汇总统计汇总数据的其他方法

可视化

第4章　分类：基本概念、决策树与模型评估　89

1　预备知识　89

2　解决分类问题的一般方法　90

3　决策树归纳　92 3.1　决策树的工作原理　92 3.2　如何建立决策树　93 3.3　表示属性测试条件的方法　95 3.4　选择最佳划分的度量　96 3.5　决策树归纳算法　101 3.6　例子：Web 机器人检测　102 3.7　决策树归纳的特点　103

4　模型的过分拟合　106 4.1　噪声导致的过分拟合　107 4.2　缺乏代表性样本导致的过分拟合　109 4.3　过分拟合与多重比较过程　109 4.4　泛化误差估计　110 4.5　处理决策树归纳中的过分拟合　113

5　评估分类器的性能　114 5.1　保持方法　114 5.2　随机二次抽样　115 5.3　交叉验证　115 5.4　自助法　115

6　比较分类器的方法　116 6.1　估计准确度的置信区间　116 6.2　比较两个模型的性能　117 6.3　比较两种分类法的性能　118

第5章.分类：其他技术　127

1 基于规则的分类器　127

1.1　基于规则的分类器的工作原理　128
1.2　规则的排序方案　129
1.3　如何建立基于规则的分类器　130
1.4　规则提取的直接方法　130
1.5　规则提取的间接方法　135
1.6　基于规则的分类器的特征　136

2　最近邻分类器　137

2.1　算法　138
2.2　最近邻分类器的特征　138

3　贝叶斯分类器　139

3.1　贝叶斯定理　139
3.2　贝叶斯定理在分类中的应用　140
3.3　朴素贝叶斯分类器　141
3.4　贝叶斯误差率　145
3.5　贝叶斯信念网络　147

4　人工神经网络(ANN)　150

4.1　感知器　151
4.2　多层人工神经网络　153
4.3　人工神经网络的特点　155

5　支持向量机　156

5.1　最大边缘超平面　156
5.2　线性支持向量机：可分情况　157
5.3　线性支持向量机：不可分情况　162
5.4　非线性支持向量机　164
5.5　支持向量机的特征　168

6　组合方法　168

6.1　组合方法的基本原理　168
6.2　构建组合分类器的方法　169
6.3　偏倚—方差分解　171
6.4　装袋　173
6.5　提升　175
6.6　随机森林　178
6.7　组合方法的实验比较　179

7　不平衡类问题　180

7.1　可选度量　180
7.2　接受者操作特征曲线　182
7.3　代价敏感学习　184
7.4　基于抽样的方法　186

8　多类问题　187