数据挖掘导论 - 第二章:数据 - 笔记

最新推荐文章于 2024-01-08 01:28:01 发布

_Shawn_Shawn_

最新推荐文章于 2024-01-08 01:28:01 发布

阅读量1.2k

点赞数

分类专栏：数据挖掘

本文链接：https://blog.csdn.net/ChanceYing/article/details/100748858

版权

数据挖掘专栏收录该内容

4 篇文章 1 订阅

订阅专栏

数据类型

描述数据属性

相异性 = !=
序 < <= > >=
加法 + -
乘法 * /

属性类型

标称：分类的 = !=
不同的名字，用以区分对象
【例】邮编、性别、ID、眼球颜色
序数：分类的 < >
用以确定对象的序
【例】成绩、街道号码、矿石硬度(好、较好、最好)
区间：数值的 + -
有意义的是数值间的差
【例】日历日期、摄氏度(0°C不是最低温，摄氏度是与0°C的差值)
比率：比率的 * /
有意义的事差和比率
【例】绝对温度、货币量、计数、年龄、质量、长度、电流

定义属性层次的变换

非对称的属性

关注非零值
【例】一个关于学生选课的表，学生只修选修课中的小部分，因此大部分为零值，此时含有大量零值，每条信息都差不多，除非关注非零值。

数据质量

鲁棒算法

再噪声干扰下也能产生可以接受的结果

数据预处理

聚集

定义

删除属性的过程，压缩特定属性不同值个数的过程

动机

数据归约减少内存使用和处理时间
通过高层数据视图，聚集起到范围或标度转换的作用

抽样

动机

压缩数据，使用更好但开销较大的数据挖掘算法

方法

简单随机抽样

选取任何特定项的概率相等

无放回抽样
每个选中项立即从够成总体的所有对象集中删除
有放回抽样
对象被选中时不从总体中删除，相同对象可被多次抽取
分层抽样
适用于为稀有类构建分类模型。将对象分组，从每个分组中抽取一定数量

信息损失

大容量增大了样本具有代表性的概率，但抵消了抽样带来的好处。
小容量可能丢失了模式或检测出错误模式。

渐进抽样

实时判断样本容量是否足够，并选择是否继续增加容量。

维归约

当数据集包含大量特征的时候，删除不相关的特征并降低噪声。
使只能涉及少量属性的模型能理解大量特征的数据集
使数据更易可视化
降低了数据挖掘的始建于内存

维归约的线性代数技术

将数据由高维投影到低维空间，特别是连续数据

主成分分析
用于连续属性。找出新的属性（主成分），这些属性使原属性的线性组合，之间相互正交，且捕获数据的变差
奇异值分解

特征子集选择

数据集中或多或少会存在冗余特征（重复了包含在一个或多个其他属性中的许多或所有信息）和不相关特征（包含了对手头的数据挖掘任务几乎完全没用的信息）

嵌入方法
将特征选择作为数据挖掘算法的一部分
过滤方法
使用独立于数据挖掘任务的方法，在数据挖掘算法运行前进行特征选择
包装方法
将目标数据挖掘算法作为黑盒，使用类似于前面介绍的理想算法，但通常并不美剧所有可能的子集来找出最佳的属性子集

特征子集选择体系结构

特征子集选择过程流程图
停止搜索判断常常基于以下一个或多个条件：迭代次数、自己评估的度量值是否最有或超过给定的阈值，是否得到某个特定大小的子集、大小和评估标准是否同时达到、搜索策略得到的选择能否改进

特征加权

根据特征的重要性加权，在向量机中有所应用

特征创建

由原属性集创造数量更少更准确的新属性集

特征提取

由原始数据创建新的特征集

映射数据到新的空间

改变数据挖掘的视角，得到更多重要的特征

傅里叶变换

一种用于信号在时域（或空域）和频域之间的线性积分变换。
分析数据集，找出其模式

小波变换

用有限长或快速衰减的“母小波”的振荡波形来表示信号。用该波形被缩放和平移以匹配输入的信号。

特征构造

当原数据集的特征不适合数据挖掘算法时，使用一个或多个特征构造新特征以适应算法

离散化和二元化

将连续属性离散化或二元化以适应某些求关联性的算法

二元化
连续属性离散化
根据需要的分类值，设置分割点，将问题转化为选择多少分割点以及确定分割点的位置
非监督离散化当离群点过多时，按等宽的切割方式会降低性能。此时等频率、等深的方法将相同数量的对象放入每个区间更为可取。
监督离散化
熵：接收的每条消息中包含的信息的平均量
书中给出一种简单的基于熵的方法
设k时不同的类标号数，mi时某划分的地i个区间中值的个数，而mij是区间i中类j的值的个数。第i个区间的熵ei由如下等式给出

其中，pij = mij/mi 时第i个区间中类j的概率（值的比例）。该划分的总熵e时每个区间的熵的加权平均，即

其中，m时值的个数，wi = mi/m 时第i个区间的值的比例，而n时区间个数。直观上，区间的熵时区间纯度的度量。如果一个区间值包含一个类的值（该区间非常纯），则其熵为0并且不影响总熵。如果一个区间中的值类出现的频率相等（该区间尽可能不纯），则其熵最大。
具有过多值的分类属性
当分类属性有过多值时，减少分类的个数，序数离散处理，标称合并处理

变量变换

变量代指属性。用于变量的所有值的变换。

简单函数

通常将不具有高斯（正态）分布的数据变换成具有搞事（正态）分布的数据。
关注于改变换的效果

规范化或标准化

目的：使整个值的几何具有特定的性质

_Shawn_Shawn_

关注

0
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
数据挖掘导论 - 第二章:数据 - 笔记

文章目录数据类型描述数据属性属性类型定义属性层次的变换非对称的属性数据质量鲁棒算法数据预处理数据类型描述数据属性相异性 = !=序 < <= > >=加法 + -乘法 * /属性类型标称：分类的 = !=不同的名字，用以区分对象【例】邮编、性别、ID、眼球颜色序数：分类的 < >用以确定对象的序【例】成绩、...
复制链接

扫一扫