数据挖掘导论之数据

数据

  • 数据类型:描述数据需要不同的数据,数据的类型也决定了我们往往会采用何种工具和技术来分析数据。
  • 数据质量:数据质量数据分析结果的质量很关键,但数据往往存在噪声、离群点、不一致、重复、数据偏差或不能描述对象的情况。

2.1数据类型

2.1.1属性与度量

一般而言,对象的属性的决定了所采用的的数据类型。眼球颜色具有符号属性,温度具有数值属性,进而为了更加精准的描述对象属性引入了测量标度,可以说是与对象属性相关的关联规则。但有时测量标度本身的性质和对象属性的性质不一定完全一致,例如人工ID的数具有平均数的属性,带人工ID本身没有平均的性质。
属性即特征。
基于不同的性质,数据往往可以分为标称、序数、区间、比率的属性类型,前两者属于定性属性,后两者属于定量属性。其不同性质为:

  • 相异性,等于和不等于
  • 序,大于(等于),小于(等于)
  • 加法和减法,+、-
  • 乘法,*和/
    在这里插入图片描述
    注:比率变量指具有相等单位和绝对零点的变量,温度的倍数是没有意义的。
    根据属性可能的取值的数量也可以区分为离散和连续属性。
    当非零属性比较重要时为非对称属性
2.1.2数据集类型
  • 记录数据及变体:事务数据或购物篮数据、数据矩阵、系数数据矩阵
    在这里插入图片描述
  • 基于图形的数据:本身用图像表示,而且可以捕捉对象之间的联系。
    在这里插入图片描述
  • 有序数据:涉及时间和空间的联系。
类型描述
时序数据记录的数据包含一个相关联的时间
序列数据无时间性质但有序的数据列
时间序列一段时间以来测量的序列,通常需要考虑时间自相关
空间数据拥有空间属性的数据

在这里插入图片描述

  • 非记录数据

2.2数据质量

2.2.1测量和数据收集问题
  • 测量误差:实际值和测量值不同产生的误差

  • 数据收集误差:遗漏数据对象或属性值,或不恰当包含了其他对象的数据等。

  • 噪声:是测量误差的随机部分,通常用语包含时间或空间分量的数据,常常可以使用信号或图像处理技术降低噪声,从而发现可能淹没在噪声的模式。

  • 伪像:误差的确定性部分,比如一叠照片相同部分有裂缝。

  • 离群值:合法数据,但和大部分数据差异较大。

  • 遗漏值

  • 不一致值
    测量过程和结果数据的质量用精度和偏倚度量。对于以下的定义,假定对相同的基本量进行重复测量,并使用测量值集合的均值作为实际值的估计。

  • 精度:重复测量值的接近程度,常用标准差表示。

  • 偏倚:均值和真实值的差度量。

  • 准确率:被测量值与实际值之间的接近度,依赖于精度和偏倚。

2.3数据预处理

数据预处理得目的是为了让数据更加适合模型进而更好的挖掘。粗略的来说,数据预处理可以分为两类:选择数据的特征和创建特征。

2.3.1聚集

聚集指的是将两个或多个对象合并成单个对象。其目的:

  • 合并降低数据量进而可以采用开销更大的模型。
  • 通过高层而不是低层数据视图,起到了范围转换的作用
  • 对象的群体行为比个体更加稳定。
    缺点是丢失了更多的细节。
2.3.2抽样

同样在数据挖掘中的目的是为了压缩数据量以便可以使用更好但开销较大的数据挖掘算法。最好的抽样方法是可以以一个很高的概率得到有代表性的样本,这涉及样本容量和抽样技术。

  • 简单随机抽样 :往往不能充分代表不太频繁的出现的对象类型,分布发生变化。
  • 分层抽样:保证了数据的分布。
    注:机器学习中有自主法和留出法,这两个和上文的抽样分发不一样,是获得训练集和测试集的方法。留一法的是指产生两个不交叉的数据集,一个用来训练,一个用来评估,同时为了保持分布的一致建议用分层抽样。但即使这样,仍然不可代表原数据集,尤其是数据集较小的时候,这是因为分层的标准可以是很多,不一定就必须是标签,为此经常使用多次留出法进行评估,用均值来表示最终结果。自助法指的是数据有放回抽取来获得和原本数据量等大的数据集,其中未抽到的数据作为测试集,该方法在样本量不大时非常有用,因为留出法要拿出20-30%的数据,会因样本规模而产生偏差,但是自助法必然会改变数据的初始分布,来引入估计偏差。
    样本容量的增大可以提高样本表征总体的概率。参考
    在这里插入图片描述
    降维主要有维规约特征选择两种方法。一般来说数据的维度更低,其算法的效果会更好,这是因为维规约可以删除不相关的特征并降低噪声,并降低维灾难。维灾难指的是随着数据的维度增加,数据分析变的越来越困难,这是因为数据在高维空间越来越稀疏,对于分类模型来说,这意味着没有足够的数据来创建模型;对于聚类,点之间的密度和距离定义失去了意义。
2.3.3维规约

维规约一般采用现行技术将高维数据投影到低维空间,尤其是对于连续数据,主要有线性代数技术主成分分析和奇异值分解。

2.3.4特征子集的选择

从原本数据集选取子集记性建模,尽管看起来是会丢使许多细节信息,但是当数据存在冗余和不相关特征时非常有用的。

  • 过滤式:将特征选择和模型 训练分离,通常利用自变量和因变量的相关性解决,降低子集属性间的相关性,如Relief方法,详见西瓜书249页。
  • 包裹式:其实就是基某种搜索策略产生特征子集并代入模型,以模型效果对子集进行评价,通常需要设置停止策略:查找次数,效果阈值等。但有一点担忧,模型训练往往可能指针对于这一训练集,泛化能力有影响。
  • 嵌入式:将特征选择和模型训练融为一体,在模型训练的过程中进行模型选择。
  • 特征加权:特征越重要其权值越大,可以自动确定也可以用领域知识判定。数据因值域差异大所进行的规范化某种程度上可以看做是特征加权。
2.3.5特征创建

由原来的属性创建新的属性集,从而更有效的捕获数据集中的重要信息。一般而言主要有三种方法:特征提取、映射数据到新空间、特征构造。

  • 特征提取:在原始特征集上创建新的特征,例如一般人脸识别很难用传统分类去完成,当把人类特征提取相应的边缘和区域信息时,便可以使用更多分类算法。但是一般而言该技术是针对某个具体领域的,新领域使用往往有限。
  • 映射数据到新的空间:使用另一种视角挖掘数据。你如时间序列往往含有多种周期模式,并且含有噪声,一般比较难以检测。对其进行傅里叶变换成频率信息,则很容易检测。
    在这里插入图片描述
  • 特征构造:原始数据集含有的必要信息但不适合当前挖掘算法,为此由一个或者多个特征构造的新特征可能更有用。例如面积比长和宽对房价预测更有用。
2.3.6离散化和二元化

某些数据挖掘算法,特别是分类算法,要求数据是分类属性形式。发现关联模式的算法就要求数据是二元属性。为此常常需要将连续属性变为分类属性,即离散化。并且连续和离散属性可能都需要变化为一个或多个二元属性,即二元化。此外有时某个属性值有大量不同的值,或者值出现的频率有差异,则往往通过合并的手段来减少类别数目可能是有益的。

  • 二元化:将m个分类值,则将其唯一的转换为[0,m-1]中的整数,同时需要注意的是如果属性是有序的,则赋值必须保持序的关系,然后将每个都变为二进制数。 在这里插入图片描述
    但是该变化的缺陷在于无缘无故加入了转入后属性的关联性。此外关联分析需要非对称的二元属性,因此需要对每个分类值引入二元属性。
    在这里插入图片描述
  • 连续属性离散化:通常,离散化应用于分类和关联分析中的连续属性。通常需要考虑两个子任务:1.划分n-1个分割点;2.每个区间如何映射。总的来说,有监督离散化和非监督离散化两种。
    非监督离散化:没有用到对象的类别信息。等宽划分,即保证每个区间长度一样,但容易收到离群点的影响导致每个区间的样本数差异较大。等频划分,既保证每个区间的样本数相同。还有聚类方法,将相似的划分为一个区间。如果用不同组的不同对象被只拍到相同分类值的程度来度量离散化技术的性能,则K均值性能最好,其次是等频,最后是等宽。
    在这里插入图片描述
  • 监督离散化:即用到了对象的类型信息。一般来说监督离散化要好于非监督离散化,这是因为未使用类标号知识所构造的区间通常能够产生更好的结果。一种简单的方法是以极大化区间纯度的方式确定分割点,但需要确定区间的纯度和最小区间的大小。首先是对每个属性进行分割区间,然后通过合并相邻区间创建较大的区间。其中基于熵的方法较为常用:
    在这里插入图片描述
    在这里插入图片描述
    在二维中,点可以进行很好的分割,一般而离散化单个属性只能保证次优结果。
  • 具有过多值的分类属性:如果分类属性具有序属性,则可以使用处理连续属性的技术来减少分类值个数。如果分类属性,则可以采用经验知识进行合并,例如按学科、省份组合。
2.3.变量变换
  • 函数变化:即用函数表达式对属性值进行变化。在统计学中,变量的变化(特别是平方根、对数和倒数变化)常用来将数据变化为高斯分布。但对于数据挖掘来说,数据的分布可能不是首要原因。假设有一个特征的属性有很大的值域,则对数变化压缩大值是非常有益的。因为10和1000字节的差距在差距中要比108和109的差距更大。函数变化往往会改变数据的特性,例如导数压缩了大于1的值,却放大了小于1的值。为此在数据变换后通常需要考虑:变换作用于所有值吗,0和1呢?变换对0和1之间的值有什么影响。注:sklearn有专门的非线性变化分位数变化和幂变化,前者主要用来分散高频值,降低边际异常值影响;而幂变化是将任意分布映射到接近高斯分布的位置
  • 归一化和标准化:网站对这块的术语分歧较大。根据sklearn中preprocessing章节进行理解,Standardization是对特征标准化的统称,指的是特征均值移动均值和缩小方差,有z-score(0均值1方差变化)和将特征缩放为指定区间两者类型,其中z-score就是去均值除以标准差(注:不改变分布,数据0均值单位差并不指的是高斯分布),特征缩放为 MinMaxScalerMaxAbsScaler,后者主要是针对稀疏数据。有时离群点对特征正态分布化的变换影响较大,引起会影响均值和标准差。sklearn提供了专门的函数和类进行稳健性的正态分布化(利用中位数和四分位数据),当然也可以采用中位数和绝对标准差代替。Normalization是单个样本缩放到具有单位范数的过程,该过程在量化任何一对样本的相似性是是有用的,如文本分类和聚类。这里不太理解为何对但以样本进行Normalization,留待日后解决。
    除了Standardization为首的线性变化还有非线性变化,即上述的函数变化。
    具体详见:参考
2.4.相似性和相异性的度量

相似性和相异性的度量经常用在聚类、最近邻分类、异常检测等方面,术语统称为邻近度。其中欧几里得距离适合稠密数据和二维点;Jaccard和余弦相似性度量适合文档这样的稀疏数据。

一般来说邻近度在[0,1]之间或者变化为[0,1]之间,对于有限值域的邻近度通常采用min-max变化,但是对于0到无穷的变化往往会采用非线性变化,如d/(1+d),但这种变化往往使得值之间不再具备原先的联系,例如:0,0.5,2,10,100,1000通过上述变化为0,0.33,0.67,0.99,0.999,这使得原本相异性尺度较大的值被压缩到1附近,是否进行变化取决于具体的场景。相关性具有正负,绝对值是可以映射到[0,1]之间但会丢失符号信息。

通常若干属性对象间的邻近度用单个属性的邻近度组合来定义。

2.4.1简单属性之间的相似和相异度

在这里插入图片描述
单属性根据其属性类型,按照上述原则进行。

2.4.2对象之间的相异度
  • 距离:距离是具有特定性质的相异度。简单说来,各种“距离”的应用场景简单概括为,空间:欧氏距离,路径:曼哈顿距离,国际象棋国王:切比雪夫距离,以上三种的统一形式:闵可夫斯基距离,加权:标准化欧氏距离,排除量纲和依存:马氏距离,向量差距:夹角余弦,编码差别:汉明距离,集合近似度:杰卡德类似系数与距离,相关:相关系数与相关距离。
    其中欧氏距离,曼哈顿距离、切比雪夫距离(上确界距离)参考
    度量通常满足如下定义:
    在这里插入图片描述
    欧氏距离,曼哈顿距离、切比雪夫距离(上确界距离)均满足以上三条性质。但也有许多度量不满足以上一条某几条性质:
    在这里插入图片描述
2.4.3对象之间的相似度

在这里插入图片描述

2.4.4其余具体实例
  • 针对二元数据的相似性度量
    1.简单匹配系数:对1和0的重视程度一样。
    在这里插入图片描述
    2.Jaccard:也叫杰卡德相似系数,对于非对称二元属性来说,简单匹配系数就不适合,比如在购出车数据中,两个人买的是少数,大多是都没有购买,如果按照简单匹配系数所有人基本都一致。首先从集合角度引入该系数:
    (1) 杰卡德相似系数
    两个集合A和B的交集元素在A,B的并集中所占的比例,称为两个集合的杰卡德相似系数,用符号J(A,B)表示。 
     在这里插入图片描述
    杰卡德相似系数是衡量两个集合的相似度一种指标。
    (2) 杰卡德距离
    与杰卡德相似系数相反的概念是杰卡德距离(Jaccard distance)。
    杰卡德距离可用如下公式表示:  
    在这里插入图片描述
    杰卡德距离用两个集合中不同元素占所有元素的比例来衡量两个集合的区分度。
    非集合二元属性应用中
    在这里插入图片描述
    与此对应的还有Jaccard距离:
    (f01+f10)/(f01+f10+f11)

  • 余弦相似度:处理非二元属性且非对称的数据,例如两篇文章的从向量,有成百上千的属性,但非零项才是重点。若相似性考虑了都为0的选型,则大部分文档数相似的。
    在这里插入图片描述
    在这里插入图片描述
    可以看出余弦距离不考虑量值,更在意方向性。

  • 广义Jaccard系数:可以用于文档数据,因为也是关注非0项(向量点积),在二元属性下归于Jaccard系数,广义广义Jaccard系数也称之为Tanimoto系数,用EJ表示:在这里插入图片描述

  • 相关系数参考

  • Bregman散度:本质是损失函数,度量真实和近似点之间的失真程度,为此也可以用作度量相异性。
    在这里插入图片描述
    在这里插入图片描述

  • 马氏距离:主要解决属性相关。具有不同值域(不同方差),并且数据近似于高斯分布式,这时可采用欧几里得距离的拓广和马氏距离,起者指的是对数据进行Z-Score后求欧几里得距离。
    在这里插入图片描述
    又可以看出其计算开销挺大,而且对于属性相关的数据来说是值得的,如果不相关采用欧几里得距离的拓广就足够了。

  • 组合异种属性的相似度
    在这里插入图片描述

  • 使用权值:当属性的重要不相同时使用
    在这里插入图片描述

2.4.4选取正确的度量

在这里插入图片描述
注:图片中时间序列中的两个对象若是一个同类不同个体时。量值是重要的。若是不同类对象时,量值反而不重要了,关系才重要。

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值