数据挖掘导论笔记2

最新推荐文章于 2024-02-22 12:48:50 发布

ccyyawsl

最新推荐文章于 2024-02-22 12:48:50 发布

阅读量1k

点赞数

分类专栏：笔记文章标签：数据分析

本文链接：https://blog.csdn.net/ccyyawsl/article/details/107208404

版权

笔记专栏收录该内容

4 篇文章 2 订阅

订阅专栏

第二章

标题

在这里插入图片描述

数据质量

数据质量不一定好，
比如测量值与实际值的差称为误差(error)。
数据收集错误(data collection error)是指诸如遗漏数据对象或属性值,
噪声是测量误差的随机部分。这可能涉及值被扭曲或加入了谬误对象。图2-5显示被随机噪声干扰前后的时间序列。如果在时间序列上添加更多的噪声,形状将会消失。图2-6显示了三组添加一些噪声点(用“+”表示)前后的数据点集。注意，有些噪声点与非噪声点混在一起。
在这里插入图片描述
完全消除噪声通常是困难的，许多数据挖掘工作关注设计鲁棒算法(robust algorithm),即在噪声干
扰下也能产生可以接受的结果。
相对的，数据的非随机错误称之为伪像。
噪声和伪像类似于物理的随机误差和系统误差（个人理解）。
精度(precision) ( 同一个量的)重复测量值之间的接近程度。
偏倚(bias)测量值 与被测量之间的系统的变差。
精度通常用值集合的标准差度量,而偏倚用值集合的均值与测出的已知值之间的差度量。
标准差是方差的平方
在这里插入图片描述
通常使用更一般的术语准确率表示数据测量误差的程度。
定义2.5准确率(accuracy) 被测量的测量值与实际值之间的接近度。
离群点(outlier) 是在某种意义上具有不同于数据集中其他大部分数据对象的特征的数据对象，或是相对于该属性的典型值来说不寻常的属性值。我们也称其为异常(anomalous) 对象或异常值。
区别噪声和离群点这两个概念是非常重要的。离群点可以是合法的数据对象或值。因此，不像噪声，离群点本身有时是人们感兴趣的对象。例如，欺诈和网络攻击检测中，目标就是从大量正常
对象或事件中发现不正常的对象和事件。
遗漏值
一个对象遗漏一个或多个属性值的情况并不少见。有时可能会出现信息收集不全的情况，例如有的人拒绝透露年龄或体重。还有些情况下，某些属性并不能用于所有对象，例如表格常常有条件选择部分。

有时可以删除遗漏值的对象，简单粗暴。
估计遗漏值
有时，遗漏值可以可靠地估计。例如，在考虑以大致平滑的方式变化的、具有少量但分散的遗漏值的时间序列时，遗漏值可以使用其他值来估计(插值)
ps.插值法，是根据未知函数f(x)在某区间内若干点的函数值，作出在该若干点的函数值与f(x)值相等的特定函数来近似原函数f(x)。
另举一例，考虑一个具有许多相似数据点的数据集，与具有遗漏值的点邻近的点的属性值常常可以用来估计遗漏的值。如果属性是连续的，则可以使用最近邻的平均属性值，如果属性是分类的，则可以取最近邻中最常出现的属性值。
此外不一致的值和重复数据也需要处理

数据预处理

在这里插入图片描述
聚集(aggregation) 将两个或多个对象合并成单个对象。考虑一个由事务(数据对象)组成的数据集，它记录一年中不同日期在各地(明尼阿波利斯、
问题在于如何创建聚集事物，如何合并每个属性的值。这样可以节省空间，改变标度（比如货物和日变成了商店和月），而且对象或属性群的行为通常比单个对象或属性的行为更加稳定。

有效抽样的主要原理如下:如果样本是有代表性的，则使用样本与使用整个数据集的效果几乎一样。而样本是有代表性的，前提是它近似地具有与原数据集相同的(感兴趣的)性质。如果数据对象的均值(平均值)是感兴趣的性质，而样本具有近似于原数据集的均值，则样本就是有代表性的。由于抽样是一一个统计过程，特定样本的代表性是变化的。
简单随机抽样（有放回无放回）和分层抽样。
2.渐进抽样
合适的样本容量可能很难确定，因此有时需要使用自适应(adaptive) 或渐进抽样(progre-
ssive sampling) 方法。这些方法从一个小样本开始，然后增加样本容量直至得到足够容量的样本。
尽管这种技术不需要在开始就确定正确的样本容量,但是需要评估样本的方法,确定它是否足够大。

维归约

删除不相关信息来减少维度，降低噪声，方便分析，提高性能。
主成分分析
奇异值分解
降低维度的另一种方法是仅使用特征的一个子集，即特征子集。对于冗余特征和不相关特征，这个不会损失信息。
冗余特征重复了包含在一个或多个其他属性中的许多或所有信息。例如，一种产品的购买价格和所支付的销售税额包含许多相同的信息。不相关特征包含对于手头的数据挖掘任务几乎完全没用的信息，例如学生的ID号码对于预测学生的总平均成绩是不相关的。冗余和不相关的特征可能降低分类的准确率，影响所发现的聚类的质量。
在这里插入图片描述
2.映射数据到新的空间
使用一种完全不同的视角挖掘数据可能揭示出重要和有趣的特征。例如,考虑时间序列数据，它们常常包含周期模式。如果只有单个周期模式，并且噪声不多，则容易检测到该模式;另一方面，如果有大量周期模式，并且存在大量噪声,则很难检测这些模式。尽管如此，通过对该时间序列实施傅里叶变换(Fourier transform)，将它转换成频率信息明显的表示，就能检测到这些模式。
在这里插入图片描述
显然，这样清晰很多。
3.特征构造
有时，原始数据集的特征具有必要的信息，但其形式不适合数据挖掘算法。在这种情况下，一个或多个由原特征构造的新特征可能比原特征更有用。
简单的例子就是密度比质量和体积更好表现特征。
2.3.6离散化和二元化
有些数据挖掘算法，特别是某些分类算法，要求数据是分类属性形式。发现关联模式的算法要求数据是二元属性形式。这样，常常需要将连续属性变换成分类属性(离散化, discretization),并且连续和离散属性可能都需要变换成一个或多个二元属性(二元化，binarization)。
注意！！！
离散化针对连续数据，比如年龄
二元化针对类别数据，比如颜色、性别
离散化后的数据相当于是类别数据（每个区间1个类别），可再进行二元化

二元化：
一种分类属性二元化的简单技术如下:如果有m个分类值，则将每个原始值唯一地赋予区间[0, m-1]中的一个整数。如果属性是有序的，则赋值必须保持序关系。(注意，即使属性原来就用整数表示，但如果这些整数不在区间[0, m -1]中，则该过程也是必需的。)然后，将这m个整数的每一个都变换成一个二进制数。由于需要n= log2m个二进位表示这些整数，因此要使用n个二元属性表示这些二进制数。例如
在这里插入图片描述
此外，关联分析(一种专门的技术)需要非对称的二元属性，其中只有属性的出现(值为1)才是重要的。因此，对于关联问题，需要为每一个分类值引入一个二元属性，如下

1的位置和这个属性一一对应。只靠1反应信息。
连续属性离散化
通常，离散化应用于在分类或关联分析中使用到的属性上。-般来说，离散化的效果取决于所使用的算法，以及用到的其他属性。然而，属性离散化通常单独考虑。连续属性变换成分类属性涉及两个子任务:决定需要多少个分类值，以及确定如何将连续属性值映射到这些分类值。在第一步中, 将连续属性值排序后,通过指定n-1个分割点(split point)把它们分成n个区间。在颇为平凡的第二步中，将一个区间中的所有值映射到相同的分类值。因此，离散化问题就是决定选择多少个分割点和确定分割点位置的问题。（简单说来就是用不同方法分块）
非监督离散化
用于分类的离散化方法之间的根本区别在于使用类信息(监督，supervised)还是不使用类信息(非监督，unsupervised)。如果不使用类信息，则常使用一些相对简单的方法。
例如，等宽(equal width)方法将属性的值域划分成具有相同宽度的区间，而区间的个数由用户指定。这种方法可能受离群点的影响而性能不佳,因此等频率( equal frequncy )或等深( equal depth)方法通常更为可取。等频率方法试图将相同数量的对象放进每个区间。作为非监督离散化的另一个例子，可以使用诸如K均值(见第8章)等聚类方法。最后，目测检查数据有时也可能是一
种有效的方法。（不太重要）
在这里插入图片描述
如上图，依据不同的标准分成了不同的区间。
监督离散化
上面介绍的离散化方法通常比不离散化好,但是记住最终目的并使用附加的信
息(类标号)常常能够产生更好的结果。这并不奇怪，因为未使用类标号知识所构造的区间常常包含混合的类标号。一种概念上的简单方法是以极大化区间纯度的方式确定分割点。（简单说来，就是尽可能不要混入不同类数据）。
首先，需要定义熵(entropy)。设k是不同的类标号数，mi是某划分的第i个区间中值的个数，而mij是区间i中类j的值的个数。第i个区间的熵e。
在这里插入图片描述
负号是因为log是负的，加个负号为正。

该划分的总熵e是每个区间的熵的加权平均，
在这里插入图片描述

这个就很好理解了，对每个区间各个小类占区间类的程度（ei）进行加权平均的过程。ei越小，区间内种类越少，越不混乱。（就像物理的熵，其实是一个东西。）
一种划分连续属性的简单方法是:开始，将初始值切分成两部分，让两个结果区间产生最小熵。该技术只需要把每个值看作可能的分割点即可，因为假定区间包含有序值的集合。然后，取一个区间，通常选取具有最大熵的区间（最混乱）,重复此分割过程,直到区间的个数达到用户指定的个数,或者满足终止条件。
2.3.7变量变换
变量变换( variable transformation)是指用于变量的所有值的变换。(尽管我们也偶尔用属性变换这个术语，但是遵循习惯用法，我们使用变量指代属性。)换言之，对于每个对象，变换都作用于该对象的变量值（属性）。例如，如果只考虑变量的量级，则可以通过取绝对值对变量进行变换。接下来的部分，我们讨论两种重要的变量变换类型:简单函数变换和规范化。
简单变换
是使用一个简单数学函数分别作用于每一个值，例如log转换，求绝对值，求倒数等。统计学中，变量变换（例如log转换）常用于将不具有高斯（正态）分布的数据变换成具有高斯（正态）分布的数据。在数据挖掘领域可以用来进行数据压缩。这类变换需要我们了解数据在变化前后的后果，例如负数取倒数之后的大小关系会逆转。
标准化
标准化或规范化的目标是使整个值的集合具有特定的性质。一个传统的例子
是统计学中的“对变量标准化”。如果x是属性值的均值(平均值),而sx是它们的标准差，则变换 x'=(x-x )sx 创建一一个新的变量，它具有均值0和标准差1。如果要以某种方法组合不同的变
均值和标准差受离群点的影响很大,因此通常需要修改上述变换。首先，用中位数(median)(即中间值)取代均值。其次，用绝对标准差(absolute standard deviation)取代标准差。例如,如果x是变量，则x的绝对标准差为σ=2|x-μ,其中x是变量x的第i个值，m是对象的个数，而μ是均值或中位数。

相似性和相异性的度量

在许多情况下，一旦计算出相似性或相异性，就不再需要原始数据了。这种方法可以看作将数据变换到相似性(相异性)空间，然后进行分析。
1.定义
两个对象之间的相似度(similarity)的非正式定义是这两个对象相似程度的数值度量。因而，两个对象越相似，它们的相似度就越高。通常，相似度是非负的，并常常在0 (不相似)和1 (完全相似)之间取值。
两个对象之间的相异度(dissimilarity) 是这两个对象差异程度的数值度量。对象越类似，它们的相异度就越低。通常，术语距离(distance) 用作相异度的同义词，正如我们将介绍的，距离常常用来表示特定类型的相异度。有时，相异度在区间[0, 1]中取值，但是相异度在0和∞之间取值也很常见。
2.变换
通常使用变换把相似度转换成相异度或相反，或者把邻近度变换到一一个特定区间，如[0, 1]。
例如，我们可能有相似度，其值域从1到10，但是我们打算使用的特定算法或软件包只能处理相异度,或只能处理[0, 1]区间的相似度。这些问题相对独立于特定的邻近度度量。
在这里插入图片描述
（简单说来就是映射的函数不一定可以很好地体现信息，需要揣摩。）

对于具有单个序数属性的对象，情况更为复杂,因为必须考虑序信息。考虑-一个在标度{poor,fair, OK, good, wonderful}. 上测量产品(例如，糖块)质量的属性。一个评定为wonderful 的产品P1与一个评定为good的产品P2应当比它与-一个评定为OK的产品P3更接近。为了量化这种观察，序数属性的值常常映射到从0或1开始的相继整数，例如，{poor=0,fair=1,OK=2,good=3, wonderful=4}。于是，P1 与P2之间的相异度d(P1, P2)=3-2=1,或者，如果我们希望相异度在0和1之间取值，d(P1,P2)=(3- 2)/4 = 0.25;序数属性的相似度可以定义为s=1-d。
对于区间或比率属性，两个对象之间的相异性的自然度量是它们的值之差的绝对值。例如，我们可能将现在的体重与一年前的体重相比较，说“我重了10磅。”在这类情况下，相异度通常在0和∞之间，而不是在0和1之间取值。如前所述，区间或比率属性的相似度通常转换成相异度。
在这里插入图片描述
2.4.3数据对象之间的相异度
本节，我们讨论各种不同类型的相异度。

显而易见，没什么可说的。
闵可夫斯基距离

距离(如欧几里得距离)具有一些众所周知的性质。如果d(x, y)是两个点x和y之间的距离，则如下性质成立。
(1)非负性。(a) 对于所有x和y，d(x,y)≥0， (b) 仅当x=y时d(x,y)=0。
(2)对称性。对于所有x和y, d(x, y)= d(y,x)。
(3)三角不等式。对于所有x，y和z，d(x,z) ≤d(x,y) + d(y, z)。
满足以上三个性质的测度称为度量(metric)。有些人只对满足这三个性质的相异性度量使用术语距离，但在实践中常常违反这一约定。这里介绍的三个性质是有用的，数学上也是令人满意的。此外，如果三角不等式成立，则该性质可以用来提高依赖于距离的技术(包括聚类)的效率。
在这里插入图片描述
2.4.4 数据对象之间的相似度
对于相似度，三角不等式(或类似的性质)通常不成立，但是对称性和非负性通常成立。更明确地说，如果s(x, y)是数据点x和y之间的相似度，则相似度具有如下典型性质。
(1) 仅当x=y时s(x,y)=1. (0≤s≤1)
(2)对于所有x和y，s(x,y)=s(y, x)。 (对称性)
对于相似度，没有与三角不等式对应的一般性质。然而，有时可以将相似度简单地变换成一种度量距离。稍后讨论的余弦相似性度量和Jaccard相似性度量就是两个例子。此外，对于特定的相似性度量，还可能在两个对象相似性上导出本质上与三角不等式类似的数学约束。
例2.16非对称相似性度量
考虑一个实验，实验中要求人们对屏幕上快速闪过的一一小组字符进行分类。该实验的混淆矩阵(confusion matrix)记录每个字符被分类为自己的次数和被分类为另一个字符的次数。例如，假定“0”出现了200次，它被分类为“0”160次，而被分类为“o”40次。类似地，“o” 出现200次并且分类为“o”170 次，但是分类为“0” 只有30次。如果取这些计数作为两个字符之间相似性的度量,则得到一种相似性度量，但这种相似性度量不是对称的。在这种情况下，通过选取s(x, y)=s’ (y, x) = (s(x, y) + s(y, x))/2，相似性度量可以转换成对称的，其中s’是新的相似性度量。
二元数据的相似性度量
两个仅包含二元属性的对象之间的相似性度量也称为相似系数( similarity coefficient),并且通常在0和1之间取值，值为1表明两个对象完全相似，而值为0表明对象一点也不相似。有许多理由表明在特定情形下，一种系数为何比另一种好。设x和y是两个对象，都由n个二元属性组成。这样的两个对象(即两个二元向量)的比较可生成如下四个量(频率):
在这里插入图片描述
简单匹配系数(Simple Matching Coefficient, SMC)一种常用的相似性系数是简单匹配系数，定义如下:

该度量对出现和不出现都进行计数。因此，SMC可以在一个仅包含是非题的测验中用来发现回答问题相似的学生。（够狠）
Jaccard系数(Jaccard Coefficient)
假定 x和y是两个数据对象，代表一个事务矩阵(见2.1.2节)的两行(两个事务)。如果每个非对称的二元属性对应于商店的-种商品，则1表示该商品被购买，而0表示该商品未被购买。由于未被顾客购买的商品数远大于被其购买的商品数,因而像SMC这样的相似性度量将会判定所有的事务都是类似的。这样，常常使用Jaccard系数来处理仅包含非对称的二元属性的对象。Jaccard 系数通常用符号J表示，由如下等式定义:
在这里插入图片描述
eg.

2.余弦相似度
通常，文档用向量表示，向量的每个属性代表一个特定的词(术语)在文档中出现的频率。
当然，实际情况要复杂得多，因为需要忽略常用词，并使用各种技术处理同-一个词的不同形式、不同的文档长度以及不同的词频。尽管文档具有数以百千计或数以万计的属性(词)，但是每个文档向量都是稀疏的，因为它具有相对较少的非零属性值。(文档规范化并不对零词目创建非零词目，即文档规范化保持稀疏性)这样，与事务数据一样，相似性不能依赖共享0的个数，因为任意两个文档多半都不会包含许多相同的词，从而如果统计0-0匹配，则大多数文档都与其他大部分文档非常类似。因此，文档的相似性度量不仅应当像Jaccard度量一样需要忽略0-0匹配，而且还必须能够处理非二元向量。
下面定义的余弦相似度(cosine similarity)就是文档相似性最常用的度量之一”。如果x和y是两个文档向量，则
在这里插入图片描述

x和y被它们的长度除，将它们规范化成具有长度1。这意味在计算相似度时，余弦相似度不考虑两个数据对象的量值。( 当量值是重要的时，欧几里得距
离可能是一种更好的选择。)对于长度为1的向量，余弦度量可以通过简单地取点积计算。从而，在需要计算大量对象之间的余弦相似度时,将对象规范化,使之具有单位长度可以减少计算时间。
3.广义Jaccard系数
广义Jaccard系数可以用于文档数据,并在二元属性情况下归约为Jaccard系数。广义Jaccard系数又称Tanimoto系数。(然而，还有一种系数也Tanimoto系数。)该系数用EJ表示，由下式定义:
在这里插入图片描述

4.相关性
两个具有二元变量或连续变量的数据对象之间的相关性是对象属性之间线性联系的度量。
(更一般属性之间的相关性计算可以类似地定义。)更准确地，两个数据对象x和y之间的皮尔森相关( Pearson’s correlation)系数由下式定义:
在这里插入图片描述
2-11 分别是协方差和标准差方差是协方差的特例，就是两个变量是相同的。

如果通过减去均值，然后规范化使其长度为1来变换x和y,则它们的相关度可以通过求点
积来计算.注意，这与其他情况下使用的标准化不同，在其他情况下,我们使用变换在这里插入图片描述

TF-IDF详解

 LSH算法详解

ccyyawsl

关注

0
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
数据挖掘导论笔记2

第二章标题数据质量数据质量不一定好，比如测量值与实际值的差称为误差(error)。数据收集错误(data collection error)是指诸如遗漏数据对象或属性值,噪声是测量误差的随机部分。这可能涉及值被扭曲或加入了谬误对象。图2-5显示被随机噪声干扰前后的时间序列。如果在时间序列上添加更多的噪声,形状将会消失。图2-6显示了三组添加一些噪声点(用“+”表示)前后的数据点集。注意，有些噪声点与非噪声点混在一起。完全消除噪声通常是困难的，许多数据挖掘工作关注设计鲁棒算法(robust
复制链接

扫一扫