数据挖掘导论笔记3

最新推荐文章于 2024-05-01 07:14:02 发布

ccyyawsl

最新推荐文章于 2024-05-01 07:14:02 发布

阅读量5k

点赞数 5

分类专栏：笔记文章标签：数据挖掘

本文链接：https://blog.csdn.net/ccyyawsl/article/details/107284430

版权

笔记专栏收录该内容

4 篇文章 2 订阅

订阅专栏

给定一个无序的、分类的值的集合，为了进一步刻画值的性质，除计算特定数据集中每个值出现的频率外没有多少的事情可做。给定一个在{1, … Vi, … Vk}.上取值的分类属性x和m个对象的集合，值vi的频率定义为:
在这里插入图片描述
分类属性的众数(mode) 是具有最高频率的值。
百分位数
对于有序数据，考虑值集的百分位数(percentile) 更有意义。具体地说，给定-一个有序的或连续的属性x和0与100之间的数p，第p个百分位数x是一个x值，使得x的p%的观测值小于xp。例如，第50个百分位数是值x50%，使得x的所有值的50%小于x50%。如第五百分位，它表示在所有测量数据中，测量值的累计频次达5%。以身高为例，身高分布的第五百分位表示有5%的人的身高小于此测量值，95%的身高大于此测量值。
步骤
第1步：以递增顺序排列原始数据（即从小到大排列）。
第2步：计算指数i=np%
第3步：
l）若 i 不是整数，将 i 向上取整。大于i的毗邻整数即为第p百分位数的位置。
2) 若i是整数，则第p百分位数是第i项与第(i+l)项数据的平均值。
另外一种方法，这种方法是SPSS所用方法，也是SAS所用方法之一。
第一步：将n个变量值从小到大排列，X(j)表示此数列中第j个数。
第二步：计算指数，设(n+1)P%=j+g，j为整数部分，g为小数部分(零点几)。
第三步：1)当g=0时：P百分位数=X(j);
2)当g≠0时：P百分位数=gX(j+1)+(1-g)X(j)=X(j)+g[X(j+1)-X(j)]。
均值和中位数不再赘述
截断均值
为了克服传统均值定义的问题，有时使用截断均值(trimmed mean)概念。指定0和100之间的百分位数p，丢弃高端和低端(p/2)%的数据，然后用常规的方法计算均值，所得的结果即是截断均值。中位数是p = 100%时的截断均值，而标准均值是对应于p = 0%的截断均值。
eg.
考虑值集{1、2、3、4、5、90}，其截断均值（p=40%）是
6×p/2=1.2，四舍五入为1，两端各去掉一个数，除去1和90，均值为3.5。
散布度量:极差和方差
最简单的散布度量是极差(range)。给定属性x,它具有m个值{x,-, xm}, x的极差定义为:range(x) = max(x)一min(x)= x(m) - x1)
尽管极差标识最大散布，但是如果大部分值都集中在一个较窄的范围内，并且更极端的值的个数相对较少，则可能会引起误解。因此，作为散布的度量，方差(variance) 更可取。通常，属性x的(观测)值的方差记作sx2，并在下面定义。标准差(standard deviation)是方差的平方根，记作sx，它与x具有相同的单位。

均值可能被离群值扭曲，并且由于方差用均值计算，因此它也对离群值敏感。确实，方差对离群值特别敏感，因为它使用均值与其他值的差的平方。这样常常需要使用比值集散布更稳健的估计。下面是三种这样的度量的定义:绝对平均偏差(absolute average deviation, AAD)、中位
数绝对偏差(median absolute deviation, MAD)和四分位数极差(interquartile range, IQR)。

多元汇总统计
包含多个属性的数据(多元数据)的位置度量可以通过分别计算每个属性的均值或中位数得到。这样，给定一个数据集，数据对象的均值由

给出，其中是第i个属性x;的均值。
协方差矩阵
对于多元数据，每个属性的散布可以独立于其他属性，使用3.2.4 节介绍的方法计算。然而，对于具有连续变量的数据，数据的散布更多地用协方差矩阵(covariance matrix) S表示，其中，s的第ij个元素sij是数据的第i个和第j个属性的协方差。这样，如果xi和xj分别是第i个和第j个属性，则

协方差矩阵具体例子
在纸上写写就懂了
多个维度下相关系数比协方差更优越

由协方差公式的量纲，得出的结果是包含单位的，这样体重是和年龄更有关（kg岁）还是和身高（kg*m）更有关就没办法比较了，但是由相关性公式的量纲，单位被舍去了，就可以比较哪个更有关了。
协方差与相关系数详解
相关性矩阵
在这里插入图片描述
反应第i和第j个属性的相关性。
可视化数据挖掘
安排

选择
可视化的另-一个关键概念是选择( selection)，即删除或不突出某些对象和属性。选择一对(或少数)属性的技术是一类维归约，并且有许多更复杂的维归约可以使用，如主成分分析(PCA)。
茎叶图
可以用来观测一维整型或连续数据的分布

在这里插入图片描述
直方图
茎叶图是一种类型的直方图(histogram)。该图通过将可能的值分散到箱中，并显示落入每个箱中的对象数,显示属性值的分布。对于分类属性，每个值在-一个箱中。如果值过多，则使用某种方法将值合并。对于连续属性，将值域划分成箱(通常是等宽的，但不必是等宽的),并对每个箱中的值计数。

直方图有一些变形。 相对频率直方图(relative frequency histogram) 用相对频率取代计数，
二维直方图
二维直方图(two dimensional histogram)也是一种类型的直方图。它将每个属性划分成区间，而两个区间集定义值的二维长方体。
在这里插入图片描述
盒状图
盒状图(box plot)是另一种显示一维数值属性值分布的方法。图3-10显示萼片长度的加标记的盒状图。盒的下端和上端分别指示第25和第75个百分位数，而盒中的线指示第50个百分位数的值,底部和顶部的尾线分别指示第10和第90个百分位数，离群值用“+”显示。
盒状图相对紧凑，因此可以将许多盒状图放在一个图中。还可以使用占据较少空间的盒状图的简化版本。
在这里插入图片描述
百分位数图和经验累计分布函数
一种更定量地显示数据分布的图是经验累计分布函数图。
一个累计分布函数(cumulative distribution function, CDF)显示点小于该值的概率。对于每个观测值，一个经验累计分布函数(empirical cumulative distribution function，ECDF) 显示小于该值的点的百分比。由于点的个数是有限的，经验累计分布函数是一个阶梯函数。
在这里插入图片描述

属性对的散布图安排在一种称作散布图矩阵(scatter plot matrix)的表格形式中，提供了一种有组织的方式，以同时考察许多散布图。
散布图有两个主要用途。其一，它们图形化地显示两个属性之间的关系。在2.4.5节，我们看到如何使用散布图判定线性相关程度(见图2-17)。直接使用散布图，或者使用变换后属性的散布图，也可以判定非线性关系。
其二，当类标号给出时，可以使用散布图考察两个属性将类分开的程度。如果可以画一条直线(或一条更复杂的曲线)将两个属性定义的平面分成区域,每个区域包含-一个类的大部分对象，则可能基于这对指定的属性构造精确的分类器;否则的话，就需要更多的属性或更复杂的方法建立分类器。在图3-16 中，许多属性对(例如，花瓣宽度和花瓣长度)都提供了适度的鸢尾花种类分隔。
在这里插入图片描述

矢量场图在某些数据中, 一个特性可能同时具有值和方向。例如，考患物质流或随位置改变的密度。在这些情况下,同时显示方向和量的图可能是有用的。这种类型的图称作矢量图( vector plot)。

低维切片
考虑时间空间数据集，它记录不同地点和时间上的某种量,如温度或气压。这样的数据有四个维，不容易用迄今所介绍的图来显示。然而，通过显示-组图，每月一个，可以显示数据的各个“切片”。通过考察特定区域的逐月改变，就可能注意到所出现的变化，包括可能因为季节原因而导致的变化。
在这里插入图片描述

星形坐标和Chernoff脸

在这里插入图片描述

ccyyawsl

关注

5
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
数据挖掘导论笔记3

给定一个无序的、分类的值的集合，为了进一步刻画值的性质，除计算特定数据集中每个值出现的频率外没有多少的事情可做。给定一个在{1, … Vi, … Vk}.上取值的分类属性x和m个对象的集合，值vi的频率定义为:分类属性的众数(mode) 是具有最高频率的值。百分位数对于有序数据，考虑值集的百分位数(percentile) 更有意义。具体地说，给定-一个有序的或连续的属性x和0与100之间的数p，第p个百分位数x是一个x值，使得x的p%的观测值小于xp。例如，第50个百分位数是值x50%，使得x的所有
复制链接

扫一扫