第三节、探索数据

下一节:分类:https://blog.csdn.net/Carl_changxin/article/details/88597464

1、简述

本节包括三个主题:汇总统计、可视化和联机分析处理(OLAP)

本节需要用到的数据集:鸢尾花数据集

  • 鸢尾花数据集包含150种鸢尾花的信息
  • 每50种取自三个鸢尾花品种之一:Setosa、Versicolour和Virginca
  • 每个花的特征用下面5种属性描述:
  1. 萼片长度(厘米)
  2. 萼片宽度(厘米)
  3. 花瓣长度(厘米)
  4. 花盘宽度(厘米)
  5. 类(Setosa、Versicolour和Virginca)

2、汇总统计

汇总统计是量化的(如均值或标准差),用单个数或数的小集合捕获可能很大的值集的各种特征。

2.1、频率和众数

  • 给定一个在{v1,...,vi,...,vk}上取值的分类属性x和m个对象的集合,值vi的频率的计算公式:

  • 分类属性的众数是具有最高频率的值。
  • 对于鸢尾花数据集和类属性,三种类型的花具有相同的频率,因此众数在该案例中无价值

2.2、百分位数

  • 对于有序数据,考虑值集的百分位数更有意义
  • 第p百分位数是这样一个值,它使得至少有p%的数据项小于或等于这个值,且至少有(100-p)%的数据项大于或等于这个值。高等院校的入学考试成绩经常以百分位数的形式报告。比如,假设某个考生在入学考试中的语文部分的原始分数为54分。相对于参加同一考试的其他学生来说,他的成绩如何并不容易知道。但是如果原始分数54分恰好对应的是第70百分位数,我们就能知道大约70%的学生的考分比他低,而约30%的学生考分比他高。

2.3、位置度量:均值和中位数

  • 对于连续数据,均值和中位数使用得最为广泛
  • 传统均值的两个问题,均值只有在值以对称方式分布时才可以解释为集值的中间;均值对离群值很敏感;
  • 截断均值就是为了克服传统均值而定义的。指定百分位数p,丢弃高端和低端(p/2)%的数据,然后用常规方法计算均值,所得结果为截断均值。中位数是p=100%的截断均值,而标准均值是p=0%的截断均值。

2.4、散布度量:极差和方差

  • 散布度量表明属性值是否散布很宽,或者是否相对集中在单个点(如均值)附近

2.5、协方差矩阵和相关矩阵

  • 对于具有连续变量的数据,数据的散布更多地用协方差矩阵S表示,其中S的第ij个元素Sij是数据的第i个和第j个属性的协方差。
  • 协方差的值接近0表明两个变量不具有线性关系,但不能仅靠观查协方差的值去确定两个变量之间的关联程度;相关性比协方差更可取;相关矩阵R的第ij个元素是数据的第i个和第j个属性之间的相关性。

3、可视化数据挖掘

3.1、概念

(1)将数据映射到图形元素

  • 可视化的第一步就是要将数据对象、它们的属性,以及数据对象之间的联系转换成诸如点、线、形状和颜色等图形元素
  • 对象的三种表示方法
  1. 若只考虑对象的单个分类属性,则通常根据该属性的值将对象聚类,并把这些类作为表的项或屏幕的区域显示
  2. 对象具有多个属性,可以将对象显示为表的一行或一列,或显示成图的一条线
  3. 对象常常解释为二维或三维空间种的点,其中点可以用圆圈、十字叉或方框表示
  • 属性的表示方法
  1. 序数和连续的属性可以映射成连续的、有序的图形特征;如在坐标轴上的位置,亮度,颜色或尺寸
  2. 分类属性,每个类别可以映射到不同的位置,颜色,形状等等
  3. 标称属性,由于它的值是无序的,所以用来表示标称值的图形不能有序

(2)项的安排的重要性

比如:在左边的表中显示具有6个二元属性的9个数据对象,对象和属性之间没有明显的联系;而经过重新排列项的位置可以将数据分成两类,一类前三个属性为1,另一类后三个属性为1

(3)选择的重要性:即删除或不突出某些对象和属性

  • 如果有很多数据对象。则可视化所有数据对象可能导致显示过于拥挤;如果有许多属性和许多对象,则情况更加困难。

3.2、可视化技术的三种分类

(1)具有少量属性的数据可视化

  • 茎叶图可以用来窥视一维整形或连续数据的分布;最简单的一类茎叶图,将值分组,其中每组包含的值除了最后一位数字外相同。每个组成为茎,而组中的最后一位数字成为叶;如下图,数据取自鸢尾花数据集,萼片长度乘以10,取整,并且已经排序;有时数据量很大,可以将茎分裂,即如下将茎4重复两次,40-44的所有值放在对应于第一个茎的桶中。

  • 直方图是茎叶图的一种类型;将可能的值分散到箱中,并显示落入每个箱中的对象数,直方图显示属性的分布。

  • 直方图的几种变形:相对频率直方图用相对频率取代计数,即y轴尺度的变化,直方图的形状并不改变;Pareto直方图,针对无序的分类数据,分类按计数排序,但计数从左到右递减
  • 二维直方图:每个属性划分成区间,两个区间集定义值的二维长方体;可以发现大部分花都落入对角线的箱中,一维分布是观察不到的。但二维分布可能出现某些柱体被其它柱体遮挡。

  • 盒状图是另一种显示一维数值属性值分布的方法

  • 饼图,通常用于具有较少的值的分类属性

  • 经验累计分布函数(ECDF),一种更定量地显示数据分布的图是经验累积分布函数图。对于统计分布的每个值,一个累计分布函数(CDF)显示点小于该值的概率;而对于每个观测值,ECDF显示点小于该值的点的百分比。由于点的个数是有限的,ECDF是一个阶梯函数。

  • 百分位图

  • 散布图:使用数据对象的两个属性的值作为x和y坐标值,每个数据对象都作为平面上的一个点绘制。散布图的两个用途:
  1. 图形化地显示了两个属性之间的关系;如判断两个属性的线性相关程度
  2. 当类标号给出时,可以使用散布图考察两个属性将类分开的程度;如果可以画一条直线或曲线将两个属性定义的平面分成区域,每个区域包含一个类的大部分对象,则可能会基于这条线构造精确的分类器。

(2)具有时间或空间属性的数据可视化

  • 等高线图:对于某些三维数据,两个属性指定平面上的位置,第三个属性具有连续值,如温度或海拔高度。

  • 曲面图:如12个点的集合周围密度的曲面图

  • 矢量场图:某些数据的一个特性可能同时具有值和方向

  • 低维切片
  • 动画,显示数据相继的二维切片

(3)具有大量属性的数据可视化

  • 矩阵:将数据矩阵的每个元素与图像的一个像素相关联

  • 平行坐标系:不同的坐标轴是平行的,而不是正交的;对象用线表示而不是用点表示;对象的每个属性映射到与该属性相关联的坐标轴上的点,然后将这些点连接起来形成该对象的线。

  • 星形坐标和Chernoff脸:对象的每个属性映射到图示符的一个特征,使得属性的值决定特征的准确性质;这些图具有很好的视觉效果,但是它们不能很好地伸缩,对于许多数据挖掘问题都受到限制,尽管如此,仍然可以用来比较少量对象集的一种手段。

4、OLAP和多维数据分析

  • 将数据集看作多维数组的技术和见解;大量数据库系统支持这种观点,如:OLAP(联机分析处理)系统
  • 由于OLAP(联机分析处理)系统的广泛使用,我们的多维数据分析将基于OLAP系统常见的术语和概念

4.1、一个具体的例子:用多维数组表示鸢尾花数据

重要的是可以从多维的角度去观察数据,以此获得深入的了解;比如可以看出Setosa花具有较低的宽度和长度;Ver花具有中等的宽度和长度;而Vir花具有较高的宽度和长度;

    

 

4.2、一般情况

一般方法:用多维数组表示数据需要两个步骤:

  1. 维的识别;维代表分类属性,比如前面的例子,每个属性(花瓣长度、花瓣宽度和种类都有三个可能的值)都有三个可能的值,因此每个维的大小都是3
  2. 分析所关注的属性的识别;属性值的每个组合定义了多维数组的一个单元,每个单元的内容代表我们在分析时感兴趣的目标量的值;上例中目标量花瓣宽度和花瓣长度落入特定范围内花的个数。

     

4.3、多维数据分析技术

  • 数据立方体:从多维角度看待数据的主要动机是需要以多种方式聚集数据,数据立方体就可以用来计算聚集量;
  • 数据的多维表示,连同所有可能的总和(聚集)称作数据立方体;
  1. 数据立方体的每个维的大小(属性值的个数)不必相等
  2. 数据立方体可能多于或少于三个维
  3. 数据立方体是交叉表的推广;若下图中的三个表加上边缘总和,则就是交叉表,若将全部情况列出就是数据立方体;

  • 数据立方体的相关操作:
  1. 维规约,类似这种边缘求和的聚集可以看作是一种形式的维规约;比如鸢尾花例子中,在种类这个维度上聚集,则将维度从3规约到2
  2. 转轴:是指在除两个维之外的所有维上聚集;如下,是一个在日期和产品上转轴的例子
  3. 切片是通过对一个或多个维指定特定的值;如鸢尾花例子中,通过为种类维指定3个不同的值得到鸢尾花数据集的三个切片
  4. 切块是通过指定属性值区间选择单元子集;如在鸢尾花切片中仅选择宽度中等的作为单元子集
  5. 上卷和下钻:如若销售数据是多维数组,记录每天的销售,则可以按月上卷(聚集)销售数据;相反,若给定时间是划分成月份的数据表示,则可以将月销售总和下钻(分解)成日销售总和,要求基本销售数据的时间粒度是按天的。

 

 

 

 

 

 

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值