大数据挖掘——认识数据

第二章 认识数据

2.1 数据对象与属性类型

  数据集由数据对象组成,一个数据对象代表一个实体。属性,是一个字段,表示数据对象的一个特征。在文献中,属性、维、特征和变量可以互换的使用。用来描述一个给定对象的一组属性称做属性向量(特征向量)。

2.1.1 标称属性

  标称意味着“与名称相关”,标称属性的值是一些符号或事物的名称。每个值代表某种类别、编码或状态,因此标称属性又被看做是分类的。

2.1.2 二元属性

  二元属性是一种标称属性,只有两个类别或状态:0或1,其中0通常表示属性不出现,而1表示出现。二元属性又称布尔属性。

2.1.3 序数属性

  序数属性是一种属性,其可能的值之间具有有意义的序或秩评定,但是相继值之间的差是未知的。例如grade(成绩,A+、A、A-、B+等)

2.1.4 数值属性

  数值属性是定量的,即它是可度量的,用整数或实数值表示。数值属性可以是区间标度的或比率标度的。区间标度属性用相等的单位尺度度量。区间属性的值有序,可以为正、0或负。例如温度、日历日期。比率标度属性是具有固有零点的数值属性。比如高度、速度、重量、等,我们可以说一个数是另一个数的多少被。

2.1.5 离散属性和连续属性

  离散属性具有有限或无限可数个值,可以用或不用整数表示。如果属性不是离散的,则是连续的。

2.2 数据的基本统计描述

2.2.1 中心趋势度量:均值、中位数和众数

  均值又分为算术平均值和加权算术平均值。均值的主要问题是对极端值很敏感(极端值对均值影响很大)。中位数是该有序集中的中间值。如果N为奇数,中位数就是处在数据集中间的数值,如果N为偶数,它是最中间两个数的均值。众数是数据集中出现次数最多的数。

2.2.2 度量数据散布:极差、四分位数、方差、标准差和四分位数极差

  极差(range)就是一个数据集中最大值与最小值的差。分位数是取自数据分布每隔一定间隔上的点,把数据划分成基本上大小相等的连贯集合。给定数据分布的第k个q分位的值x,使得小于x的数据值最多为k/q,而大于x的数据值最多有1 - k/q,其中k是整数,使得0 < k < q。我们有q - 1个q分位数。2分位数对应中位数,4分位数有3个数据点,它们把数据分布划分为4个相等的部分,使得每部分表示数据分布的四分之一,通常它们叫做四分位数。第1个和第3个四分位数之间的距离是散布的一种简单度量,它给出被数据的中间一半所覆盖的范围。该距离称为四分位极差(IQR)。识别离群点的通常规则是。挑选落在第3个四分位数之上或第1个四分数之下至少1.5 x IQR处的值。五数概括是指Min、Q1、Median(Q2)、Q3、Max。方差与标准差都是数据散布度量,它们指出数据分布的散布程度。

2.2.3 数据的基本统计描述的图形显示

分位数图:分位数图是一种观察单变量数据分布的简单有效方法。分位数fi = (i - 0.5)/N, i从1,2,。。。N。
分位数-分位数图(q-q图)、直方图、散点图等。

2.3 数据可视化

基于像素的可视化技术

几何投影可视化技术

基于图符的可视化技术 ———》 切尔诺夫脸

层次可视化技术 ————》 三维图、树图

可视化复杂对象和关系 ————》 标签云

2.4度量数据的相似性和相异性

  相似性和相异性都称为邻近性,数据矩阵(用于存放数据对象)和相异性矩阵(用于存放数据对象的相异性值)。数据矩阵或称为对象-属性结构,这种数据结构用关系表的形式或n x p(n个对象 x p个属性)矩阵存放n个数对象。相异性矩阵或称对象-对象结构,存放两两之间的邻近度,通常用一个n x n矩阵表示。

标称属性的邻近性度量 d(i, j) = ( p - m)/ p,m为匹配的数目,p是刻画对象的属性总数。

数值属性的相异性:闵可夫斯基距离

序数属性的邻近性度量: z_{jf} =\frac{r_{if} - 1}{M_{f} - 1}

余弦相似性:sim = \frac{x * y}{||x|| * ||y||}

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值