数据挖掘:概念与技术 读书笔记 第二章 认识数据

第二章 认识数据

本章要解决的问题:
1、数据由什么类型的属性或字段组成?
2、每个属性具有何种类型的数据值?
3、哪些属性是离散的,哪些是连续值的?
4、数据看上去如何?
5、值如何分布?
6、有什么方法可以可视化地观察数据,以便更好地理解它吗?
7、能够看出离群点吗?
8、可以度量某些数据对象与其他数据对象之间的相似性?

2.1 数据对象与属性类型
数据集由数据对象组成。一个数据对象代表一个实体。数据对象用属性描述。数据对象又称样本、实例、数据点或对象。如果数据对象存放在数据库中,则它们是数据元组。在数据库中行对应于数据对象,而列对应于属性。

2.1.1什么是属性
属性是一个数据字段,表示数据对象的一个特征。(在文献中,属性、维、特征和变量可以互换地使用。)用来描述一个给定对象的一组属性称做属性向量(或特征向量)。+

2.1.2 标称属性
标称属性的值是一些符号或事物的名称。

2.1.3 二元属性
二元属性是一种标称属性,只有两个类别或状态:0或1,其中0通常表示该属性不出现,而1表示出现。二元属性又称布尔属性,(True和False与之对应)。
一个二元属性是对称的,如果它的两种状态具有同等价值并且携带相同的权重;一个二元属性是非对称得到,如果其状态的结果不是同样重要的。

2.1.4 序数属性
序数属性是一种属性,其可能的值之间具有有意义的序或秩评定,但是相继值之间的差是未知的。(如成绩分a+,a,a-等)

注意:标称、二元和序数属性都是定性的。它们描述对象的特征,而不给出实际大小或数量。这种定性属性的值通常是代表类别的词。

2.1.5 数值属性
数值属性是定量的,即它是可度量的量,用整数或实数值表示。
1.区间标度属性用相等的单位尺度度量。(允许我们比较和定量评估值之间的差)。
2.比率标度属性是具有固有零点的数值属性。

2.1.6离散属性与连续属性
离散属性具有有限或无限可数个值,可以用或不用整数表示。如果属性不是离散的,则它是连续的。

2.2 数据的基本统计描述

2.2.1 中心趋势度量:均值、中位数和众数
均值
在这里插入图片描述
加权算术均值或加权平均
w为权重
截尾均值是丢弃高低极端值后的均值。
对于倾斜(非对称)数据,数据中心的更好度量是中位数。
用插值计算整个数据集的中位数的近似值:
在这里插入图片描述
数据集的众数是集合中出现最频繁的值。一般的,具有两个或更多众数的数据集是多峰的。在另一种极端情况下,如果每个数据值仅出现一次,则它没有众数。

中列数是数据集的最大和最小值的平均值。
在这里插入图片描述

2.2.2度量数据散布:极差、四分位数、方差、标准差和四分位数极差

1、极差、四分位数和四分位数极差
极差是最大值与最小值之差
分位数时取自数据分布的每隔一定间隔上的点,把数据划分成基本上大小相等的连贯集合。
四分位数:
四分位数是三个数据点,它们把数据分布划分成4个相等的部分,使得每部分表示数据分布的四分之一。
在这里插入图片描述
2.五数概括、盒图与离群点
五数概括:由中位数(Q2)、四分位数(Q1和Q3)、最小和最大观测值组成,按次序Minimum,Q1,Median,Q3,Maximum写出。
盒图:一种流行的分布的直观表示。
1)盒的端点一般在四分位数上,使得盒的长度是四分位数极差IQR
2)中位数用盒内的线标记
3)盒外的两条线(称做胡须)延伸到最小(Minimum)和最大(Maximum)观测值

3.方差和标准差
在这里插入图片描述

2.2.3数据的基本统计描述的图形显示

  1. 分位数图
  2. 分位数—分位数图
  3. 直方图
  4. 散点图与数据相关

2.3数据可视化
2.3.1 基于像素的可视化技术

2.3.2 几何投影可视化技术

2.3.3 基于图符的可视化技术

切尔诺夫脸(Chernoff faces)

人物线条画(stick figure)

2.3.4 层次可视化技术

世界中的世界(Worlds-within-Worlds)

树图(tree-map)

2.3.5 可视化复杂对象和关系

标签云(tag cloud)

2.4 度量数据的相似性和相异性

2.4.1数据矩阵与相异性矩阵
在这里插入图片描述
在这里插入图片描述
2.4.2 标称属性的邻近性度量
在这里插入图片描述
2.4.3 二元属性的邻近性度量
基于对称二元属性的相异性称做对称的二元相异性。如果对象i和j都用对称的二元属性刻画,则i和j的相异性为:
在这里插入图片描述
基于这种属性的相异性被称为非对称的二元相异性,其中负匹配数t被认为是不重要的,因此计算时被忽略,如下表示:
在这里插入图片描述
2.4.4 数值属性的相异性:闵可夫斯基距离

欧几里得距离:
在这里插入图片描述
曼哈顿距离:
在这里插入图片描述
在这里插入图片描述
欧几里得距离与曼哈顿距离都满足的数学性质
非负性:d(i,j) ≥0 :距离是一个非负的数值
同一性:d(i,i) = 0:对象到自身的距离为0
对称性:d(i,j) = d(j,i):距离是一个对称函数
三角不等式:d(i,j) ≤ d(i,k)+d(k+j):从对象i到对象j的直接距离不会大于途经任何其他对象k的距离

闵可夫斯基距离是欧几里得距离和曼哈顿距离的推广:
在这里插入图片描述
在这里插入图片描述
2.4.5 叙述属性的邻近性度量
2.4.6 混合类型属性的相异性
2.4.7余弦相似性

在这里插入图片描述
在这里插入图片描述

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值