数据挖掘（二）：认识数据

最新推荐文章于 2022-06-20 17:03:06 发布

weixin_33910759

最新推荐文章于 2022-06-20 17:03:06 发布

阅读量532

点赞数

文章标签：人工智能数据结构与算法数据库

原文链接：https://segmentfault.com/a/1190000016276761

版权

1. 数据对象与属性类型

数据集由数据对象组成。一个数据对象代表一个实体，如：学校数据库中对象可以是学生、老师。
数据对象用属性来描述。

1.1 什么是属性

属性是一个数据字段，表示数据对象的一个特征。
属性可以是标称的、二元的、序数的或数值的。

1.2 标称属性

标称属性的值是一些符号或事物的名称，这些值不必具有有意义的序（无序）。每个值代表某种类别、编码或状态，因此标称属性又被看做是分类的。例如：头发颜色：黑色、黄色、棕色和白色。
标称属性不能求出均值和中位数，但可以找出众数。

1.3 二元属性

二元属性是一种标称属性，只有两个类别或状态：0或1。
例如：假设属性smoker描述患者对象，1表示患者抽烟，0表示不抽烟。
二元属性又称布尔属性，当两种状态对应于true和false时。
二元属性是对称的，当它的两种状态具有同等价值并携带相同权重，例如：性别属性。
二元属性是非对称的，当它的状态或结果不是同等重要的，例如：HIV化验的阳性结果和阴性结果。

1.4 序数属性

序数属性是一种属性，其可能的值之间具有有意义的序或秩评定，但相继值之间的差是未知的。例如：小、中、大或成绩：A+、A、A-、B+。
序数属性通常用于等级评定调查。
序数属性的中心趋势可以用它的众数和中位数表示，但不能定义均值。

注意：标称、二元和序数属性都是`定性的`，即描述对象特征，但不给出实际大小。

1.5 数据属性

数据属性是定量的，可以是区间标度的或比率标度的。

区间标度属性：区间标度属性用相等的单位尺度度量。区间属性的值有序，可以为正、0、负。因此，除了值的秩评定外，这种属性允许我们比较和定量评估值之间的差。例如：温度属性。
比率标度属性：比率标度属性具有固定零点（即，可以说一个值是另一个值的倍数或比率）。这些值都是有序的，例如：开式温度(K)具有绝对零点(0°K = -273.15℃)，在该点构成物质的粒子具有零动能。

区间标度属性除了中心趋势度量中位数和众数外，还可以计算均值。

1.6 离散属性和连续属性

离散属性是有有限或无限可数个值，可以用或不用整数表示。
如果属性不是离散的，则它是连续的。

2. 数据的基本统计描述

2.1 中心趋势度量：均值、中位数、众数

均值：$x_{mean} = \frac{\sum_{i=1}^N x_i}{N}$
加权均值：$x_{mean} = \frac{\sum_{i=1}^N w_{i}x_{i}}{\sum_{i=1}^N w_i}$
截尾均值：为抵消少数极端值的影响，丢弃高低极端值后的均值

对于倾斜（非对称）数据，数据中心的更好度量是中位数。
可以使用插值计算整个数据集的中位数的近似值：
$ median = L_{1} + (\frac{\frac{N}{2} - (\sum freq)_{l}}{freq_{median}})*width $
$L_1$:中位数区间的下界， N：整个数据集中值的个数，$(\sum freq)_l$:低于中位数区间的所有频数和，$freq_{median}$:中位数区间的频数，$width$:中位数区间的宽度

一个数据集和能有多个众数，当最高频率对应多个不同的值，具有一个、两个、三个众数的数据集合分别称为单峰的、双峰的和三峰的，具有两个及以上称为多峰的。
一个数据集也可能没有众数，比如：每个元素只出现一次。
中列数是数据集的最大值和最小值的平均值。

2.2 度量数据分布：极差、四分位数、方差、标准差和四分位数极差

极差、四分位数和四分位数极差
极差：最大值与最小值之差
分位数是取自数据分布的每隔一定间隔上的点，把数据划分成基本上大小相等的连贯集合。
四分位数：三个数据点把数据划分成四个相等部分
四分位数极差(IQR): $IQR = Q_3 - Q_1$ (其中，$Q_3$是第三个分位数，$Q_1$是第一个分位数)
五数概括、盒图与离群点
识别离群点的通用规则：挑选落在第三个四分位数之上或第一个四分位数之下至少$1.5*IQR$处的值。
五数概括由中位数（$Q_2$）、四分位数$Q_1$和$Q_3$、最小和最大观测值组成，按次序是$Minimum,Q_1,Median,Q_3,Maximum$
盒图（箱线图）体现了五数概括：
$a$.盒的端点一般在四分位数上，使得盒的长度是四分位数极差$IQR$
$b$.中位数用盒内的线标记
$c$.盒外的两条线延申到最小和最大观测值
方差和标准差
方差：$\sigma^{2} = \frac{1}{N} \sum(x_i-x_{mean})^{2} = \frac{1}{N} \sum_{i=1}^{N} x_i^2 - x_{mean}^{2}$
标准差：$\sigma$
作为发散性的度量，标准差$\sigma$的性质是：
$a$.$\sigma$度量关于均值的发散，仅当选择均值作为中心度量时使用。
$b$.仅当不存在发散时，$\sigma=0$，否则$\sigma > 0$

2.3 数据的基本统计描述的图形显示

包括分位数图、分位数-分位数图（q-q图）、直方图和散点图，前三种图显示一元分布，散点图显示二元分布。

3. 数据可视化

通过图形表示清晰有效地表达数据。

基于像素的可视化技术
几何投影可视化技术
基于图符的可视化技术
层次可视化技术

4. 度量数据的相似性和相异性

相似性和相异性都称邻近性。
如果两个对象$i$和$j$不相似，则它们的相似性度量为0。

4.1 数据矩阵与相异性矩阵

数据矩阵（对象-属性结构）：这种数据结构用关系表的形式或$n*p$（$n$个对象 x $p$个属性）矩阵存放几个数据对象：

$$ \left[ \begin{matrix} x_{11} & ... & x_{1f} & ... & x_{1p} \\ ... & ... & ... & ... & ... \\ x_{i1} & ... & x_{if} & ... & x_{ip}\\ ... & ... & ... & ... & ... \\ x_{n1} & ... & x_{nf} & ... & x_{np}\\ \end{matrix} \right] $$

相异性矩阵（对象-对象结构）：存放几个对象两两之间的邻近度，通常用一个$n*n$矩阵表示：

$$ \left[ \begin{matrix} 0 & & & & \\ d(2,1) & 0 & & & \\ d(3,1) & d(3,2) & 0 & & \\ ... & ... & ... & ... & \\ d(n,1) & d(n,2) & ... & ... & 0 \\ \end{matrix} \right] $$

其中$d(i,j)$是对象$i$和对象$j$之间的相异性。一般$d(i,j)$是非负的，$d(i,j)=d(j,i)$

相似性度量可以表示成相异性度量的函数：
$sim(i,j) = 1- d(i,j)$, 其中$sim(i,j)$是对象$i$和$j$之间的相似性

数据矩阵经常被称为二模矩阵，由两种实体组成，即行和列。
相异性矩阵只包含一类实体，因此被称为单模矩阵。

4.2 标称属性的邻近性度量

两个对象$i$和$j$之间的相异性可以根据不匹配率来计算：
$d(i,j) = \frac{p-m}{p}$
其中，$m$是匹配数目（即$i$和$j$取值相同状态的属性数），$p$是刻画对象的属性总数。
相似性计算：$sim(i,j)=\frac{m}{p}$

4.3 二元属性的邻近性度量

二元属性列联表

		对象$j$
		1	0	sum
对象$j$	1	$q$	$r$	$q+r$
	0	$s$	$t$	$s+t$
	sum	$q+s$	$r+t$	$p$

如果$i$和$j$都用对称的二元属性刻画，则$i$和$j$的相异性为：
$d(i,j)=\frac{r+s}{q+r+s+t} $
非对称的二元相异性：
$d(i,j)=\frac{r+s}{q+r+s} $
非对称的二元相似性：
$sim(i,j)=\frac{q}{q+r+s} = 1-d(i,j) $ ，这被称为$Jaccard$系数
当对称与非对称的二元属性同时出现时，使用混合属性方法。

4.4 数值属性的相异性：闵可夫斯基距离

欧几里得距离（即，直线）：
$d(i,j)=\sqrt{(x_{i1}-x_{j1})^2 + (x_{i2}-x_{j2})^2 + ... + (x_{ip}-x_{jp})^2} $
曼哈顿（或城市块）距离：城市两点之间的街区距离
$d(i,j)=\mid x_{i1}-x_{j1}\mid + \mid x_{i2}-x_{j2} \mid +...+ \mid x_{ip}-x_{jp} \mid$

非负性：$d(i,j)≥0$
同一性：$d(i,i)=0$
对称性：$d(i,j)=d(j,i)$
三角不等式：$d(i,j)≤d(i,k)+d(k,j)$

满足这些条件的测度称作度量。

闵可夫斯基距离是欧式距离和曼哈顿距离的推广（又称$L_p$范数）：
$d(i,j)=((\mid x_{i1}-x_{j1}\mid)^{h} + (\mid x_{i2}-x_{j2} \mid)^{h} +...+ (\mid x_{ip}-x_{jp} \mid)^{h})^{\frac{1}{h}}$ ，其中$h≥1$.
当$h=1$时，表示曼哈顿距离（$L_1$范数）
当$h=2$时，表示欧式距离（$L_2$范数）
上确界距离（又称$L_{max}$, $L_∞$范数和切比雪夫距离）是$h\rightarrow ∞$时闵氏距离的推广：
$d(i,j)=lim_{h\rightarrow∞} (\sum_{f=1}^p (\mid x_{if}-x_{jf} \mid)^{h})^{\frac{1}{h}} = max_{f}^p \mid x_{if}-x_{jf}\mid$
$L_∞$范数又称一致范数。
加权欧式距离：
$d(i,j)=\sqrt{w_1*(x_{i1}-x_{j1})^2 + w_2*(x_{i2}-x_{j2})^2 + ... + w_p*(x_{ip}-x_{jp})^2} $

4.5 序数属性的邻近性度量

假设$f$是用于描述$n$个对象的一组序数属性之一。

第$i$个对象的$f$值为$x_{if}$，属性$f$有$M_f$个有序的状态，表示排位$1,...,M_f$。用对应的排位$r_{if}\in \lbrace1,...,M_f\rbrace$ 取代$x_{if}$。
由于每个序数属性都可以有不同的状态数，所以通常需要将每个属性的值域映射到$[0.0, 1.0]$ 上，以便每个属性都有相同的权重。我们通过用$z_{if}$代替第$i$个对象的$r_{if}$ 来实现数据规格化，其中：
$z_{if} = \frac{r_{if}-1}{M_f - 1}$
相异性可以用任意一种数值属性距离度量计算。

4.6 混合类型属性的相异性

将不同的属性组合在单个相异性矩阵中，把所有有意义的属性转换到共同的区间$[0.0, 1.0]$ 上。
假设数据集包含$p$个混合类型的属性，对象$i$和$j$之间的相异性$d(i,j)$：
$d(i,j)=\frac{\sum_{f=1}^p \sigma_{ij}^{(f)} d_{ij}^{(f)}}{\sum_{f=1}^p \sigma_{ij}^{(f)}}$
其中，指示符$ \sigma_{ij}^{(f)} = 0$，如果$x_{if}$或$x_{jf}$缺失，或者$x_{if}=x_{jf}=0$, 并且$f$是非对称二元属性；否则，指示符$ \sigma_{ij}^{(f)} = 1$ 。
属性$f$对$i$和$j$之间相异性的贡献$ d_{ij}^{(f)}$根据类型计算：

$f$是数值的：$d_{ij}^{(f)}=\frac{\mid x_{if}-x_{jf}\mid}{max_hx_{hf} - min_hx_{hf}}$ ，其中$h$遍取$f$中所有非缺失值对象。
$f$是标称或二元的：如果$x_{if}=x_{jf}$，则$d_{ij}^{(f)}=0$；否则$d_{ij}^{(f)}=1$。
$f$是序数的：计算排位$r_{if}$和$z_{if}=\frac{r_{if}-1}{M_f-1}$，并将$z_{if}$作为数值属性对待。

4.7 余弦相似性

余弦相似性可以用来比较文档，或针对给定的查询词向量对文档排序。
令$x, y$ 是两个待比较的向量，使用余弦度量作为相似性函数：
$sim(x,y)=\frac{x*y}{\mid\mid x\mid\mid \mid\mid y\mid\mid}$
余弦测量属于非度量测度。
当属性是二值属性时，余弦相似性函数可以用共享特征或属性解释，于是$sim(x,y)$是公共属性相对拥有的一种度量：
$sim(x,y)=\frac{x*y}{x*x+y*y-x*y}$ ，(称为$Tanimoto$系数/距离)