认识数据

最新推荐文章于 2025-05-14 22:27:35 发布

htfenght

最新推荐文章于 2025-05-14 22:27:35 发布

阅读量1.3k

点赞数 4

分类专栏：数据挖掘

本文链接：https://blog.csdn.net/love__live1/article/details/83657522

版权

数据挖掘专栏收录该内容

8 篇文章

订阅专栏

数据对象与属性类型

数据集由数据对象组成，一个数据对象代表一个实体。

属性是一个数据字段，表示数据对象的一个特征

标称属性的值是一些符号或者事务的名称

二元属性是一种标称属性，只有两个类别或者状态：0或者1

序数属性可能的值之间具有有意义的序或者秩评定，但是相继值之间的差未知（如大中小）

数值属性

区间标度属性：属性涌向等的单位尺度度量。
比率标度属性：属性是具有固定零点的数值属性。

离散属性与连续属性

数据的基本统计描述

中心趋势度量：均值、中位数、众数

均值
$\bar{x} = \frac{\sum_{i=1}^{N}x_i}{N}$
加权算术均值或加权平均
$\bar{x} = \frac{\sum_{i=1}^{N}\omega_ix_i}{\sum_{i=1}^{N}\omega_i}$
中位数
$L_1 + (\frac{N/2 + (\sum freq)_l}{freq_median})width$
众数

众数是出现最频繁的值，一个、两个、三个众数的数据集合分别称为单峰的、双峰的、三峰的

中列数：是数据集最大值和最小值得平均值

度量数据散步：极差、四分位数、方差、标准差和四分位极差

极差是该集合最大与最小值得差
四分位数如下图

分位数是取自数据分布得每隔一定间隔得点，把数据分成基本上大小相等得连贯集合。第一个四分位数记作 $Q_1$ ，第三个四分位数记作 $Q_3$

四分位极差： $IRQ=Q_3 - Q_1$
五数概括由中位数（ $Q_2$ ）、四分位数 $Q_1和Q_3$ 、最小和最大观测值组成，表现方式：盒图
方差和标准差： $\sigma^2 = \frac{1}{N}\sum_{i=1}^{N}(x_i - \bar{x})^2$

数据基本统计描述得图形显示

分位数图
分位数-分位数图
直方图
散点图与数据相关

数据可视化

数据可视化是通过图形表示清晰有效地表达数据。

度量数据的相似性和相异性

数据矩阵与相异性矩阵

数据矩阵：这种数据结构用关系表的形式或者 $n * p$ 矩阵存放n个数据对象。
相异性矩阵: 存放n个对象两两之间的邻近度。

其中 $d (i, j)$ 是对象i和对象j之间的相异性或者“差别”的度量
相似性度量可以表示成相异性度量的函数。例如，对于标称数据： $s i m (i, j) = 1 - d (i, j)$

标称属性得邻近性度量
在这里插入图片描述

m是匹配的数目（即i和j取值相同状态的属性数），而p是刻画对象的属性总数。

例子：
在这里插入图片描述
上表中我们只有test-1是标称属性。

二元属性得邻近性度量
在这里插入图片描述

对称的二元相异性
非对称的二元相异性

q是对象i和对象j都取1的属性数。

数值属性得相异性：闵可夫斯基距离

欧几里得距离
曼哈顿距离

闵科夫斯基距离
是欧几里得距离和曼哈段距离的推广
上确界距离（又称 $L_{max}$ ，和切比雪夫距离）
是h趋向于无穷时闵科夫斯基距离的推广

序数属性得邻近性度量
如何处理序数属性的邻近性度量，以表2.2为例，分三步：

第一步，把test-2的每个值替换成他的排位，则四个对象的排位分别是3、1、2、3
第二步，通过将排位1、2、3分别映射成0.0、0.5、1.0来实现对排位的规格化
第三步，使用欧几里得矩阵获得如下的相异性矩阵

混合类型属性得相异性

在这里插入图片描述

对于表2.2，test-3的相异性矩阵为
在这里插入图片描述

如果计算三个属性的相异性矩阵，对于第三和第一个属性， $\frac{1(1) + 1(0.5) + 1(0.45)}{3} = 0.65$ ，那么由三个属性所描述的数据得到的相异性矩阵如下：
在这里插入图片描述

余弦相似性
文档用数以千计的属性表示，每个记录文档中的一个特定词（如关键词）或短语的频度。每个文档都被一个所谓的词频向量表示，如下表
在这里插入图片描述

词频向量通常很长，并且是稀疏的（即，它们有很多零值），但我们关注的时两个文档确实共有的此，以及这种词出现的频率，忽略掉0匹配的数值数据度量，这时候就用到了余弦相似性：
在这里插入图片描述
一个对于表2.5的例子