【数据挖掘概念与技术】学习笔记2-认识数据

最新推荐文章于 2024-06-22 10:39:56 发布

马面

最新推荐文章于 2024-06-22 10:39:56 发布

阅读量1.3k

点赞数

分类专栏：数据挖掘和机器学习文章标签：数据挖掘数据挖掘概念与技术学习笔记

本文链接：https://blog.csdn.net/mamianskyma/article/details/14217047

版权

数据挖掘和机器学习专栏收录该内容

6 篇文章 2 订阅

订阅专栏

数据集由数据对象组成。一个数据对象代表一个实体。通常，数据对象用属性描述。数据对象又称样本、实例、数据点或对象。如数据对象存放在数据库中，则是数据元组，即行对应数据对象，列对应属性。
属性的类型有：标称属性、二元属性、序数属性、数值属性。
- 标称属性：如头发的颜色（可取黑、黄、白等），职业（可取工人、学生、教师、企业家等）；这些值不必具有有意思的序，不是定量的。
- 二元属性：只有两个类别或状态的标称属性。如果两个状态同等重要，则是对称的；否则是非对称的（通常用1来表示重要的状态，稀有的）。
- 序数属性：其可能的值之间具有有意义的序，但相继值间的差是未知的。如军衔：列兵、军士、上尉，有序，但不能说上尉比列兵大多少。不是定量的。
- 数值属性：定量的，用整数或实数表示。
中心趋势度量：度量数据分布的中部或中心位置。有均值、中位数（若为数值类型且有偶数个数据，取中间两数的均值）、众数（出现次数最多的数）、中列数（最大和最小值的平均值）。
数据的散布：极差（最大值与最小值之差）、四分位数（递增序排列，1/4、2/4、3/4处的数据，分别表示为Q1、Q2、Q3）、四分位数极差（Q3与Q1的差）、五数概括（中位数Q2、四分位数Q1、Q3、最小值、最大值）、盒图。还有方差、标准差。
识别可疑的离群点通常规则是：挑选落在第3个四分位数Q3之上或第1个四分位数之下至少1.5X（Q3-Q1）处的值。
数据的相似性和相异性：在聚类、离群点分析和最近邻分类等数据挖掘应用中，我们需要评估对象间的相似或不相似程序。
中心趋势度量和数据的散布都是对单一属性的刻画。
数据矩阵：nXp矩阵，n是对象个数，p是属性个数。类似于数据库表，每一行代表一个对象，每一列代表一个属性。这些对象可以是关系数据库的元组，也称数据样本或特征向量。
相异性矩阵：存放n个对象两两之间的邻近度，nXn矩阵，只在主对角线左下方有数据。数据值为d(i,j)，表示对象i和j的相异性。
标称属性的邻近性度量：d(i,j)=(p-m)/p，p指属性个数，m指两个对象相同的属性个数。
数值属性的相异性：欧几里得距离（类似于空间两点间距离）、曼哈顿距离（两对象各属性差的绝对值的和）、闵可夫斯基距离（各属性的差的绝对值的p次方，求其和后再开p次方，我们保留p为属性数）。
数值属性，上确界距离：属性差的绝对值的最大值。