数据挖掘：概念与技术第二章

最新推荐文章于 2021-03-12 23:20:15 发布

Helelllllle

最新推荐文章于 2021-03-12 23:20:15 发布

阅读量732

点赞数

文章标签：数据挖掘第二章：认识数据概念与技术小何

本文链接：https://blog.csdn.net/Helelllllle/article/details/100527011

版权

本章结束时，你将了解属性的不同类型，以及描述属性数据的中新趋势和散布的统计度量。还将熟悉对属性值可视化的技术，以及如何计算对象之间的相似性或相异性。

摘要由CSDN通过智能技术生成

文章目录

第二章：认识数据

第二章：认识数据

2.1 数据对象与属性类型

数据集由数据对象组成。一个数据对象代表一个实体。
数据对象用属性描述。
数据对象又称样本、实例、数据点或对象。

2.1.1 什么是属性

属性是一个数据字段，表示数据对象的一个特征。属性、维、特征和变量可以互换地使用。

2.1.2 标称属性

标称属性的值是一些符号或事务的名称。

例2.1.2 假设发色和婚姻状况是两个描述人的属性。发色可能是黑色、棕色、绿色、红色和白色。婚姻状况可能是单身、已婚、离异和丧偶。发色和婚姻状况都是标称属性。
考察标称属性最有意义的就是分析其众数（出现最多的值），这可以看出一种中心趋势。根据这种中心趋势，可以得出一些结论。如这个地方的人的头发颜色一般都是黑色，大部分人的职业都是工人等等。

2.1.3 二元属性

二元属性是一种标称属性，只有两个类别或状态：0或1，二元属性又称布尔属性。

2.1.4 序数属性

序数属性是一种属性，其可能得之间具有有意义的序或秩评定，对于记录不能客观度量的主管质量评估，序数属性是有用的。

2.1.5 数值属性

数值属性是定量的。

2.1.6 离散属性与连续属性

机器学习领域开发的分类算法通常把属性分成离散的或连续的。

2.2 数据的基本统计描述

对于成功的数据预处理而言，把握数据的全貌是至关重要的。基本统计描述可以用来识别数据的性质，凸显哪些数据值应该视为噪声或离群点。
有三类基本统计描述。

2.2.1 中新趋势度量：均值、中位数和众数

数据集“中心”的度量最常用、最有效的数值度量是（算术）均值。令 x1，x2，…，xN 为某数值属性X的N个观测值或观测。该值集合的均值（mean）为：
有时，对于i=1,2,…,N，每一个值xi可以与一个权重wi相关联，权重反应它们所依附的对应值的意义、重要性或者出现的频率。在这种情况下，我们可以计算：
这称做加权算术均值或加权平均。
为了抵消少数极端值的影响，我们可以使用截尾均值（trimmed mean）:丢弃高低极端值后的均值。
对于倾斜（非对称）数据，数据中心的更好度量是中位数。中位数是有序数据值的中间值:一定是排序后的数列。它是把数据较高一半与较低一半分开的值。
众数是另一种中心趋势的度量。数据集中众数是集合中出现最频繁的值。
中列数（midrange）也可以用来评估数值数据的中心趋势。中列数是数据集的最大和最小值得平均值。

2.2.2 度量数据散步：极差、四分位数、方差、标准差和四分位数极差

极差、四分位数和四分位数极差
设x1, x2, …, xN 是某数值属性X上的观测的集合。该集合的**极差(range)**是最大值(max())与最小值(min())之差。
分位数（quantile）是取自数据分布的每隔一定间隔上的点，把数据划分成基本上大小相等的连贯集合。
四分位数：把数据分布划分成4个相等的部分。
百分位数：把数据分布划分成100个大小相等的连贯集。
第一个四分位数记作Q1，是第25个百分位数，它砍掉数据最低的25%。第三个四分位数记作Q3，是第75个百分位数，他砍掉数据最高的25%。
四分位数极差(IQR) = Q3 - Q1
五数概括
五数概括（five-number summary）由中位数(Q2)、四分位数(Q1) 和 (Q3)、最大最小观测值组成，按次序Minimum，Q1，Median，Q2，Maximum写出。
方差和标准差
方差和标准差都是反映了一组数据偏离平均值的程度（离散程度）。低标准差意味着数据观测趋于非常靠近均值，而高标准差表示数据散布在一个大的值域中。

2.3 数据可视化

数据可视化通过图形表示清晰有效地表达数据。

2.3.1 基于像素的可视化技术

基于像素的可视化技术，是一种可视化一维值的简单方法。

2.3.2 几何投影可视化技术

几何投影技术帮助用户发现多维数据集的有趣投影。主要挑战是设法解决如何在二维显示上可视化高维空间。

2.3.3 基于图幅的可视化技术

基于图符的可视化技术使用少量图符表示多维数据值。

2.3.4 层次可视化技术

层次可视化技术：对于大型高维数据集，很难同时对所有维可视化，层次可视化技术把所有维划分成子集，这些子空间按层次可视化。

2.3.5 可视化复杂对象和关系

标签云是用户产生标签统计量的可视化，在标签云中，标签通常按字母次序或用户指定的次序列举。

2.4 度量数据的相似性和相异性

评估对象之间相互比较的相似或不相似程度。簇是数据对象的集合，使得同一个簇中对象相互相似，而与其他簇中的对象相异。离群点分析也使用基于聚类技术，把可能的离群点看做与其他对象高度相异的对象。对象的相似性可以使用最近邻分类，对给定的对象基于它与模型中其他对象的相似性赋予一个类标号。
相似性与相异性都称邻近性（proximity），典型的，如果两个对象i和j不相似，则它们的相似性度量将返回0，相似性值越高，对象之间的相似性越大。

2.4.1 数据矩阵与相异性矩阵

本节讨论的对象被多个属性度量。假设我们有n个对象（如人、商品或课程），每个对象被p个属性（又称维或特征）刻画。这些对象是 $x_1=(x_{11}，x_{12}，...，x_{1p})，x_2=(x_{21}，x_{22}，...，x_{2p})$ ，等等，其中 $x_{ij}$ 是对象 $x_i$