二、数据挖掘---认识数据

最新推荐文章于 2023-01-23 01:57:06 发布

weixin_34064653

最新推荐文章于 2023-01-23 01:57:06 发布

阅读量655

点赞数

文章标签：数据库 python 人工智能

原文链接：https://my.oschina.net/ydsakyclguozi/blog/2988068

版权

2019独角兽企业重金招聘Python工程师标准>>>

数据由什么类型的属性或字段组成？每个属性具有何种类型的数据值？哪些属性是离散的，哪些是连续值的？数据看上去如何？值如何分布？有什么方法可以可视化地观察数据，以便更好地理解它吗？能够看出离群点吗？可以度量某些数据对象与其他数据对象之间的相似性吗？洞察数据将有助于其后的分析。

什么是属性

数据对象与属性类型

数据集由数据对象组成。一个数据对象代表一个实体。例如，在大学的数据库中，对象可以是学生、教授和课程。通常，数据对象用属性描述。数据对象又称样本、实例、数据点或对象。如果数据对象存放在数据库中，则它们是数据元组。也就是说，数据库的行对应于数据对象，而列对应于属性。

什么是属性

属性（attribute）是一个数据字段，表示数据对象的一个特征。

例如，描述顾客对象的属性可能包括customer_ID、name和address。给定属性的观测值称做观测。用来描述一个给定对象的一组属性称做属性向量（或特征向量）。涉及一个属性（或变量）的数据分布称做单变量的（univariate）。双变量（bivariate）分布涉及两个属性，等等。

一个属性的类型由该属性可能具有的值的集合决定。属性可以是标称的、二元的、序数的或数值的。下面我们介绍每种类型。

标称属性

标称意味“与名称相关”。标称属性（nominal attribute）的值是一些符号或事物的名称。每个值代表某种类别、编码或状态，因此标称属性又被看做是分类的（categorical）。这些值不必具有有意义的序。在计算机科学中，这些值也被看做是枚举的（enumeration）。

标称属性。假设hair_color（头发颜色）和marital_status（婚姻状况）是两个描述人的属性。在我们的应用中，hair_color的可能值为黑色、棕色、淡黄色、红色、赤褐色、灰色和白色。属性marital_status的取值可以是单身、已婚、离异和丧偶。hair_color和marital_status都是标称属性。标称属性的另一个例子是occupation（职业），具有值教师、牙医、程序员、农民等。

因为标称属性值并不具有有意义的序，并且不是定量的，因此，给定一个对象集，找出这种属性的均值（平均值）或中位数（中值）没有意义。然而，一件有意义的事情是使该属性最常出现的值，这个值称为众数（mode），是一种中心趋势度量。

二元属性

二元属性（binary attribute）是一种标称属性，只有两个类别或状态：0或1，其中0通常表示该属性不出现，而1表示出现。二元属性又称布尔属性，如果两种状态对应于true和false的话。

序数属性

序数属性（ordinal attribute）是一种属性，其可能的值之间具有有意义的序或秩评定（ranking），但是相继值之间的差是未知的。

如顾客的满意度有如下序数类别：0——很不满意，1——不太满意，2——中性，3——满意，4——很满意

数值属性

数值属性（numeric attribute）是定量的，即它是可度量的量，用整数或实数值表示。数值属性可以是区间标度的或比率标度的。

1.区间标度属性

区间标度（interval-scaled）属性用相等的单位尺度度量。区间属性的值有序，可以为正、0或负。因此，除了值的秩评定之外，这种属性允许我们比较和定量评估值之间的差。

2.比率标度属性

比率标度（ratio-scaled）属性是具有固有零点的数值属性。也就是说，如果度量是比率标度的，则我们可以说一个值是另一个的倍数（或比率）。此外，这些值是有序的，因此我们可以计算值之间的差，也能计算均值、中位数和众数。

离散属性与连续属性

我们已经把属性分为标称、二元、序数和数值类型。可以用许多方法来组织属性类型，这些类型不是互斥的。

机器学习领域开发的分类算法通常把属性分成离散的或连续的。每种类型都可以用不同的方法处理。离散属性具有有限或无限可数个值，可以用或不用整数表示。属性hair_color、smoker、medical_test和drink_size都有有限个值，因此是离散的。注意，离散属性可以具有数值值。如对于二元属性取0和1，对于年龄属性取0到110。

如果属性不是离散的，则它是连续的。在文献中，术语“数值属性”与“连续属性”通常可以互换地使用。（这可能令人困惑，因为在经典意义下，连续值是实数，而数值值可以是整数或实数。）在实践中，实数值用有限位数字表示。连续属性一般用浮点变量表示。

数据的基本统计描述

对于成功的数据预处理而言，把握数据的全貌是至关重要的。基本统计描述可以用来识别数据的性质，凸显哪些数据值应该视为噪声或离群点。

本节讨论三类基本统计描述。我们从中心趋势度量开始，它度量数据分布的中部或中心位置。直观地说，给定一个属性，它的值大部分落在何处？特殊地，我们讨论均值、中位数、众数和中列数。

中心趋势度量：均值、中位数和众数

中心趋势度量包括均值、中位数、众数和中列数。

均值

平均数是表示一组数据集中趋势的量数，是指在一组数据中所有数据之和再除以这组数据的个数。

中位数

中位数（又称中值，英语：Median），统计学中的专有名词，代表一个样本、种群或概率分布中的一个数值，其可将数值集合划分为相等的上下两部分。
对于有限的数集，可以通过把所有观察值高低排序后找出正中间的一个作为中位数。如果观察值有偶数个，通常取最中间的两个数值的平均数作为中位数。

众数

众数（Mode）是统计学名词，在统计分布上具有明显集中趋势点的数值，代表数据的一般水平（众数可以不存在或多于一个）。修正定义：是一组数据中出现次数最多的数值，叫众数，有时众数在一组数中有好几个。用 M 表示。理性理解：简单的说，就是一组数据中占比例最多的那个数。

中列数

中列数(midrange）也可以用来评估数值数据的中心趋势。中列数是数据集的最大和最小值的平均值。中列数容易使用SQL的聚集函数max()和min()计算。

度量数据散布：极差、四分位数、方差、标准差和四分位数极差

现在，我们考察评估数值数据散布或发散的度量。这些度量包括极差、分位数、四分位数、百分位数和四分位数极差。五数概括可以用盒图显示，它对于识别离群点是有用的。方差和标准差也可以指出数据分布的散布。

1.极差、四分位数和四分位数极差

开始，让我们先学习作为数据散布度量的极差、分位数、四分位数、百分位数和四分位数极差。

设x1，x2,…，xN是某数值属性X上的观测的集合。该集合的极差（range）是最大值（max()）与最小值（min()）之差。

2-分位数是一个数据点，它把数据分布划分成高低两半。2-分位数对应于中位数。4-分位数是3个数据点，它们把数据分布划分成4个相等的部分，使得每部分表示数据分布的四分之一。通常称它们为四分位数（quartile）。中位数、四分位数和百分位数是使用最广泛的分位数。

四分位数给出分布的中心、散布和形状的某种指示。第1个四分位数记作Q1，是第25个百分位数，它砍掉数据的最低的25%。第3个四分位数记作Q3，是第75个百分位数，它砍掉数据的最低的75%（或最高的25%）。第2个四分位数是第50个百分位数，作为中位数，它给出数据分布的中心。

第1个和第3个四分位数之间的距离是散布的一种简单度量，它给出被数据的中间一半所覆盖的范围。该距离称为四分位数极差(IQR)，定义为

IQR=Q3-Q1

2.五数概括、盒图与离群点

因为Q1、中位数和Q3不包含数据的端点（例如尾）信息，分布形状的更完整的概括可以通过同时也提供最高和最低数据值得到。这称做五数概括。分布的五数概括（five-number summary）由中位数（Q2）、四分位数Q1和Q3、最小和最大观测值组成，按次序Minimum，Q1,Median，Q3，Maximum写出。

盒图（boxplot）是一种流行的分布的直观表示。盒图体现了五数概括：

·盒的端点一般在四分位数上，使得盒的长度是四分位数极差IQR。

·中位数用盒内的线标记。

·盒外的两条线（称做胡须）延伸到最小（Minimum）和最大（Maximum）观测值。

3.方差和标准差

方差与标准差都是数据散布度量，它们指出数据分布的散布程度。低标准差意味数据观测趋向于非常靠近均值，而高标准差表示数据散布在一个大的值域中。

数值属性X的N个观测值x1,x2,…,xN的方差（variance）是：

其中，x是观测的均值，由（2.1）式定义。观测值的标准差（standard deviation）σ是方差σ2的平方根。

作为发散性的度量，标准差σ的性质是：

·σ度量关于均值的发散，仅当选择均值作为中心度量时使用。
·仅当不存在发散时，即当所有的观测值都具有相同值时，σ=0；否则，σ>0。

重要的是，一个观测一般不会远离均值超过标准差的数倍。精确地说，使用不等式，可以证明最少的观测离均值不超过k个标准差。因此，标准差是数据集发散的很好指示器。

大型数据库中方差和标准差的计算是可伸缩的。

数据的基本统计描述的图形显示

本节我们研究基本统计描述的图形显示，包括分位数图、分位数-分位数图、直方图和散点图。这些图形有助于可视化地审视数据，对于数据预处理是有用的。前三种图显示一元分布（即，一个属性的数据），而散点图显示二元分布（即，涉及两个属性）。

数据可视化

如何有效地向用户表示数据？数据可视化（data visualization）旨在通过图形表示清晰有效地表达数据。数据可视化已经在许多应用领域广泛使用。例如，我们可以在编写报告、管理工商企业运转、跟踪任务进展等工作中使用数据可视化。更流行地，我们可以利用可视化技术的优点，发现原始数据中不易观察到的数据联系。现在，人们还使用数据可视化制造乐趣和有趣的图案。

本节简要介绍数据可视化的基本概念。我们从存放在诸如关系数据库中的多维数据开始，讨论一些表示方法，包括基于像素的技术、几何投影技术、基于图符的技术，以及层次的和基于图形的技术。然后，我们讨论复杂数据对象和关系的可视化。

转载于:https://my.oschina.net/ydsakyclguozi/blog/2988068