数据挖掘

学习笔记一

一、认识数据

1、数据对象与属性类型

数据集由数据对象组成。一个数据对象代表一个实体。 属性是一个数据字段,表示数据对像的一个特征。在文献中,术语“维”(dimension)一般用在数据仓库中,机器学习文献中更倾向于使用术语“特征”(feature),统计学家则更愿意使用术语“变量”(variable)。

1.1 标称属性

指一些符号或事物的名称

因为标称属性值并不具有有意义的序,并且不是定量的,因此,给定一个对象集,找出这种属性的均值或中位数没有意义。然而,一件有意义的事情是使该属性最常出现的值,这个值称为众数,是一种中心趋势度量。

1.2 二元属性

又称布尔属性。只有两个类别或状态:0通常表示该属性不出现,1表示出现。
一个二元属性是对称的,如果他的两种状态具有同等价值并且携带相同的权重。例如:男女。
一个二元属性是非对称的,如果其状态的结果不是同样重要的。例如:艾滋病毒化验的阳性和阴性结果,1表示对最重要的结果编码,另一个用0编码。

1.3序数属性

其可能的值之间具有有意义的序或秩评定(ranking),但是相继值之间的差是未知的。
对于记录不能客观度量的主观质量评估,序数属性是有用的。因此,序数属性通常用于等级评定调查。

序数属性的中心趋势可以用它的众数和中位数(有序序列的中间值)表示,但不能定义均值。

PS:标称、二元和序数属性都是定性的。即,它们描述对象的特征,而不给出实际大小或数量。这种定性属性的值通常是代表类别的词。如果使用整合素,则它们代表类别的计算机编码,而不是可测量的量(例如,0代表小杯饮料,1表示中号杯,2代表大杯)。

1.4 数值属性

数值属性(numeric attribute)是定量的,即它是可度量的量,用整数或实数值表示。

1.4.1 区间标度属性

用相等的单位尺度度量。区间属性的值有序,可以为正、0或负。因此,除了值的秩评定之外,这种属性允许我们比较和定量评估值之间的差。

由于区间标度属性是数值的,除了中心趋势度量众数和中位数之外,还可以计算它们的均值。

1.4.2 比率标度属性

具有固有零点的数值属性。如果度量是比率标度的,则可以说一个值是另一个数的倍数(或比率)。此外,这些值是有序的,因此我们可以计算值之间的差,也能计算均值、中位数和众数。

1.5 离散属性与连续属性

离散属性:具有有限或无限可数个值,可以用或不用整数表示。
连续属性一般用浮点变量表示。

2、数据的基本统计描述

基本统计描述可以用来识别数据的性质,凸显那些数据值应该视为噪声或离群点。

2.1 中心趋势度量:均值、中位数、众数和中列数

它度量数据分布的中部或中心位置。

数据集“中心”的最常用、最有效的数值度量是(算术)均值。

对于倾斜(非对称)数据,数据中心的更好度量是中位数。

数据集的众数是集合中出现最频繁的值,可以对定性和定量属性确定众数。

中列数可以用来评估数值数据的中心趋势,中列数是数据集的最大和最小值的平均值。

2.2 度量数据散布:极差、四分位数、方差、标准差和四分位数极差

2.2.1 极差、四分位数和四分位数极差
极差是最大值与最小值之差。

分位数是取自数据分布的每隔一定间隔上的点,把数据划分成基本上大小相等的连贯集合。4-分位数是3个数据点,它们把数据分布划分成4个相等的部分,使得每部分表示数据分布的四分之一。
四分位数给出分布的中心、散布和形状的某种指示。第一个四分位数记做Q1,是第25个百分位数,它砍掉数据的最低的25%。第3个四分位数记做Q3,是第75个百分位数,它砍掉数据的最低的75%(或最高的25%)。第2个四分位数是第50个百分位数,作为中位数,它给出数据分布的中心。

第1个和第3个四分位数之间的距离是散布的一种简单度量,它给出被数据的中间一半所覆盖的范围,该距离称为四分位数极差(IQR),定义为 IQR=Q3-Q1。

2.2.2 五数概括、盒图与离群点

分布的五数概括(five-number summary)由中位数(Q2)、四分位数Q1和Q3、最小和最大观测值组成,按次序 Minimum,Q1,Median,Q3,Maximum写出。

盒图是一种流行的分布的直观表示。盒图体现了五数概括:
1) 盒的端点一般在四分位数上,使得盒的长度是四分位数极差IQR。
2) 中位数用盒内的线标记。
3) 盒外的两条线(称作胡须)延伸到最小( Minimum)和最大(Maximum)观测值。

由于现实数据中总是存在各式各样地“脏数据”,也称为“离群点”,于是为了不因这些少数的离群数据导致整体特征的偏移,将这些离群点单独汇出,而盒图中的胡须的两级修改成最小观测值与最大观测值。这里有个经验,就是最大(最小)观测值设置为与四分位数值间距离为1.5个IQR(中间四分位数极差)。即
1、IQR = Q3-Q1,即上四分位数与下四分位数之间的差,也就是盒子的长度。
2、最小观测值为min = Q1 - 1.5*IQR,如果存在离群点小于最小观测值,则胡须下限为最小观测值,离群点单独以点汇出。如果没有比最小观测值小的数,则胡须下限为最小值。
3、最大观测值为max = Q3 + 1.5*IQR,如果存在离群点大于最大观测值,则胡须上限为最大观测值,离群点单独以点汇出。如果没有比最大观测值大的数,则胡须上限为最大值。

盒图的特点
通过盒图,在分析数据的时候,盒图能够有效地帮助我们识别数据的特征:
1、直观地识别数据集中的异常值(查看离群点)。识别可疑的离群点的通常规则是,挑选落在第3个四分位数之上或第1个四分位数之下至少1.5 × IQR处得值。
2、判断数据集的数据离散程度和偏向(观察盒子的长度,上下隔间的形状,以及胡须的长度)。

2.3 方差和标准差

方差和标准差都是数据散布度量,它们指出数据分布的散布程度。低标准差意味着数据观测趋向于非常靠近均值,而高标准差表示数据散布在一个大的值域中。

2.4 数据的基本统计描述的图形显示

1、分位数图

2、分位数-分位数图

3、直方图

4、散点图与数据相关

3、数据可视化

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值