【数据挖掘笔记二】认识数据

 

2.认识数据

提出一些问题来开启数据的认识。数据由什么类型的属性或字段组成?每个属性具有何种类型的数据值?那些属性是离散的,那些事连续值的?数据值如何分布?什么方法更好地可视化数据可看出离群点?如何度量数据对象之间的相似性或相异性?

2.1数据对象与属性类型

数据集是由数据对象组成。一个数据对象代表一个实体。数据对象用属性描述。数据对象也称样本、实例、数据点或对象。如果数据对象存放在数据库中,则是数据元组,数据库的行对应于数据对象,而列对应于属性。

1) 什么是属性

属性(attribute)是一个数据字段,表示数据对象的一个特征。

属性、维(dimension)、特征(feature)和变量(variable)表示同样概念。

“维”一般用在数据仓库中。

“特征”用在机器学习中。

“变量”用在统计学中。

“属性”用在数据挖掘和数据库中。

给定属性的观测值称做观测。用来描述一个给定对象的一组属性称做属性向量(或特征向量)。设计一个属性(或变量)的数据分布称做单变量的(univariate)。双变量(bivariate)分布涉及两个属性。

一个属性的类型由该属性可能具有的值的集合决定。属性可以是标称的、二元的、序数的或数值的。

2)标称属性

标称意味与名称相关。标称属性(nominal attribute)的值是一些符号或事物的名称。每个值代表某种类别、编码或状态,因此标称属性也被看做是分类的(categorical),这些值不必具有有意义的序,在计算科学中,这些值也可看做是枚举的(enumeration)。

标称属性值并不具有有意义的序,并且不是定量的。对于标称属性来说,要描述其集中趋势,就是通过众数(mode)来。

3)二元属性

二元属性(binaryattribute)是一种标称属性,只有两个类别或状态:0或1。二元属性也称布尔属性。如果两种状态具有同等价值或相同权重,则是对称的;如果其状态的结果不是同样重要的,则是非对称的。

4)序数属性

序数属性(ordinalattribute),其可能的值之间具有有意义的序或秩平顶(ranking),但是相继值之间的差是未知的,适用于记录不能客观度量的主管质量评估,通常用于等级评定调查。

在数据归约中,序数属性可通过把数值量的值域划分为有限个有序类别,把数值属性离散化而得到。序数属性的中心趋势可以用它的众数和中位数(有序序列的中间值)表示,但不能定义均值。

标称、二元和序数属性都是定性的,即它们描述对象的特征,但不给出实际大小或数量。

5)数值属性

数值属性(numericattribute)是定量的,是可度量的量,用整数或实数值表示。数值属性可以是区间标度的或比率标度的。

区间标度(interval-scaled)属性用相等的单位尺度度量。区间属性的值有序,可以为正、0或负。除了值的秩评定之外,该属性还允许比较和定量评估值之间的差。区间标度属性是数值的,可计算均值。

比率标度(ratio-scaled)属性具有固有零点的数值属性。就是说,如果度量是比率标度的,则可以说一个值是另一个的倍数(或比率)。值是有序的,可计算值之间的差,也可以计算均值、众数和中位数。

6)离散属性与连续属性

属性分类标称、二元、序数和数值类型。机器学习领域通常把属性分成离散的或连续的。离散属性具有有限或无限个数,可以用或不用整数表示。数值属性和连续属性是等同的,连续属性一般用浮点变量表示。

2.2数据的

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值