《数据挖掘概念与技术》第二章
认识数据
目录
2.1 数据对象与属性类型
数据对象组成数据集,一个数据对象是一个实体。数据对象用属性描述,还被称为样本、实例、数据点或对象。
数据元组
2.1.1 什么是属性
属性指对象的一个特征。
属性、维、特征和变量意思相同,不过应用场景不同。属性一般用于数据挖掘和数据库,维用于数据仓库,特征用于机器学习文献,变量用于统计学。
属性向量(特征向量):描述一个给定对象的一组属性。
单变量:涉及一个属性的数据分布。
双变量:涉及两个属性的数据分布,可以往上类推。
2.1.2 标称属性
标称属性:其值是一些符号或者事物的名称。表示某种类别、状态,可用于分类。例如:头发颜色、性别等。
对于标称属性,均值、中位数是没有意义的,有意义的是众数,一种中心趋势度量。
2.1.3 二元属性
标称属性之一,只用0,1两种状态,当两种状态对应true和false时也称为布尔属性。
二元属性有对称与非对称之分,对称是指两种状态具有相同的权重,比如男、女;非对称指两种状态的权重不同,比如一种病的有无。
2.1.4 序数属性
序数属性的值具有有意义的序,但是相邻值之间的差是未知的。比如:小、中、大;A、B、C表示等级
序数属性通常用于等级评定调查。
序数属性的中心趋势可以用众数和中位数表示,均值无意义。
2.1.5 数值属性
数值属性是定量的,即是可度量的,用整数或实数值表示。
数值属性可以是区间标度的或比率标度的。
1、区间标度属性
区间标度属性是用相等的单位尺度度量。
区间属性的值为有序的,+、-、0都可。
除了值的秩评定外,区间标度属性允许我们比较和定量评估值之间的差。