《数据挖掘概念与技术》第二章

《数据挖掘概念与技术》第二章

认识数据

目录

认识数据

2.1 数据对象与属性类型

2.1.1 什么是属性

2.1.2 标称属性


2.1 数据对象与属性类型

数据对象组成数据集,一个数据对象是一个实体。数据对象用属性描述,还被称为样本、实例、数据点或对象。

数据元组

2.1.1 什么是属性

属性指对象的一个特征。

属性、维、特征和变量意思相同,不过应用场景不同。属性一般用于数据挖掘和数据库,维用于数据仓库,特征用于机器学习文献,变量用于统计学。

属性向量(特征向量):描述一个给定对象的一组属性。

单变量:涉及一个属性的数据分布。

双变量:涉及两个属性的数据分布,可以往上类推。

2.1.2 标称属性

标称属性:其值是一些符号或者事物的名称。表示某种类别、状态,可用于分类。例如:头发颜色、性别等。

对于标称属性,均值、中位数是没有意义的,有意义的是众数,一种中心趋势度量。

2.1.3 二元属性

标称属性之一,只用0,1两种状态,当两种状态对应true和false时也称为布尔属性。

二元属性有对称与非对称之分,对称是指两种状态具有相同的权重,比如男、女;非对称指两种状态的权重不同,比如一种病的有无。

2.1.4 序数属性

序数属性的值具有有意义的序,但是相邻值之间的差是未知的。比如:小、中、大;A、B、C表示等级

序数属性通常用于等级评定调查。

序数属性的中心趋势可以用众数和中位数表示,均值无意义。

2.1.5 数值属性

数值属性是定量的,即是可度量的,用整数或实数值表示。

数值属性可以是区间标度的或比率标度的。

1、区间标度属性

区间标度属性是用相等的单位尺度度量。

区间属性的值为有序的,+、-、0都可。

除了值的秩评定外,区间标度属性允许我们比较和定量评估值之间的差。

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值