数据处理。
数据是有质量优劣的
获得高质量数据是数据处理的目的。
数据预处理的技术有
- 数据清洗
- 数据变换
- 数据归约
- 数据离散化
- 特征(属性)选择
一、数据
1.数据、数据集、数据类型
对于数据的理解:
- 狭义上, 数据,即为数字。
- 广义上, 可把数据理解成记录
(相当于在数据库中数据 - 数据内涵,随时间的推移而发展。
类似在数据库中对数据属性的理解,以及数据集
- 属性(也称为特征、维或字段),
是指一个对象的某方面性质或特性。一个对象通过若干属性来刻画。 - 数据集
数据对象的集合(同分布、同特征) 如下图:
看图说话:
一行(Row)一个数据对象(data object),或说记录(record) ,
一列(Colum)一个属性(attribute),或说字段(field)
数据属性是有性质的:大概分为定性和定量的属性性质。
性质 | 解释 | 举例 |
---|---|---|
标称(Nominal) |
属性值只提供足够的信息以区分对象。这种属性值 |