最近偏重看数据挖掘方面的知识,整了本韩家炜的《数据挖掘》慢慢研究,特整理此系列作为读书随笔。
第一篇是数据的相关知识,对应书上的第二章,主要讲述了数据有关基础的内容,和统计线性代数相关。
Part1,数据基础
一,数据属性与类别
属性简介
从广义上来讲,数据集中包含了每一个数据对象,每一个数据对象代表了一个实体,这倒颇有一点OO的思想。
对于任何一个数据,如果没有属性依托,则这个数据仅仅是一个数值而没有任何意义,属性表征了数据的特征。同时属性也是数据对象的组成部分,数据对象由一个个属性构成。在不同领域中,属性有不同的标识,统计领域称为“变量”,机器学习领域称为“特征”,数据仓库则是“维”,这些说的都是同一个概念。
借用数学中的向量概念,一个数据对象的属性集被称为属性向量或特征向量,只有一个属性的称为单属性数据,两个属性的则为双属性数据,乃至多属性数据。
属性分类
属性也有具体的分类,主要是由其所有的数值所决定,主要分为标称、二元、序数和数值属性。
标称属性:类似于编程语言里的枚举类型,这种属性通常是无序的,由几个明确的值组成集合(通常是在某一个特定的数据集中)。例如hair_color属性,可分为balck、yellow、red等,虽然有很多中可能,但对于某一个特定的数据训练集,一定是有限的,我们可以通过标记0,1,2、、、来标识各属性值。
二元属性:类似于bool类型。该属性只有两种取值可能。例如性别。同时,二元属性还可以分为对称二元属性和非对称二元属性。在足够大的随机样本中,性别的取值分布就是一个对称二元属性。而如果对于取样中比如hiv化验的结果,就是一个非对称二元属性,因为显然,不可能阴性和阳性是等概率分布的。
序数属性:类似于标称属性,不过通常是有序的,各值之间有一定的联系,称其为ranking。例如学生成绩的一种划分,可以分为A+,A,A-,B等等,呈一个有序的排列。但是也是有限的。通常处理也是映射为离散值,0、1、2.、、、,便于处理。
数值属性:狭义上的属性值,是一种可定量的属性。例如一年中每天的气温值,这是连续可定量标识的。后面的统计描述数据也是基于这个的,因为只有基于这个的各统计运算是有意义的。
事实上,在更抽象程度上来说,属性可以分为两类:数值与非数值的,或者说是离散和连续的,由于计算机处理的特殊性,需要我们将自然语言转化为机器语言,这就需要将类似标称序数之类的属性转化为离散数值来度量。更简单点,将各种自然非自然属性转化为特征向量,这样便于后续处理。
二,统计学描述数据
数据中心趋势度量
主要反映了数据的中心分布或平均情况。主要有如下几个度量方式:均值、中位数、众数。一般来说,统计描述的数据是那些具有数值属性的数据,这样统计运算才有意义。
均值:一般来说是指算术平均值,在特定的应用中可以指定为加权算术均值。
中位数:一个数据集按大小排序,中间的数值。如果是奇数个,就是中间一个数,偶数则为中间两个数的均值。
众数:一个数据集中出现次数最多的数,当有多个数出现次数一样多时,均为众数。
数据中心趋势度量的几个指