数据挖掘读书笔记一——数据认识

最近偏重看数据挖掘方面的知识,整了本韩家炜的《数据挖掘》慢慢研究,特整理此系列作为读书随笔。


第一篇是数据的相关知识,对应书上的第二章,主要讲述了数据有关基础的内容,和统计线性代数相关。


Part1,数据基础

一,数据属性与类别

属性简介

从广义上来讲,数据集中包含了每一个数据对象,每一个数据对象代表了一个实体,这倒颇有一点OO的思想。

对于任何一个数据,如果没有属性依托,则这个数据仅仅是一个数值而没有任何意义,属性表征了数据的特征。同时属性也是数据对象的组成部分,数据对象由一个个属性构成。在不同领域中,属性有不同的标识,统计领域称为“变量”,机器学习领域称为“特征”,数据仓库则是“维”,这些说的都是同一个概念。

借用数学中的向量概念,一个数据对象的属性集被称为属性向量或特征向量,只有一个属性的称为单属性数据,两个属性的则为双属性数据,乃至多属性数据。

属性分类

属性也有具体的分类,主要是由其所有的数值所决定,主要分为标称、二元、序数和数值属性。

标称属性:类似于编程语言里的枚举类型,这种属性通常是无序的,由几个明确的值组成集合(通常是在某一个特定的数据集中)。例如hair_color属性,可分为balck、yellow、red等,虽然有很多中可能,但对于某一个特定的数据训练集,一定是有限的,我们可以通过标记0,1,2、、、来标识各属性值。

二元属性:类似于bool类型。该属性只有两种取值可能。例如性别。同时,二元属性还可以分为对称二元属性和非对称二元属性。在足够大的随机样本中,性别的取值分布就是一个对称二元属性。而如果对于取样中比如hiv化验的结果,就是一个非对称二元属性,因为显然,不可能阴性和阳性是等概率分布的。

序数属性:类似于标称属性,不过通常是有序的,各值之间有一定的联系,称其为ranking。例如学生成绩的一种划分,可以分为A+,A,A-,B等等,呈一个有序的排列。但是也是有限的。通常处理也是映射为离散值,0、1、2.、、、,便于处理。

数值属性:狭义上的属性值,是一种可定量的属性。例如一年中每天的气温值,这是连续可定量标识的。后面的统计描述数据也是基于这个的,因为只有基于这个的各统计运算是有意义的。

事实上,在更抽象程度上来说,属性可以分为两类:数值与非数值的,或者说是离散和连续的,由于计算机处理的特殊性,需要我们将自然语言转化为机器语言,这就需要将类似标称序数之类的属性转化为离散数值来度量。更简单点,将各种自然非自然属性转化为特征向量,这样便于后续处理。


二,统计学描述数据

数据中心趋势度量

主要反映了数据的中心分布或平均情况。主要有如下几个度量方式:均值、中位数、众数。一般来说,统计描述的数据是那些具有数值属性的数据,这样统计运算才有意义。

均值:一般来说是指算术平均值,在特定的应用中可以指定为加权算术均值。

中位数:一个数据集按大小排序,中间的数值。如果是奇数个,就是中间一个数,偶数则为中间两个数的均值。

众数:一个数据集中出现次数最多的数,当有多个数出现次数一样多时,均为众数。


数据中心趋势度量的几个指

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值