数据挖掘读书笔记一——数据认识

最新推荐文章于 2021-07-08 17:17:12 发布

Sky_Money

最新推荐文章于 2021-07-08 17:17:12 发布

阅读量3.7k

点赞数 1

分类专栏：机器学习&数据挖掘

本文链接：https://blog.csdn.net/Sky_Money/article/details/8066276

版权

本文是韩家炜《数据挖掘》读书笔记的第一部分，主要介绍数据的基础知识，包括数据属性（标称、二元、序数、数值属性）及其分类，以及统计学中描述数据的方法如均值、中位数、众数，和数据分布度量。此外，还提及了数据可视化和数据度量的重要性。

摘要由CSDN通过智能技术生成

最近偏重看数据挖掘方面的知识，整了本韩家炜的《数据挖掘》慢慢研究，特整理此系列作为读书随笔。

第一篇是数据的相关知识，对应书上的第二章，主要讲述了数据有关基础的内容，和统计线性代数相关。

Part1，数据基础

从广义上来讲，数据集中包含了每一个数据对象，每一个数据对象代表了一个实体，这倒颇有一点OO的思想。

对于任何一个数据，如果没有属性依托，则这个数据仅仅是一个数值而没有任何意义，属性表征了数据的特征。同时属性也是数据对象的组成部分，数据对象由一个个属性构成。在不同领域中，属性有不同的标识，统计领域称为“变量”，机器学习领域称为“特征”，数据仓库则是“维”，这些说的都是同一个概念。

借用数学中的向量概念，一个数据对象的属性集被称为属性向量或特征向量，只有一个属性的称为单属性数据，两个属性的则为双属性数据，乃至多属性数据。

属性也有具体的分类，主要是由其所有的数值所决定，主要分为标称、二元、序数和数值属性。

标称属性：类似于编程语言里的枚举类型，这种属性通常是无序的，由几个明确的值组成集合（通常是在某一个特定的数据集中）。例如hair_color属性，可分为balck、yellow、red等，虽然有很多中可能，但对于某一个特定的数据训练集，一定是有限的，我们可以通过标记0，1，2、、、来标识各属性值。

二元属性：类似于bool类型。该属性只有两种取值可能。例如性别。同时，二元属性还可以分为对称二元属性和非对称二元属性。在足够大的随机样本中，性别的取值分布就是一个对称二元属性。而如果对于取样中比如hiv化验的结果，就是一个非对称二元属性，因为显然，不可能阴性和阳性是等概率分布的。

序数属性：类似于标称属性，不过通常是有序的，各值之间有一定的联系，称其为ranking。例如学生成绩的一种划分，可以分为A+，A，A-，B等等，呈一个有序的排列。但是也是有限的。通常处理也是映射为离散值，0、1、2.、、、，便于处理。

数值属性：狭义上的属性值，是一种可定量的属性。例如一年中每天的气温值，这是连续可定量标识的。后面的统计描述数据也是基于这个的，因为只有基于这个的各统计运算是有意义的。

事实上，在更抽象程度上来说，属性可以分为两类：数值与非数值的，或者说是离散和连续的，由于计算机处理的特殊性，需要我们将自然语言转化为机器语言，这就需要将类似标称序数之类的属性转化为离散数值来度量。更简单点，将各种自然非自然属性转化为特征向量，这样便于后续处理。

主要反映了数据的中心分布或平均情况。主要有如下几个度量方式：均值、中位数、众数。一般来说，统计描述的数据是那些具有数值属性的数据，这样统计运算才有意义。

均值：一般来说是指算术平均值，在特定的应用中可以指定为加权算术均值。

中位数：一个数据集按大小排序，中间的数值。如果是奇数个，就是中间一个数，偶数则为中间两个数的均值。

众数：一个数据集中出现次数最多的数，当有多个数出现次数一样多时，均为众数。

数据中心趋势度量的几个指