第一章数据概览
“数据” 是我们进行数据挖掘的起点。只要我们细心观察,我们可以发现数据无处不在。一个小商店,某一天的可乐销售量是单个数据;某影院,《疯狂原始人》的每场上座率是一组数据:京东商城某次促销活动期间, 各商品的折扣、浏览量、销量, 及各商品间的购买关联性等,已可以构成一个值得去动手分析的数据集;中国各省市, 乃至世界各国家近十年的人口数、出生率、死亡率等则是更庞大丰富的数据集合;在各个领域更有医学、气象学、遗传学等涉及高深专业知识的数据等。
(1)三个数据集
本节简单引入 R 软件中的三个自带数据集进行解释。
1.1 uspop 数据集为一组时间序列数据,从 1790 年至 1970 年,每隔 10 年取一个值
uspop
1.2 Titanic 数据集记录了泰坦尼克号沉船事件中乘客年龄,性别,船舱等级,以及是否存活 4 项信息。
1.3 Women 数据集是一张 15*12 的表格,相应存放着 15 个样本和 2 个变量的数据信息。
women
无论原始数据记录形式如何,都可以通过适当整理使之成为我们熟悉的 nm 表格形式,这种 nm 表格形式是各项数据分析的基本形式,便于软件读入,函数识别,数据预处理等步骤展开。但不排除其他列表形式对于特殊分析的便捷性,比如说 Titanic 数据集,这样的列联表就是进行列联分析的最佳形式。
一般来说,当拿到一份数据时,最先做的往往就是查看数据集的观测样本数、变量数,以及这些变量的实际含义,以此对数据集的庞大程度和各变量的相对重要程度做到心里有数。这对选取何种数据挖掘算法,以及在这之前应该抽取多少及哪些变量和样本纳入建模中都有着重要的先导作用。
参考
[1] 黄文,王正林.数据挖掘:R语言实战[M].电子工业出版社,北京,2014.