本书的最后一个部分,Part III,Data Analysis。主要包括三个章节,今天先来看第九章:
Data Analysis
9.1 简介
在前面的学习中,我们使用的模拟数据集都是已经整理好的数据框,可以直接使用。但通常实际数据并不会这么理想,需要通过一定的整理好变换才能用于作图
所以这个部分的目标就是把ggplot2和其他工具结合起来,用于完整的数据分析。
- 首先学习整理数据的原则,了解
dplyr
以及tidyr
等可以用于整理凌乱数据集的R包 - 大多数可视化需要进行数据转换,可能要在现有变量的基础上,创造新的变量;或者执行简单的聚合。这些在第十章中有详细说明。
- 使用R建模的过程中,如何将模型转换成整洁的数据集,这些在第十一章中可以稍作了解。
在本章中,作者用了两个事例来介绍怎样整理数据。
9.2 整理数据(Tidy Data)
整理数据的原则很简单:用一致的方式存储数据。(storing your data in a consistent way)
所以整理数据的目的是为了创造一个数据框的统计学结构(变量和观测数据)和物理结构(列和行)之间的映射。
其中,
变量放在列中(Variables go in columns)
观测数据放在行中(Observations go in rows)
我们需要先安装几个R包,dplyr
、tidyr
、magrittr
。
下面加载一个需要整理的关于经济学失业率economics
数据集的子集ec2
,作为例子:
> ec2
# A tibble: 12 x 11
month `2006` `2007` `2008` `2009` `2010` `2011` `2012` `2013` `2014` `2015`
<dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
1 1.00 8.60 8.30 9.00 10.7 20.0 21.6 21.0 16.2 15.9 13.4
2 2.00 9.10 8.50 8.70 11.7 19.9 21.1 19.8 17.5 16.2 13.1
3 3.00 8.70 9.10 8.70 12.3 20.4 21.5 19.2 17.7 15.9 12.2
4 4.00 8.40 8.60 9.40 13.1 22.1 20.9 19.1 17.1 15.6 11.7
5 5.00 8.50