ggplot2读书笔记12:第九章 数据分析

本书的最后一个部分,Part III,Data Analysis。主要包括三个章节,今天先来看第九章:

Data Analysis

9.1 简介

在前面的学习中,我们使用的模拟数据集都是已经整理好的数据框,可以直接使用。但通常实际数据并不会这么理想,需要通过一定的整理好变换才能用于作图

所以这个部分的目标就是把ggplot2和其他工具结合起来,用于完整的数据分析。

  • 首先学习整理数据的原则,了解dplyr以及tidyr等可以用于整理凌乱数据集的R包
  • 大多数可视化需要进行数据转换,可能要在现有变量的基础上,创造新的变量;或者执行简单的聚合。这些在第十章中有详细说明。
  • 使用R建模的过程中,如何将模型转换成整洁的数据集,这些在第十一章中可以稍作了解。

在本章中,作者用了两个事例来介绍怎样整理数据。

9.2 整理数据(Tidy Data)

整理数据的原则很简单:用一致的方式存储数据。(storing your data in a consistent way)

所以整理数据的目的是为了创造一个数据框的统计学结构(变量和观测数据)和物理结构(列和行)之间的映射。

其中,

变量放在中(Variables go in columns)

观测数据放在中(Observations go in rows)

我们需要先安装几个R包,dplyrtidyrmagrittr

下面加载一个需要整理的关于经济学失业率economics数据集的子集ec2,作为例子:

> ec2
# A tibble: 12 x 11
   month `2006` `2007` `2008` `2009` `2010` `2011` `2012` `2013` `2014` `2015`
   <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>
 1  1.00   8.60   8.30   9.00   10.7   20.0   21.6   21.0   16.2   15.9   13.4
 2  2.00   9.10   8.50   8.70   11.7   19.9   21.1   19.8   17.5   16.2   13.1
 3  3.00   8.70   9.10   8.70   12.3   20.4   21.5   19.2   17.7   15.9   12.2
 4  4.00   8.40   8.60   9.40   13.1   22.1   20.9   19.1   17.1   15.6   11.7
 5  5.00   8.50   
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值