ggplot2读书笔记12：第九章数据分析

最新推荐文章于 2020-03-02 16:48:36 发布

qy_microbiota

最新推荐文章于 2020-03-02 16:48:36 发布

阅读量685

点赞数

分类专栏： R ggplot2

本文链接：https://blog.csdn.net/qy_microbiota/article/details/79556831

版权

本书的最后一个部分，Part III，Data Analysis。主要包括三个章节，今天先来看第九章：

Data Analysis

9.1 简介

在前面的学习中，我们使用的模拟数据集都是已经整理好的数据框，可以直接使用。但通常实际数据并不会这么理想，需要通过一定的整理好变换才能用于作图

所以这个部分的目标就是把ggplot2和其他工具结合起来，用于完整的数据分析。

首先学习整理数据的原则，了解dplyr以及tidyr等可以用于整理凌乱数据集的R包
大多数可视化需要进行数据转换，可能要在现有变量的基础上，创造新的变量；或者执行简单的聚合。这些在第十章中有详细说明。
使用R建模的过程中，如何将模型转换成整洁的数据集，这些在第十一章中可以稍作了解。

在本章中，作者用了两个事例来介绍怎样整理数据。

9.2 整理数据（Tidy Data）

整理数据的原则很简单：用一致的方式存储数据。（storing your data in a consistent way）

所以整理数据的目的是为了创造一个数据框的统计学结构（变量和观测数据）和物理结构（列和行）之间的映射。

其中，

变量放在列中（Variables go in columns）

观测数据放在行中（Observations go in rows)

我们需要先安装几个R包，dplyr、tidyr、magrittr。

下面加载一个需要整理的关于经济学失业率economics数据集的子集ec2，作为例子：

> ec2
# A tibble: 12 x 11
   month `2006` `2007` `2008` `2009` `2010` `2011` `2012` `2013` `2014` `2015`
   <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>
 1  1.00   8.60   8.30   9.00   10.7   20.0   21.6   21.0   16.2   15.9   13.4
 2  2.00   9.10   8.50   8.70   11.7   19.9   21.1   19.8   17.5   16.2   13.1
 3  3.00   8.70   9.10   8.70   12.3   20.4   21.5   19.2   17.7   15.9   12.2
 4  4.00   8.40   8.60   9.40   13.1   22.1   20.9   19.1   17.1   15.6   11.7
 5  5.00   8.50

最低0.47元/天解锁文章

qy_microbiota

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
ggplot2读书笔记12：第九章数据分析

本书的最后一个部分，Part III，Data Analysis。主要包括三个章节，今天先来看第九章：Data Analysis9.1 简介在前面的学习中，我们使用的模拟数据集都是已经整理好的数据框，可以直接使用。但通常实际数据并不会这么理想，需要通过一定的整理好变换才能用于作图所以这个部分的目标就是把ggplot2和其他工具结合起来，用于完整的数据分析。首先...
复制链接

扫一扫