R for Data Science总结之——探索性数据分析
通常来说,探索性数据分析分为以下三步:
- 对数据集提出问题
- 通过数据可视化,数据处理以及数据建模寻找答案
- 解决问题或提出新的问题
首先载入包:
install.packages("tidyverse")
查看数据:
ggplot(data = diamonds) +
geom_bar(mapping = aes(x = cut))
柱状图中各个柱高为:
diamonds %>%
count(cut)
#> # A tibble: 5 x 2
#> cut n
#> <ord> <int>
#> 1 Fair 1610
#> 2 Good 4906
#> 3 Very Good 12082
#> 4 Premium 13791
#> 5 Ideal 21551
对于分类变量用geom_bar()花柱状图,而对于连续变量如carat,应使用geom_histogram():
ggplot(data = diamonds) +
geom_histogram(mapping = aes(x = carat), binwidth = 0.5)
这一项的数值也可通过dplyr::count()和ggplot2::cut_width()手动计算:
diamonds %>%
count(cut_width(carat, 0.5))
#> # A tibble: 11 x 2
#> `cut_width(carat, 0.5)` n
#> <fct> <int>
#> 1 [-0.25,0.25] 785
#> 2 (0.25,0.75] 29498
#> 3 (0.75,1.25] 15977
#> 4 (1.25,1.75] 5313
#> 5 (1.75,2.25] 2002
#> 6 (2.25,2.75] 322
#> # ... with 5 more rows
假如想对某一部分数据进行观察可调整binwidth参数:
smaller <- diamonds %>%
filter(carat < 3)
ggplot(data = smaller, mapping = aes(