R for Data Science总结之——modelr（3）-CSDN博客

本文链接：https://blog.csdn.net/weixin_38423453/article/details/82935930

本文深入探讨R for Data Science中的modelr库，重点讲解如何使用list-columns结构进行分组建模和数据操作。通过示例展示了如何创建、简化list-columns，以及如何利用broom包将模型输出转化为tidy data格式，便于分析和可视化。

摘要由CSDN通过智能技术生成

R for Data Science总结之——modelr（3）

这一章中我们将对大型数据集进行分组建模，深入挖掘数据集特征：

library(modelr)
library(tidyverse)
library(gapminder)
gapminder
#> # A tibble: 1,704 x 6
#>   country     continent  year lifeExp      pop gdpPercap
#>   <fct>       <fct>     <int>   <dbl>    <int>     <dbl>
#> 1 Afghanistan Asia       1952    28.8  8425333      779.
#> 2 Afghanistan Asia       1957    30.3  9240934      821.
#> 3 Afghanistan Asia       1962    32.0 10267083      853.
#> 4 Afghanistan Asia       1967    34.0 11537966      836.
#> 5 Afghanistan Asia       1972    36.1 13079460      740.
#> 6 Afghanistan Asia       1977    38.4 14880372      786.
#> # ... with 1,698 more rows

这里主要挖掘人均寿命lifeExp与年份year以及国家country之间的关系，首先作图：

gapminder %>% 
  ggplot(aes(year, lifeExp, group = country)) +
    geom_line(alpha = 1/3)

在这里插入图片描述
如果我们挑出其中某一个国家，其结果与前几章相似：

nz <- filter(gapminder, country == "New Zealand")
nz %>% 
  ggplot(aes(year, lifeExp)) + 
  geom_line() + 
  ggtitle("Full data = ")

nz_mod <- lm(lifeExp ~ year, data = nz)
nz %>% 
  add_predictions(nz_mod) %>%
  ggplot(aes(year, pred)) + 
  geom_line() + 
  ggtitle("Linear trend + ")

nz %>% 
  add_residuals(nz_mod) %>% 
  ggplot(aes(year, resid)) + 
  geom_hline(yintercept = 0, colour = "white", size = 3) + 
  geom_line() + 
  ggtitle("Remaining pattern")

在这里插入图片描述
而对一个数据集的深入挖掘需要对每个国家分别建模，这里用到purrr包的一个map函数，而对整个数据集进行操作，我们需要用到一个嵌套的数据集，这里可以先用group_by()分组，再nest()嵌套：

by_country <- gapminder %>% 
  group_by(country, continent) %>% 
  nest()

by_country
#> # A tibble: 142 x 3
#>   country     continent data             
#>   <fct>       <fct>     <list>           
#> 1 Afghanistan Asia      <tibble [12 × 4]>
#> 2 Albania     Europe    <tibble [12 × 4]>
#> 3 Algeria     Africa    <tibble [12 × 4]>
#> 4 Angola      Africa    <tibble [12 × 4]>
#> 5 Argentina   Americas  <tibble [12 × 4]>
#> 6 Australia   Oceania   <tibble [12 × 4]>
#> # ... with 136 more rows

我们从中抽出一个数据集：

by_country$data[[1]]
#> # A tibble: 12 x 4
#>    year lifeExp      pop gdpPercap
#>   <int>   <dbl>    <int>     <dbl>
#> 1  1952    28.8  8425333      779.
#> 2  1957    30.3  9240934      821.
#> 3  1962    32.0 10267083      853.
#> 4  1967    34.0 11537966      836.
#> 5  1972    36.1 13079460      740.
#> 6  1977    38.4 14880372      786.
#> # ... with 6 more rows

这里可以看出，一个分组的数据集，每一行是一个观测值，而一个嵌套数据集，每一行是一个组。
这里再创建一个函数用于对每一个组进行建模：

country_model <- function(df) {
  lm(lifeExp ~ year, data = df)
}

然后可以将其加到每一个组：

models <- map(by_country$data, country_model)

我们再在嵌套数据集中加上模型这个变量：

by_country <- by_country %>% 
  mutate(model = map(data, country_model))
by_country
#> # A tibble: 142 x 4
#>   country     continent data              model   
#>   <fct>       <fct>     <list>            <list>  
#> 1 Afghanistan Asia      <tibble [12 × 4]> <S3: lm>
#> 2 Albania     Europe    <tibble [12 × 4]> <S3: lm>
#> 3 Algeria     Africa    <tibble [12 × 4]> <S3: lm>
#> 4 Angola      Africa    <tibble [12 × 4]> <S3: lm>
#> 5 Argentina   Americas  <tibble [12 × 4]> <S3: lm>
#> 6 Australia   Oceania   <tibble [12 × 4]> <S3: lm