R for Data Science总结之——探索性数据分析

本文是关于R for Data Science的探索性数据分析总结,包括不寻常值检测、缺省值处理、交互作用分析以及特征与建模。通过数据可视化、统计方法揭示数据背后的模式,并提供处理异常值和创建图表的技巧。
摘要由CSDN通过智能技术生成

R for Data Science总结之——探索性数据分析

通常来说,探索性数据分析分为以下三步:

  1. 对数据集提出问题
  2. 通过数据可视化,数据处理以及数据建模寻找答案
  3. 解决问题或提出新的问题

首先载入包:

install.packages("tidyverse")

查看数据:

ggplot(data = diamonds) +
  geom_bar(mapping = aes(x = cut))

在这里插入图片描述
柱状图中各个柱高为:

diamonds %>% 
  count(cut)
  #> # A tibble: 5 x 2
#>   cut           n
#>   <ord>     <int>
#> 1 Fair       1610
#> 2 Good       4906
#> 3 Very Good 12082
#> 4 Premium   13791
#> 5 Ideal     21551

对于分类变量用geom_bar()花柱状图,而对于连续变量如carat,应使用geom_histogram():

ggplot(data = diamonds) +
  geom_histogram(mapping = aes(x = carat), binwidth = 0.5)

在这里插入图片描述
这一项的数值也可通过dplyr::count()和ggplot2::cut_width()手动计算:

diamonds %>% 
  count(cut_width(carat, 0.5))
#> # A tibble: 11 x 2
#>   `cut_width(carat, 0.5)`     n
#>   <fct>                   <int>
#> 1 [-0.25,0.25]              785
#> 2 (0.25,0.75]             29498
#> 3 (0.75,1.25]             15977
#> 4 (1.25,1.75]              5313
#> 5 (1.75,2.25]              2002
#> 6 (2.25,2.75]               322
#> # ... with 5 more rows

假如想对某一部分数据进行观察可调整binwidth参数:

smaller <- diamonds %>% 
  filter(carat < 3)
  
ggplot(data = smaller, mapping = aes(
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值