R语言把某些数替换成na_R语言探索性数据分析:skimr

作者:黄天元,复旦大学博士在读,热爱数据科学与开源工具(R),致力于利用数据科学迅速积累行业经验优势和科学知识发现,涉猎内容包括但不限于信息计量、机器学习、数据可视化、应用统计建模、知识图谱等,著有《R语言数据高效处理指南》(《R语言数据高效处理指南》(黄天元)【摘要 书评 试读】- 京东图书,《R语言数据高效处理指南》(黄天元)【简介_书评_在线阅读】 - 当当图书)。知乎专栏:R语言数据挖掘。邮箱:huang.tian-yuan@qq.com.欢迎合作交流。

最近获悉rOpenSci的skimr包又做了一次更新,到达了1.0.7版本,可参考链接:

https://ropensci.org/blog/2019/10/29/skimrv2/​ropensci.org

一般要对数据框进行了解,会用head/summary/str三个函数,而skimr则可以通过旗舰函数skim对其中的多个指标进行展示。用iris作为例子:

> skim(iris)
Skim summary statistics
 n obs: 150 
 n variables: 5 

-- Variable type:factor --------------------------------------------------------
 variable missing complete   n n_unique
  Species       0      150 150        3
                       top_counts ordered
 set: 50, ver: 50, vir: 50, NA: 0   FALSE

-- Variable type:numeric -------------------------------------------------------
     variable missing complete   n mean   sd  p0 p25  p50 p75
 Petal.Length       0      150 150 3.76 1.77 1   1.6 4.35 5.1
  Petal.Width       0      150 150 1.2  0.76 0.1 0.3 1.3  1.8
 Sepal.Length       0      150 150 5.84 0.83 4.3 5.1 5.8  6.4
  Sepal.Width       0      150 150 3.06 0.44 2   2.8 3    3.3
 p100     hist
  6.9 ▇▁▁▂▅▅▃▁
  2.5 ▇▁▁▅▃▃▂▂
  7.9 ▂▇▅▇▆▅▂▂
  4.4 ▁▂▅▇▃▂▁▁

可以发现,它会展示有几行几列(obs是观测数量,即行数量;variables是变量的数量,即列数量),并把不同数据类型的变量分开显示,因子型会展示有多少个不同的类别,并查看有多少缺失值;数值型则会给出均值、标准差和四分位数,还会给出分布图。

这里将不对其他函数和拓展功能进行介绍,因为它们比较繁杂,但是却都不如skim函数来得便捷有效,感兴趣的小伙伴可以参照官网:

CRAN - Package skimr​cran.r-project.org ropensci/skimr​github.com
420cf197d98dd13e380891832ba0ff53.png
https://ropensci.github.io/skimr/​ropensci.github.io

因为它不依赖于图形可视化,因此在Linux系统下或者其他裸奔型R语言的界面中,是非常合适的展示。虽然tibble格式已经能够知道行列数、数据类型,但是直接给出四分位数、字符类别数和缺失值状况的,还是比较好的,可以作为很好的参考。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值