作者:黄天元,复旦大学博士在读,热爱数据科学与开源工具(R),致力于利用数据科学迅速积累行业经验优势和科学知识发现,涉猎内容包括但不限于信息计量、机器学习、数据可视化、应用统计建模、知识图谱等,著有《R语言数据高效处理指南》(《R语言数据高效处理指南》(黄天元)【摘要 书评 试读】- 京东图书,《R语言数据高效处理指南》(黄天元)【简介_书评_在线阅读】 - 当当图书)。知乎专栏:R语言数据挖掘。邮箱:huang.tian-yuan@qq.com.欢迎合作交流。
最近获悉rOpenSci的skimr包又做了一次更新,到达了1.0.7版本,可参考链接:
https://ropensci.org/blog/2019/10/29/skimrv2/ropensci.org一般要对数据框进行了解,会用head/summary/str三个函数,而skimr则可以通过旗舰函数skim对其中的多个指标进行展示。用iris作为例子:
> skim(iris)
Skim summary statistics
n obs: 150
n variables: 5
-- Variable type:factor --------------------------------------------------------
variable missing complete n n_unique
Species 0 150 150 3
top_counts ordered
set: 50, ver: 50, vir: 50, NA: 0 FALSE
-- Variable type:numeric -------------------------------------------------------
variable missing complete n mean sd p0 p25 p50 p75
Petal.Length 0 150 150 3.76 1.77 1 1.6 4.35 5.1
Petal.Width 0 150 150 1.2 0.76 0.1 0.3 1.3 1.8
Sepal.Length 0 150 150 5.84 0.83 4.3 5.1 5.8 6.4
Sepal.Width 0 150 150 3.06 0.44 2 2.8 3 3.3
p100 hist
6.9 ▇▁▁▂▅▅▃▁
2.5 ▇▁▁▅▃▃▂▂
7.9 ▂▇▅▇▆▅▂▂
4.4 ▁▂▅▇▃▂▁▁
可以发现,它会展示有几行几列(obs是观测数量,即行数量;variables是变量的数量,即列数量),并把不同数据类型的变量分开显示,因子型会展示有多少个不同的类别,并查看有多少缺失值;数值型则会给出均值、标准差和四分位数,还会给出分布图。
这里将不对其他函数和拓展功能进行介绍,因为它们比较繁杂,但是却都不如skim函数来得便捷有效,感兴趣的小伙伴可以参照官网:
CRAN - Package skimrcran.r-project.org ropensci/skimrgithub.com因为它不依赖于图形可视化,因此在Linux系统下或者其他裸奔型R语言的界面中,是非常合适的展示。虽然tibble格式已经能够知道行列数、数据类型,但是直接给出四分位数、字符类别数和缺失值状况的,还是比较好的,可以作为很好的参考。