数据分析工作的第一步往往是要通过一些描述性的统计,获得对所分析的数据集必要的了解。对于这个任务,在R中有两个常常用到的传统函数,一个是str(),用于展示对象的内部结构,给出数据集中变量的概览;另一个是summary(),给出一些汇总统计量:
library(tidyverse)
str(diamonds)
summary(diamonds)
###结果略
本文要介绍的R包skimr,可以提供变量汇总统计量的更丰富和优美的展示方式。
skimr包的优点:
提供了比summary()更多的统计量,还允许用户添加新的统计量
可以处理更多的数据类型,并按照数据类型报告结果
可以使用knitr进行表格的渲染,且支持基于pillar包的spark_bar和spark_line