R语言把某些数替换成na_R语言探索性数据分析：skimr-CSDN博客

作者：黄天元，复旦大学博士在读，热爱数据科学与开源工具（R），致力于利用数据科学迅速积累行业经验优势和科学知识发现，涉猎内容包括但不限于信息计量、机器学习、数据可视化、应用统计建模、知识图谱等，著有《R语言数据高效处理指南》（《R语言数据高效处理指南》(黄天元)【摘要书评试读】- 京东图书，《R语言数据高效处理指南》(黄天元)【简介_书评_在线阅读】 - 当当图书）。知乎专栏：R语言数据挖掘。邮箱：huang.tian-yuan@qq.com.欢迎合作交流。

最近获悉rOpenSci的skimr包又做了一次更新，到达了1.0.7版本，可参考链接：

https://ropensci.org/blog/2019/10/29/skimrv2/ropensci.org

一般要对数据框进行了解，会用head/summary/str三个函数，而skimr则可以通过旗舰函数skim对其中的多个指标进行展示。用iris作为例子：

> skim(iris)
Skim summary statistics
 n obs: 150 
 n variables: 5 

-- Variable type:factor --------------------------------------------------------
 variable missing complete   n n_unique
  Species       0      150 150        3
                       top_counts ordered
 set: 50, ver: 50, vir: 50, NA: 0   FALSE

-- Variable type:numeric -------------------------------------------------------
     variable missing complete   n mean   sd  p0 p25  p50 p75
 Petal.Length       0      150 150 3.76 1.77 1   1.6 4.35 5.1
  Petal.Width       0      150 150 1.2  0.76 0.1 0.3 1.3  1.8
 Sepal.Length       0      150 150 5.84 0.83 4.3 5.1 5.8  6.4
  Sepal.Width       0      150 150 3.06 0.44 2   2.8 3    3.3
 p100     hist
  6.9 ▇▁▁▂▅▅▃▁
  2.5 ▇▁▁▅▃▃▂▂
  7.9 ▂▇▅▇▆▅▂▂
  4.4 ▁▂▅▇▃▂▁▁

可以发现，它会展示有几行几列（obs是观测数量，即行数量；variables是变量的数量，即列数量），并把不同数据类型的变量分开显示，因子型会展示有多少个不同的类别，并查看有多少缺失值；数值型则会给出均值、标准差和四分位数，还会给出分布图。

这里将不对其他函数和拓展功能进行介绍，因为它们比较繁杂，但是却都不如skim函数来得便捷有效，感兴趣的小伙伴可以参照官网：

CRAN - Package skimrcran.r-project.org ropensci/skimrgithub.com