输入数据后,我们就能在 R 中对数据进行一系列的操作了。但现实获得的第一手数据往往都是不完整、不整齐的,比如存在数据本身缺失值、离群值,数据框存在冗余行或列,抑或数据需要进一步加工才能获取有意义的变量等。因此,分析数据前对的数据处理工作极为重要。
本文介绍的数据处理内容主要包括:
- 1. 特殊值处理
- 1.1 缺失值
- 1.2 离群值
- 1.3 日期
- 2. 数据转换(base vs. dplyr)
- 2.1 筛选(subset vs. filter/select/rename)
- 2.2 排序(order vs. arrange)
- 2.3 转换(transform vs. mutate/transmute)
- 2.4 分组与概括(group_by/summarise)
- 3. 数据框重塑(base vs. dplyr)
- 3.1 数据框的合并(rbind/cbind vs. bind_rows/bind_cols)
- 3.2 数据框的关联(merge vs. *_ join)
- 3.3 数据框的长宽转换(reshape2 包)
本文我们学习特殊值处理的有关内容。后文链接:
Sub-woo:R语言笔记(四):数据处理(中)zhuanlan.zhihu.com有出错或补充的地方请大神们不吝赐教,作者会持续更新!
1. 特殊值处理
1.1 缺失值